Как создать ковариационную матрицу в Excel

Ковариация — это мера того, как изменения одной переменной связаны с изменениями второй переменной. В частности, это мера степени линейной связи двух переменных.

Формула для расчета ковариации между двумя переменными, X и Y :

COV( X , Y ) = Σ(x- x )(y -y )/n

Ковариационная матрица представляет собой квадратную матрицу, которая показывает ковариацию между множеством различных переменных. Это может быть простым и полезным способом понять, как различные переменные связаны в наборе данных.

В следующем примере показано, как создать ковариационную матрицу в Excel с использованием простого набора данных.

Как создать ковариационную матрицу в Excel

Предположим, у нас есть следующий набор данных, который показывает результаты тестов 10 разных учащихся по трем предметам: математике, естественным наукам и истории.

Чтобы создать ковариационную матрицу для этого набора данных, щелкните параметр « Анализ данных» в правом верхнем углу Excel на вкладке « Данные ».

Примечание. Если вы не видите параметр «Анализ данных», вам необходимо сначала загрузить пакет инструментов анализа данных .

После того, как вы нажмете эту опцию, появится новое окно. Щелкните Ковариация .

Ковариация в пакете инструментов анализа данных в Excel

В поле « Входной диапазон » введите «$A$1:$C$11», так как это диапазон ячеек, в котором находится наш набор данных. Установите флажок « Метки в первой строке », чтобы указать Excel, что метки для наших переменных расположены в первой строке. Затем в поле Выходной диапазон введите любую ячейку, в которой вы хотите разместить ковариационную матрицу. Я выбрал ячейку $E$2. Затем нажмите ОК .

Ковариационная матрица генерируется автоматически и появляется в ячейке $E$2:

Ковариационная матрица для простого набора данных в Excel

### Как интерпретировать ковариационную матрицу

Когда у нас есть ковариационная матрица, довольно просто интерпретировать значения в матрице.

Значения по диагоналям матрицы — это просто отклонения каждого субъекта. Например:

Дисперсия оценок по математике составляет 64,96.
Дисперсия баллов по естественным наукам составляет 56,4.
Дисперсия оценок по истории составляет 75,56.

Значения дисперсии в ковариационной матрице

Другие значения в матрице представляют собой ковариации между различными субъектами. Например:

Ковариация между оценками по математике и естественным наукам составляет 33,2.
Ковариация между оценками по математике и истории составляет -24,44.
Ковариация между оценками по науке и истории составляет -24,1.

Пример того, как интерпретировать ковариационную матрицу

Положительное число для ковариации указывает на то, что две переменные имеют тенденцию увеличиваться или уменьшаться в тандеме. Например, математика и естествознание имеют положительную ковариацию (33,2), что указывает на то, что учащиеся, получившие высокие баллы по математике, также, как правило, получают высокие баллы по естественным наукам. Точно так же учащиеся с низкими баллами по математике, как правило, также имеют низкие баллы по естественным наукам.

Отрицательное число для ковариации указывает на то, что по мере увеличения одной переменной вторая переменная имеет тенденцию к уменьшению. Например, математика и история имеют отрицательную ковариацию (-24,44), что указывает на то, что учащиеся с высокими баллами по математике, как правило, имеют низкие баллы по истории. Точно так же учащиеся с низкими баллами по математике, как правило, получают высокие баллы по истории.

Как создать ковариационную матрицу в Excel

Как создать ковариационную матрицу в Excel

Редакция Кодкампа