Как читать корреляционную матрицу

В статистике нас часто интересует понимание взаимосвязи между двумя переменными.

Например, мы можем захотеть понять взаимосвязь между количеством часов, отработанных студентом, и полученными им экзаменационными баллами.

Одним из способов количественной оценки этой взаимосвязи является использование коэффициента корреляции Пирсона , который является мерой линейной связи между двумя переменными . Он имеет значение от -1 до 1, где:

-1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
0 указывает на отсутствие линейной корреляции между двумя переменными
1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.

По теме: Что считается «сильной» корреляцией?

Но в некоторых случаях мы хотим понять корреляцию между более чем одной парой переменных. В этих случаях мы можем создать матрицу корреляции , представляющую собой квадратную таблицу, которая показывает коэффициенты корреляции между несколькими переменными.

Пример корреляционной матрицы

В приведенной ниже матрице корреляции показаны коэффициенты корреляции между несколькими переменными, связанными с образованием:

Каждая ячейка в таблице показывает корреляцию между двумя конкретными переменными. Например, выделенная ячейка ниже показывает, что корреляция между «часами, потраченными на учебу» и «оценкой за экзамен» составляет 0,82 , что указывает на сильную положительную корреляцию. Больше часов, потраченных на учебу, тесно связано с более высокими баллами на экзаменах.

Пример того, как читать корреляционную матрицу

А выделенная ячейка ниже показывает, что корреляция между «часами, потраченными на учебу» и «часами, потраченными на сон» составляет -0,22 , что указывает на слабую отрицательную корреляцию. Больше часов, потраченных на учебу, связано с меньшим количеством часов, потраченных на сон.

Пример отрицательной корреляции в корреляционной матрице

А выделенная ячейка ниже показывает, что корреляция между «количеством часов, проведенных во сне» и «показателем IQ» составляет 0,06 , что указывает на то, что они в основном не связаны. Существует очень небольшая связь между количеством часов, которые студент спит, и его показателем IQ.

Пример матрицы корреляции без корреляции

Также обратите внимание, что все коэффициенты корреляции по диагонали таблицы равны 1, потому что каждая переменная полностью коррелирует сама с собой. Эти ячейки бесполезны для интерпретации.

Пример диагональных ячеек корреляционной матрицы

Вариации корреляционной матрицы

Обратите внимание, что корреляционная матрица совершенно симметрична. Например, верхняя правая ячейка показывает то же значение, что и нижняя левая ячейка:

Это связано с тем, что обе ячейки измеряют корреляцию между «часами, потраченными на учебу» и «рейтингом школы».

Поскольку матрица корреляции симметрична, половина коэффициентов корреляции, показанных в матрице, являются избыточными и ненужными. Таким образом, иногда будет отображаться только половина корреляционной матрицы:

А иногда матрица корреляции раскрашивается, как тепловая карта, чтобы коэффициенты корреляции было еще легче читать:

Пример матрицы корреляции тепловой карты

Когда использовать корреляционную матрицу

На практике корреляционная матрица обычно используется по трем причинам:

1. Корреляционная матрица удобно обобщает набор данных.

Матрица корреляции — это простой способ суммировать корреляции между всеми переменными в наборе данных. Например, предположим, что у нас есть следующий набор данных, который содержит следующую информацию для 1000 учащихся:

Пример необработанного набора данных для корреляционной матрицы

Было бы очень сложно понять взаимосвязь между каждой переменной, просто глядя на необработанные данные. К счастью, корреляционная матрица может помочь нам быстро понять корреляции между каждой парой переменных.

2. Корреляционная матрица служит диагностикой регрессии.

Одним из ключевых допущений множественной линейной регрессии является то, что ни одна независимая переменная в модели не имеет сильной корреляции с другой переменной в модели.

Когда две независимые переменные сильно коррелированы, это приводит к проблеме, известной как мультиколлинеарность , и может затруднить интерпретацию результатов регрессии.

Один из самых простых способов обнаружить потенциальную проблему мультиколлинеарности — посмотреть на матрицу корреляции и визуально проверить, сильно ли коррелируют какие-либо переменные друг с другом.

3. Корреляционная матрица может использоваться в качестве исходных данных для других анализов.

Корреляционная матрица используется в качестве исходных данных для других сложных анализов, таких как исследовательский факторный анализ и модели структурных уравнений.

Дополнительные ресурсы

В следующих руководствах объясняется, как создать корреляционную матрицу с помощью различных статистических программ:

Как создать корреляционную матрицу в Excel
Как создать корреляционную матрицу в SPSS
Как создать корреляционную матрицу в Stata
Как создать корреляционную матрицу в Python
Как создать корреляционную матрицу в Matlab

Как читать корреляционную матрицу

Пример корреляционной матрицы

Вариации корреляционной матрицы

Когда использовать корреляционную матрицу

Дополнительные ресурсы

Редакция Кодкампа