Пять предположений для корреляции Пирсона

Коэффициент корреляции Пирсона (также известный как «коэффициент корреляции продукта и момента») измеряет линейную связь между двумя переменными.

Он всегда принимает значение от -1 до 1, где:

-1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
0 указывает на отсутствие линейной корреляции между двумя переменными
1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Однако, прежде чем мы вычислим коэффициент корреляции Пирсона между двумя переменными, мы должны убедиться, что выполняются пять допущений:

1. Уровень измерения: две переменные должны быть измерены на уровне интервала или отношения .

2. Линейная зависимость. Между двумя переменными должна существовать линейная зависимость.

3. Нормальность: обе переменные должны иметь примерно нормальное распределение.

4. Связанные пары. Каждое наблюдение в наборе данных должно иметь пару значений.

5. Отсутствие выбросов. В наборе данных не должно быть экстремальных выбросов.

В этой статье мы даем объяснение для каждого предположения, а также то, как определить, выполняется ли предположение.

Допущение 1: Уровень измерения

Чтобы вычислить коэффициент корреляции Пирсона между двумя переменными, обе переменные должны быть измерены на уровне интервала или отношения .

Следующий рисунок дает краткое объяснение четырех уровней, на которых могут быть измерены переменные:

Некоторые примеры переменных, которые можно измерить по шкале интервалов , включают:

Температура: измеряется в градусах Фаренгейта или Цельсия.
Кредитный рейтинг: измеряется от 300 до 850.
Результаты SAT: от 400 до 1600.

Некоторые примеры переменных, которые можно измерить по шкале отношений , включают:

Рост: измеряется в сантиметрах, дюймах, футах и т. д.
Вес: Измеряется в килограммах, фунтах и т. д.
Длина: измеряется в сантиметрах, дюймах, футах и т. д.

Если переменные измеряются на порядковом уровне, то вместо этого следует рассчитать коэффициент корреляции Спирмена между ними.

Связанный: Уровни измерения: номинальный, порядковый, интервальный и относительный

Допущение 2: линейная зависимость

Для расчета коэффициента корреляции Пирсона между двумя переменными должна существовать линейная связь между двумя переменными.

Самый простой способ проверить это предположение — просто построить график рассеяния двух переменных. Если точки на графике падают примерно по прямой линии, то существует линейная зависимость:

Однако, если точки случайным образом разбросаны по графику или если они демонстрируют какой-либо другой тип отношений (например, квадратичный), то между переменными не существует линейной зависимости:

В этом случае коэффициент корреляции Пирсона не сможет хорошо отразить взаимосвязь между переменными.

Предположение 3: нормальность

Коэффициент корреляции Пирсона также предполагает, что обе переменные примерно нормально распределены .

Вы можете проверить это предположение визуально, создав гистограмму или график QQ для каждой переменной.

1. Гистограмма

Если гистограмма для набора данных имеет форму колокола, вероятно, данные распределены нормально.

2. Сюжет QQ

График QQ, сокращение от графика «квантиль-квантиль», представляет собой тип графика, который отображает теоретические квантили по оси x (т. е. где ваши данные лежали бы, если бы они следовали нормальному распределению) и выборочные квантили по оси y. (т.е. где на самом деле лежат ваши данные).

Если значения данных падают примерно по прямой линии под углом 45 градусов, предполагается, что данные распределены нормально.

Вы также можете выполнить формальный статистический тест, чтобы определить, нормально ли распределена переменная.

Если p-значение теста меньше определенного уровня значимости (например, α = 0,05), то у вас есть достаточно доказательств, чтобы сказать, что данные не распределены нормально.

Есть три статистических теста, которые обычно используются для проверки нормальности:

1. Тест Харке-Бера

2. Тест Шапиро-Уилка

3. Тест Колмогорова-Смирнова.

Допущение 4: связанные пары

Коэффициент корреляции Пирсона также предполагает, что каждое наблюдение в наборе данных должно иметь пару значений.

Это предположение легко проверить. Например, если вы вычисляете корреляцию между весом и ростом, просто убедитесь, что каждое наблюдение в наборе данных имеет одно измерение для веса и одно измерение для роста.

Допущение 5: нет выбросов

Коэффициент корреляции Пирсона также предполагает, что в наборе данных нет экстремальных выбросов, поскольку выбросы сильно влияют на расчет коэффициента корреляции.

Чтобы проиллюстрировать это, рассмотрим следующий набор данных:

Коэффициент корреляции Пирсона между X и Y равен 0,949 .

Однако предположим, что у нас есть один выброс в наборе данных:

Коэффициент корреляции Пирсона между X и Y теперь равен 0,711 .

Один выброс существенно изменяет коэффициент корреляции Пирсона между двумя переменными. В этом случае может иметь смысл удалить выброс из набора данных.

Связанный: Полное руководство: когда удалять выбросы в данных

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о корреляции Пирсона:

Введение в коэффициент корреляции Пирсона
Как сообщить о корреляции Пирсона в формате APA
Как рассчитать коэффициент корреляции Пирсона вручную