Коэффициент корреляции Пирсона (также известный как «коэффициент корреляции продукта и момента») измеряет линейную связь между двумя переменными.
Он всегда принимает значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
- 0 указывает на отсутствие линейной корреляции между двумя переменными
- 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.
Однако, прежде чем мы вычислим коэффициент корреляции Пирсона между двумя переменными, мы должны убедиться, что выполняются пять допущений:
1. Уровень измерения: две переменные должны быть измерены на уровне интервала или отношения .
2. Линейная зависимость. Между двумя переменными должна существовать линейная зависимость.
3. Нормальность: обе переменные должны иметь примерно нормальное распределение.
4. Связанные пары. Каждое наблюдение в наборе данных должно иметь пару значений.
5. Отсутствие выбросов. В наборе данных не должно быть экстремальных выбросов.
В этой статье мы даем объяснение для каждого предположения, а также то, как определить, выполняется ли предположение.
Допущение 1: Уровень измерения
Чтобы вычислить коэффициент корреляции Пирсона между двумя переменными, обе переменные должны быть измерены на уровне интервала или отношения .
Следующий рисунок дает краткое объяснение четырех уровней, на которых могут быть измерены переменные:
![](https://www.codecamp.ru/content/images/2020/01/levels_measurement.jpg)
Некоторые примеры переменных, которые можно измерить по шкале интервалов , включают:
- Температура: измеряется в градусах Фаренгейта или Цельсия.
- Кредитный рейтинг: измеряется от 300 до 850.
- Результаты SAT: от 400 до 1600.
Некоторые примеры переменных, которые можно измерить по шкале отношений , включают:
- Рост: измеряется в сантиметрах, дюймах, футах и т. д.
- Вес: Измеряется в килограммах, фунтах и т. д.
- Длина: измеряется в сантиметрах, дюймах, футах и т. д.
Если переменные измеряются на порядковом уровне, то вместо этого следует рассчитать коэффициент корреляции Спирмена между ними.
Связанный: Уровни измерения: номинальный, порядковый, интервальный и относительный
Допущение 2: линейная зависимость
Для расчета коэффициента корреляции Пирсона между двумя переменными должна существовать линейная связь между двумя переменными.
Самый простой способ проверить это предположение — просто построить график рассеяния двух переменных. Если точки на графике падают примерно по прямой линии, то существует линейная зависимость:
![](https://www.codecamp.ru/content/images/2021/11/assum1.png)
Однако, если точки случайным образом разбросаны по графику или если они демонстрируют какой-либо другой тип отношений (например, квадратичный), то между переменными не существует линейной зависимости:
![](https://www.codecamp.ru/content/images/2021/11/assum2.png)
В этом случае коэффициент корреляции Пирсона не сможет хорошо отразить взаимосвязь между переменными.
Предположение 3: нормальность
Коэффициент корреляции Пирсона также предполагает, что обе переменные примерно нормально распределены .
Вы можете проверить это предположение визуально, создав гистограмму или график QQ для каждой переменной.
1. Гистограмма
Если гистограмма для набора данных имеет форму колокола, вероятно, данные распределены нормально.
![](https://www.codecamp.ru/content/images/2021/03/normalityAssume1.png)
2. Сюжет QQ
График QQ, сокращение от графика «квантиль-квантиль», представляет собой тип графика, который отображает теоретические квантили по оси x (т. е. где ваши данные лежали бы, если бы они следовали нормальному распределению) и выборочные квантили по оси y. (т.е. где на самом деле лежат ваши данные).
Если значения данных падают примерно по прямой линии под углом 45 градусов, предполагается, что данные распределены нормально.
![](https://www.codecamp.ru/content/images/2021/03/normalityAssume2.png)
Вы также можете выполнить формальный статистический тест, чтобы определить, нормально ли распределена переменная.
Если p-значение теста меньше определенного уровня значимости (например, α = 0,05), то у вас есть достаточно доказательств, чтобы сказать, что данные не распределены нормально.
Есть три статистических теста, которые обычно используются для проверки нормальности:
1. Тест Харке-Бера
- Как выполнить тест Харке-Бера в Excel
- Как выполнить тест Харке-Бера в R
- Как выполнить тест Харке-Бера в Python
2. Тест Шапиро-Уилка
3. Тест Колмогорова-Смирнова.
Допущение 4: связанные пары
Коэффициент корреляции Пирсона также предполагает, что каждое наблюдение в наборе данных должно иметь пару значений.
Это предположение легко проверить. Например, если вы вычисляете корреляцию между весом и ростом, просто убедитесь, что каждое наблюдение в наборе данных имеет одно измерение для веса и одно измерение для роста.
Допущение 5: нет выбросов
Коэффициент корреляции Пирсона также предполагает, что в наборе данных нет экстремальных выбросов, поскольку выбросы сильно влияют на расчет коэффициента корреляции.
Чтобы проиллюстрировать это, рассмотрим следующий набор данных:
![](https://www.codecamp.ru/content/images/2021/11/assum3.png)
Коэффициент корреляции Пирсона между X и Y равен 0,949 .
Однако предположим, что у нас есть один выброс в наборе данных:
![](https://www.codecamp.ru/content/images/2021/11/assum4.png)
Коэффициент корреляции Пирсона между X и Y теперь равен 0,711 .
Один выброс существенно изменяет коэффициент корреляции Пирсона между двумя переменными. В этом случае может иметь смысл удалить выброс из набора данных.
Связанный: Полное руководство: когда удалять выбросы в данных
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация о корреляции Пирсона:
Введение в коэффициент корреляции Пирсона
Как сообщить о корреляции Пирсона в формате APA
Как рассчитать коэффициент корреляции Пирсона вручную