Что считается «слабой» корреляцией?


В статистике нам часто интересно понять, как две переменные связаны друг с другом. Например, мы можем захотеть узнать:

  • Какова взаимосвязь между количеством часов обучения студента и полученными им экзаменационными баллами?
  • Какова связь между температурой на улице и количеством батончиков мороженого, проданных фургоном с едой?
  • Какова связь между долларами, потраченными на рекламу, и общим доходом, полученным определенной компанией?

В каждом сценарии нас интересует взаимосвязь между двумя переменными.

Одним из наиболее распространенных способов количественной оценки связи между двумя переменными является использованиекоэффициента корреляции Пирсона , который является мерой линейной связи между двумя переменными.

Он всегда принимает значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
  • 0 указывает на отсутствие линейной корреляции между двумя переменными
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Часто обозначаемое как r , это число помогает нам понять силу связи между двумя переменными. Чем ближе r к нулю, тем слабее связь между двумя переменными .

Важно отметить, что две переменные могут иметь слабую положительную корреляцию или слабую отрицательную корреляцию.

Слабая положительная корреляция: когда одна переменная увеличивается, другая переменная также имеет тенденцию к увеличению, но слабым или ненадежным образом.

Слабая отрицательная корреляция: когда одна переменная увеличивается, другая переменная имеет тенденцию к уменьшению, но слабым или ненадежным образом.

В следующей таблице показано эмпирическое правило для интерпретации силы связи между двумя переменными на основе значения r :

| Абсолютное значение r | Прочность отношений | | --- | --- | | р < 0,25 | Нет отношений | | 0,25 < г < 0,5 | Слабые отношения | | 0,5 < г < 0,75 | Умеренные отношения | | г > 0,75 | Тесная взаимосвязь |

Корреляция между двумя переменными считается слабой, если абсолютное значение r находится между 0,25 и 0,5.

Однако определение «слабой» корреляции может варьироваться от одной области к другой.

Медицинский

В медицинских областях определение «слабой» связи часто намного ниже. Если взаимосвязь между приемом определенного лекарства и снижением частоты сердечных приступов составляет r = 0,2, то в других областях это можно было бы считать «отсутствием связи», но в медицине это достаточно значимо, чтобы стоило принимать лекарство, чтобы снизить вероятность сердечного приступа. сердечный приступ.

Человеческие ресурсы

В таких областях, как человеческие ресурсы, более низкие корреляции также используются чаще. Например, было показано, что корреляция между средним баллом колледжа и производительностью труда составляет около r = 0,16.Это довольно мало, но достаточно много, чтобы компания, по крайней мере, обратила на это внимание во время собеседования.

Технологии

В технологических областях корреляция между переменными должна быть намного выше, чтобы даже считаться «слабой». Например, если компания создает самоуправляемый автомобиль и корреляция между решениями автомобиля о поворотах и вероятностью избежать аварии составляет r = 0,95 , это можно считать «слабой» корреляцией и, вероятно, слишком малой для автомобиля. считаться безопасным, так как результат принятия неверного решения может быть фатальным.

Использование диаграмм рассеяния для визуализации корреляций

Когда вы вычисляете коэффициент корреляции между двумя переменными, полезно также создать диаграмму рассеяния, чтобы визуализировать корреляцию.

В частности, диаграммы рассеяния предлагают два преимущества:

1. Диаграммы рассеяния могут помочь вам выявить выбросы, влияющие на коэффициент корреляции.

Один экстремальный выброс может иметь большое влияние на коэффициент корреляции. Рассмотрим приведенный ниже пример, в котором переменные X и Y имеют коэффициент корреляции Пирсона r = 0,91 .

Теперь представьте, что мы изменили первую точку данных, чтобы она стала намного больше. Коэффициент корреляции внезапно становится r = 0,29 .

Эта единственная точка данных вызывает изменение коэффициента корреляции с сильной положительной связи на слабую положительную связь.

(2) Диаграммы рассеяния могут помочь вам определить нелинейные отношения между переменными.

Коэффициент корреляции Пирсона просто говорит нам, связаны ли две переменные линейно.Но даже если коэффициент корреляции Пирсона говорит нам, что две переменные некоррелированы, они все равно могут иметь некоторую нелинейную связь.

Например, рассмотрим приведенную ниже диаграмму рассеяния между переменными X и Y , в которой их корреляция равна r = 0,00 .

Очевидно, что переменные не имеют линейной зависимости, но имеют нелинейную зависимость: значения y — это просто квадрат значений x.

Коэффициент корреляции сам по себе не может уловить эту связь, но диаграмма рассеяния может.

Вывод

В итоге:

1. Как правило, коэффициент корреляции между 0,25 и 0,5 считается «слабой» корреляцией между двумя переменными.

2. Это эмпирическое правило может варьироваться от области к области. Например, гораздо более низкая корреляция может считаться слабой в области медицины по сравнению с областью технологий. Обязательно используйте экспертные знания в предметной области при принятии решения о том, что считается слабой корреляцией.

3. При использовании коэффициента корреляции для описания взаимосвязи между двумя переменными полезно также создать диаграмму рассеяния, чтобы можно было определить любые выбросы в наборе данных наряду с потенциальной нелинейной взаимосвязью.

Дополнительные ресурсы

Что считается «сильной» корреляцией?
Калькулятор корреляционной матрицы
Корреляция против ассоциации: в чем разница?