Что считается «сильной» корреляцией?

Что считается «сильной» корреляцией?

В статистике нам часто интересно понять, как две переменные связаны друг с другом. Например, мы можем захотеть узнать:

  • Какова взаимосвязь между количеством часов обучения студента и полученными им экзаменационными баллами?
  • Какова связь между температурой снаружи и количеством рожков мороженого, которые продает фудтрак?
  • Какова связь между потраченными на маркетинг долларами и общим доходом, полученным для определенного бизнеса?

В каждом из этих сценариев мы пытаемся понять взаимосвязь между двумя разными переменными.

В статистике одним из наиболее распространенных способов количественной оценки связи между двумя переменными является использованиекоэффициента корреляции Пирсона , который является мерой линейной связи между двумя переменными . Он имеет значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
  • 0 указывает на отсутствие линейной корреляции между двумя переменными
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Часто обозначаемое как r , это число помогает нам понять, насколько сильна связь между двумя переменными. Чем дальше r от нуля, тем сильнее связь между двумя переменными .

Важно отметить, что две переменные могут иметь сильную положительную корреляцию или сильную отрицательную корреляцию.

Сильная положительная корреляция: когда значение одной переменной увеличивается, значение другой переменной увеличивается аналогичным образом. Например, чем больше часов учится студент, тем выше, как правило, его экзаменационный балл. Учебные часы и результаты экзаменов имеют сильную положительную корреляцию.

Сильная отрицательная корреляция: когда значение одной переменной увеличивается, значение другой переменной имеет тенденцию к уменьшению. Например, чем старше становится курица, тем меньше яиц она производит. Возраст цыплят и яйценоскость имеют сильную отрицательную корреляцию.

В следующей таблице показано эмпирическое правило для интерпретации силы связи между двумя переменными на основе значения r :

| Абсолютное значение r | Прочность отношений | | --- | --- | | р < 0,25 | Нет отношений | | 0,25 < г < 0,5 | Слабые отношения | | 0,5 < г < 0,75 | Умеренные отношения | | г > 0,75 | Тесная взаимосвязь |

Корреляция между двумя переменными считается сильной, если абсолютное значение r больше 0,75.Однако определение «сильной» корреляции может варьироваться от одной области к другой.

Медицинский

Например, часто в медицинских областях определение «сильных» отношений часто намного ниже. Если связь между приемом определенного препарата и снижением частоты сердечных приступов составляет r = 0,3, то в других областях это можно было бы считать «слабой положительной» связью, но в медицине она достаточно значительна, чтобы стоило принимать препарат для снижения частоты сердечных приступов. вероятность сердечного приступа.

Человеческие ресурсы

В другой области, такой как человеческие ресурсы, более низкие корреляции также могут использоваться чаще. Например, было показано, что корреляция между оценками в колледже и производительностью труда составляет около r = 0,16.Это довольно мало, но достаточно много, чтобы компания, по крайней мере, обратила на это внимание во время собеседования.

Технологии

А в такой области, как технологии, корреляция между переменными может в некоторых случаях быть намного выше, чтобы считаться «сильной». Например, если компания создает самоуправляемый автомобиль и корреляция между решениями автомобиля о повороте и вероятностью попасть в аварию составляет r = 0,95 , это, вероятно, слишком мало для того, чтобы автомобиль считался безопасным, поскольку результат создания неправильное решение может быть фатальным.

Визуализация корреляций

Независимо от того, в какой области вы работаете, полезно создать диаграмму рассеяния двух изучаемых переменных, чтобы вы могли хотя бы визуально изучить взаимосвязь между ними.

Например, предположим, что у нас есть следующий набор данных, который показывает рост и вес 12 человек:

Немного сложно понять взаимосвязь между этими двумя переменными, просто взглянув на необработанные данные. Однако гораздо проще понять взаимосвязь, если мы создадим диаграмму рассеяния с высотой по оси x и весом по оси y:

Ясно, что существует положительная связь между двумя переменными.

Создание диаграммы рассеяния — хорошая идея еще по двум причинам:

(1) Диаграмма рассеяния позволяет выявить выбросы, влияющие на корреляцию.

Один экстремальный выброс может резко изменить коэффициент корреляции Пирсона. Рассмотрим приведенный ниже пример, в котором переменные X и Y имеют коэффициент корреляции Пирсона r = 0,00 .

Но теперь представьте, что у нас есть один выброс в наборе данных:

Этот выброс приводит к тому, что корреляция составляет r = 0,878.Эта единственная точка данных полностью меняет корреляцию и создает впечатление, что между переменными X и Y существует сильная связь, хотя на самом деле ее нет.

(2) Диаграмма рассеяния может помочь вам определить нелинейные отношения между переменными.

Коэффициент корреляции Пирсона просто говорит нам, связаны ли две переменные линейно.Но даже если коэффициент корреляции Пирсона говорит нам, что две переменные некоррелированы, они все равно могут иметь некоторую нелинейную связь. Это еще одна причина, по которой полезно создавать диаграмму рассеяния.

Например, рассмотрим приведенную ниже диаграмму рассеяния между переменными X и Y , в которой их корреляция равна r = 0,00 .

Очевидно, что переменные не имеют линейной зависимости, но имеют нелинейную зависимость: значения y — это просто квадрат значений x. Коэффициент корреляции сам по себе не может уловить эту связь, но диаграмма рассеяния может.

Вывод

В итоге:

  • Как правило, корреляция выше 0,75 считается «сильной» корреляцией между двумя переменными.
  • Однако это эмпирическое правило может варьироваться от области к области. Например, гораздо более низкая корреляция может считаться сильной в области медицины по сравнению с областью технологий. При принятии решения о том, что считается сильным, лучше всего использовать экспертные знания в предметной области.
  • При использовании корреляции для описания взаимосвязи между двумя переменными полезно также создать диаграмму рассеяния, чтобы можно было определить любые выбросы в наборе данных наряду с потенциальной нелинейной взаимосвязью.

Дополнительные ресурсы

Что считается «слабой» корреляцией?
Калькулятор корреляционной матрицы
Как читать корреляционную матрицу

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.