Наиболее распространенным способом количественной оценки линейной связи между двумя переменными является использованиекоэффициента корреляции Пирсона , который всегда принимает значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию
- 0 указывает на отсутствие линейной корреляции
- 1 указывает на совершенно положительную линейную корреляцию
Однако этот тип коэффициента корреляции работает лучше всего, когда истинная основная связь между двумя переменными является линейной .
Существует еще один тип коэффициента корреляции, известный как ранговая корреляция Спирмена, который лучше использовать в двух конкретных сценариях:
Сценарий 1 : при работе с ранжированными данными.
- Примером может быть набор данных, который содержит оценку экзамена по математике учащегося, а также оценку его оценки на экзамене по естественным наукам в классе.
Сценарий 2 : При наличии одного или нескольких экстремальных выбросов.
- Когда в наборе данных присутствуют экстремальные выбросы, это сильно влияет на коэффициент корреляции Пирсона.
В следующих примерах показано, как рассчитать ранговую корреляцию Спирмена в каждом из этих сценариев.
Сценарий 1: ранговая корреляция Спирмена с ранжированными данными
Рассмотрим следующий набор данных (и соответствующий график рассеяния), который показывает взаимосвязь между двумя переменными:
Используя статистическое программное обеспечение, мы можем рассчитать следующие коэффициенты корреляции для этих двух переменных:
- Корреляция Пирсона: 0,79
- Ранговая корреляция Спирмена: 1
В этом сценарии, если нас интересуют только ранги значений данных (когда ранг x увеличивается, ранг y также увеличивается?), тогда ранговая корреляция Спирмена даст нам лучшее представление о корреляции между двумя переменными. .
В этом конкретном наборе данных по мере увеличения ранга x ранг y всегда увеличивается.
Ранговая корреляция Спирмена прекрасно отражает это поведение, говоря нам, что существует совершенная положительная связь ( ρ = 1 ) между рангами x и рангами y.
Напротив, корреляция Пирсона говорит нам о наличии сильной линейной зависимости ( r = 0,79 ) между двумя переменными.
Это верно, но бесполезно, если нас интересует только соотношение между рангами x и рангами y.
Сценарий 2. Ранговая корреляция Спирмена с экстремальными выбросами
Рассмотрим следующий набор данных (и соответствующий график рассеяния), который показывает взаимосвязь между двумя переменными:
Используя статистическое программное обеспечение, мы можем рассчитать следующие коэффициенты корреляции для этих двух переменных:
- Корреляция Пирсона: 0,86
- Ранговая корреляция Спирмена: 0,85
Коэффициенты корреляции почти идентичны, потому что основная связь между переменными является примерно линейной и нет экстремальных выбросов.
Теперь предположим, что мы изменили последнее значение y в наборе данных, сделав его экстремальным выбросом:
Используя статистическое программное обеспечение, мы можем еще раз рассчитать коэффициенты корреляции:
- Корреляция Пирсона: 0,69
- Ранговая корреляция Спирмена: 0,85
Коэффициент корреляции Пирсона резко изменился, в то время как коэффициент ранговой корреляции Спирмена остался прежним.
Используя статистический жаргон, мы бы сказали, что связь между x и y является монотонной (по мере увеличения x обычно увеличивается y), но нелинейной, поскольку выбросы очень сильно влияют на данные.
В этом сценарии ранговая корреляция Спирмена хорошо справляется с количественной оценкой этой монотонной зависимости, в то время как корреляция Пирсона работает плохо, потому что пытается вычислить линейную связь между двумя переменными.
Связанный: Как сообщить о ранговой корреляции Спирмена в формате APA
Дополнительные ресурсы
В следующих руководствах объясняется, как рассчитать ранговую корреляцию Спирмена с использованием другого программного обеспечения:
Как рассчитать ранговую корреляцию Спирмена в Excel
Как рассчитать ранговую корреляцию Спирмена в Google Sheets
Как рассчитать ранговую корреляцию Спирмена в R
Как рассчитать ранговую корреляцию Спирмена в Python