Как выполнить корреляционный тест в R (с примерами)


Одним из способов количественной оценки связи между двумя переменными является использование коэффициента корреляции Пирсона , который является мерой линейной связи между двумя переменными .

Он всегда принимает значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
  • 0 указывает на отсутствие линейной корреляции между двумя переменными
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Чтобы определить, является ли коэффициент корреляции статистически значимым, можно рассчитать соответствующий t-показатель и p-значение.

Формула для расчета t-показателя коэффициента корреляции (r):

т = г * √ n-2 / √ 1-r 2

Значение p рассчитывается как соответствующее двустороннее значение p для t-распределения с n-2 степенями свободы.

Пример: корреляционный тест в R

Чтобы определить, является ли коэффициент корреляции между двумя переменными статистически значимым, вы можете выполнить тест корреляции в R, используя следующий синтаксис:

cor.test(x, y, method=c("пирсон", "кендалл", "копейщик"))

куда:

  • x, y: числовые векторы данных.
  • метод: метод, используемый для расчета корреляции между двумя векторами. По умолчанию — «пирсон».

Например, предположим, что у нас есть следующие два вектора в R:

x <- c(2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23)
y <- c(23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43)

Прежде чем мы проведем проверку корреляции между двумя переменными, мы можем создать быструю диаграмму рассеяния, чтобы просмотреть их взаимосвязь:

#create scatterplot 
plot(x, y, pch= 16 )

По-видимому, существует положительная корреляция между двумя переменными. То есть с увеличением одного увеличивается и другое.

Чтобы увидеть, является ли эта корреляция статистически значимой, мы можем выполнить корреляционный тест:

#perform correlation test between the two vectors
cor.test(x, y)

 Pearson's product-moment correlation

data: x and y
t = 7.8756, df = 10, p-value = 1.35e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.7575203 0.9799783
sample estimates:
 cor 
0.9279869 

Коэффициент корреляции между двумя векторами оказывается равным 0,9279869 .

Тестовая статистика оказывается равной 7,8756 , а соответствующее значение p равно 1,35e-05 .

Поскольку это значение меньше 0,05, у нас есть достаточно доказательств, чтобы сказать, что корреляция между двумя переменными является статистически значимой.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о коэффициентах корреляции:

Введение в коэффициент корреляции Пирсона
Что считается «сильной» корреляцией?
Пять предположений для корреляции Пирсона