Как рассчитать точечно-бисериальную корреляцию в R


Точечная бисериальная корреляция используется для измерения отношения между двоичной переменной x и непрерывной переменной y.

Подобнокоэффициенту корреляции Пирсона , коэффициент точечно-бисериальной корреляции принимает значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную корреляцию между двумя переменными
  • 0 указывает на отсутствие корреляции между двумя переменными
  • 1 указывает на совершенно положительную корреляцию между двумя переменными

В этом руководстве объясняется, как рассчитать точечно-бисериальную корреляцию между двумя переменными в R.

Пример: точечно-бисериальная корреляция в R

Предположим, у нас есть двоичная переменная x и непрерывная переменная y:

x <- c(0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0)

y <- c(12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12)

Мы можем использовать встроенную функцию R cor.test() для вычисления точечно-бисериальной корреляции между двумя переменными:

#calculate point-biserial correlation
cor.test(x, y)

 Pearson's product-moment correlation

data: x and y
t = 0.67064, df = 9, p-value = 0.5193

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:
 -0.4391885 0.7233704

sample estimates:
 cor 
0.2181635

Из вывода мы можем наблюдать следующее:

  • Коэффициент точечной бисериальной корреляции равен 0,218 .
  • Соответствующее значение p равно 0,5193.

Поскольку коэффициент корреляции положительный, это указывает на то, что, когда переменная x принимает значение «1», переменная y имеет тенденцию принимать более высокие значения по сравнению с тем, когда переменная x принимает значение «0».

Однако, поскольку p-значение этой корреляции не менее 0,05, эта корреляция не является статистически значимой.

Обратите внимание, что выходные данные также обеспечивают 95% доверительный интервал для истинного коэффициента корреляции, который оказывается:

95% ДИ = (-0,439, 0,723)

Поскольку этот доверительный интервал содержит ноль, это еще одно свидетельство того, что коэффициент корреляции не является статистически значимым.

Вы можете найти полную документацию по функции cor.test() здесь .