Как рассчитать точечную Бисериальную корреляцию в Python

Бисериальная корреляция используется для измерения связи между двоичной переменной x и непрерывной переменной y.

Аналогично Коэффициент корреляции Пирсона, точечный бисериальный коэффициент корреляции принимает значение от -1 до 1, где:

-1 указывает на совершенно отрицательную корреляцию между двумя переменными
0 указывает на отсутствие корреляции между двумя переменными\n
1 указывает на то, что положительная корреляция между двумя переменными

В этом учебном пособии объясняется, как вычислить точечно-бисериальную корреляцию между двумя переменными в Python.

Пример: Точечно-Бисериальная корреляция в Python

Предположим, у нас есть двоичная переменная x и непрерывная переменная, y:

x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0]
y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]

Можно использовать pointbiserialr() из библиотеки scipy.stats для вычисления точечно-бисериальной корреляции между двумя переменными.

Обратите внимание, что эта функция возвращает коэффициент корреляции вместе с соответствующим значением p:

import scipy.stats as stats

#вычислить точечно-бисериальную корреляцию
stats.pointbiserialr(x, y)

PointbiserialrResult(correlation=0.21816, pvalue=0.51928)

Поскольку коэффициент корреляции положительный, это означает, что когда переменная x принимает значение 1, переменная y имеет тенденцию принимать более высокие значения по сравнению с тем, когда переменная x принимает значение 0.

Поскольку p-значение этой корреляции не менее 0,05, эта корреляция не является статистически значимой.

Вы можете найти точную информацию о том, как рассчитывается эта корреляция, в scipy.stats документация.