Как выполнить тест независимости хи-квадрат в Python


Хи -квадрат тест независимостииспользуется, чтобы определить, существует ли значительная связь между двумя категориальными переменными.

В этом руководстве объясняется, как выполнить тест независимости хи-квадрат в Python.

Пример: критерий независимости хи-квадрат в Python

Предположим, мы хотим знать, связан ли пол с предпочтениями политической партии. Мы берем простую случайную выборку из 500 избирателей и опрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:

|  |  |  |  |  | | --- | --- | --- | --- | --- | |  | республиканец | демократ | Независимый | Общий | | Мужской | 120 | 90 | 40 | 250 | | женский | 110 | 95 | 45 | 250 | | Общий | 230 | 185 | 85 | 500 |

Используйте следующие шаги, чтобы выполнить тест независимости хи-квадрат в Python, чтобы определить, связан ли пол с предпочтениями политической партии.

Шаг 1: Создайте данные.

Сначала мы создадим таблицу для хранения наших данных:

data = [[120, 90, 40],
 [110, 95, 45]]

Шаг 2: Выполните тест независимости хи-квадрат.

Затем мы можем выполнить критерий независимости хи-квадрат, используя функцию chi2_contingency из библиотеки SciPy, которая использует следующий синтаксис:

chi2_contingency (наблюдается)

куда:

  • наблюдаемые: Таблица непредвиденных обстоятельств наблюдаемых значений.

Следующий код показывает, как использовать эту функцию в нашем конкретном примере:

import scipy.stats as stats

#perform the Chi-Square Test of Independence
stats.chi2_contingency(data)

(0.864,
 0.649,
 2,
 array([[115. , 92.5, 42.5],
 [115. , 92.5, 42.5]]))

Способ интерпретации вывода следующий:

  • Статистика теста хи-квадрат: 0,864
  • р-значение: 0,649
  • Степени свободы: 2 (рассчитывается как #rows-1 * #columns-1)
  • Массив: последний массив отображает ожидаемые значения для каждой ячейки в таблице непредвиденных обстоятельств.

Напомним, чтокритерий независимости хи-квадрат использует следующие нулевые и альтернативные гипотезы:

  • H 0 : (нулевая гипотеза) Две переменные независимы.
  • H 1 : (альтернативная гипотеза) Две переменные не являются независимыми.

Поскольку p-значение (0,649) теста не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что существует связь между полом и предпочтениями политических партий.

Другими словами, предпочтения пола и политической партии не зависят друг от друга.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.