Как выполнить тест на соответствие хи-квадрат в Python


Хи-квадрат критерий согласия используется для определения того, следует ли категориальная переменная гипотетическому распределению.

В этом учебном пособии объясняется, как выполнить критерий согласия Хи-квадрат в Python.

Пример: критерий согласия хи-квадрат в Python

Владелец магазина утверждает, что каждый будний день в его магазин приходит одинаковое количество покупателей. Чтобы проверить эту гипотезу, исследователь записывает количество покупателей, которые заходят в магазин на данной неделе, и обнаруживает следующее:

  • Понедельник: 50 клиентов
  • вторник: 60 клиентов
  • Среда: 40 клиентов
  • Четверг: 47 клиентов
  • Пятница: 53 клиента

Используйте следующие шаги, чтобы выполнить тест на соответствие хи-квадрат в Python, чтобы определить, согласуются ли данные с заявлением владельца магазина.

Шаг 1: Создайте данные.

Во-первых, мы создадим два массива для хранения наблюдаемого и ожидаемого количества клиентов на каждый день:

expected = [50, 50, 50, 50, 50]
observed = [50, 60, 40, 47, 53]

Шаг 2: Проведите тест на соответствие хи-квадрату.

Затем мы можем выполнить критерий согласия Хи-квадрат с помощью функции хи-квадрат из библиотеки SciPy, которая использует следующий синтаксис:

хи-квадрат (f_obs, f_exp)

куда:

  • f_obs: массив наблюдаемых счетчиков.
  • f_exp: массив ожидаемых значений. По умолчанию предполагается, что каждая категория равновероятна.

Следующий код показывает, как использовать эту функцию в нашем конкретном примере:

import scipy.stats as stats

#perform Chi-Square Goodness of Fit Test
stats.chisquare(f_obs=observed, f_exp=expected)

(statistic=4.36, pvalue=0.35947)

Статистический показатель теста хи-квадрат равен 4,36 , а соответствующее значение p равно 0,35947 .

Обратите внимание, что значение p соответствует значению хи-квадрата с n-1 степенями свободы (степеней свободы), где n — количество различных категорий. В этом случае степень свободы = 5-1 = 4. Вы можете использовать Калькулятор значений хи-квадрат для P , чтобы убедиться, что значение p, соответствующее X 2 = 4,36 при степени свободы = 4, равно 0,35947 .

Напомним, что критерий согласия Хи-квадрат использует следующие нулевую и альтернативную гипотезы:

  • H 0 : (нулевая гипотеза) Переменная следует за гипотетическим распределением.
  • H 1 : (альтернативная гипотеза) Переменная не подчиняется предполагаемому распределению.

Поскольку p-значение (0,35947) не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств того, что истинное распределение покупателей отличается от распределения, о котором заявил владелец магазина.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.