Хи-квадрат критерий согласия используется для определения того, следует ли категориальная переменная гипотетическому распределению.
В этом учебном пособии объясняется, как выполнить критерий согласия Хи-квадрат в Python.
Пример: критерий согласия хи-квадрат в Python
Владелец магазина утверждает, что каждый будний день в его магазин приходит одинаковое количество покупателей. Чтобы проверить эту гипотезу, исследователь записывает количество покупателей, которые заходят в магазин на данной неделе, и обнаруживает следующее:
- Понедельник: 50 клиентов
- вторник: 60 клиентов
- Среда: 40 клиентов
- Четверг: 47 клиентов
- Пятница: 53 клиента
Используйте следующие шаги, чтобы выполнить тест на соответствие хи-квадрат в Python, чтобы определить, согласуются ли данные с заявлением владельца магазина.
Шаг 1: Создайте данные.
Во-первых, мы создадим два массива для хранения наблюдаемого и ожидаемого количества клиентов на каждый день:
expected = [50, 50, 50, 50, 50]
observed = [50, 60, 40, 47, 53]
Шаг 2: Проведите тест на соответствие хи-квадрату.
Затем мы можем выполнить критерий согласия Хи-квадрат с помощью функции хи-квадрат из библиотеки SciPy, которая использует следующий синтаксис:
хи-квадрат (f_obs, f_exp)
куда:
- f_obs: массив наблюдаемых счетчиков.
- f_exp: массив ожидаемых значений. По умолчанию предполагается, что каждая категория равновероятна.
Следующий код показывает, как использовать эту функцию в нашем конкретном примере:
import scipy.stats as stats
#perform Chi-Square Goodness of Fit Test
stats.chisquare(f_obs=observed, f_exp=expected)
(statistic=4.36, pvalue=0.35947)
Статистический показатель теста хи-квадрат равен 4,36 , а соответствующее значение p равно 0,35947 .
Обратите внимание, что значение p соответствует значению хи-квадрата с n-1 степенями свободы (степеней свободы), где n — количество различных категорий. В этом случае степень свободы = 5-1 = 4. Вы можете использовать Калькулятор значений хи-квадрат для P , чтобы убедиться, что значение p, соответствующее X 2 = 4,36 при степени свободы = 4, равно 0,35947 .
Напомним, что критерий согласия Хи-квадрат использует следующие нулевую и альтернативную гипотезы:
- H 0 : (нулевая гипотеза) Переменная следует за гипотетическим распределением.
- H 1 : (альтернативная гипотеза) Переменная не подчиняется предполагаемому распределению.
Поскольку p-значение (0,35947) не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств того, что истинное распределение покупателей отличается от распределения, о котором заявил владелец магазина.