Критерий независимости Хи-квадрат используется для определения того, существует ли значительная связь между двумя категориальными переменными.
В этом тесте используются следующие нулевая и альтернативная гипотезы:
- H 0 : (нулевая гипотеза) Две переменные независимы.
- H 1 : (альтернативная гипотеза) Две переменные не являются независимыми. (т.е. они связаны)
Мы используем следующую формулу для расчета статистики теста Хи-квадрат X 2 для этого теста:
X 2 = Σ(O i -E i ) 2 / E i
куда:
- Σ: причудливый символ, означающий «сумма».
- O: наблюдаемое значение
- E: ожидаемое значение
Этот тест предполагает, что дискретные вероятности частот в таблице непредвиденных обстоятельств могут быть аппроксимированы распределением хи-квадрат, которое является непрерывным распределением.
Однако это предположение, как правило, несколько неверно, и результирующая тестовая статистика имеет тенденцию к завышению.
Чтобы скорректировать это смещение, мы можем применить поправку Йейта на непрерывность , которая применяет следующую поправку к формуле X 2 :
X 2 = Σ(|O i -E i | – 0,5) 2 / E i
Обычно мы используем эту поправку только тогда, когда хотя бы одна ячейка в таблице непредвиденных обстоятельств имеет ожидаемую частоту менее 5.
Пример. Применение поправки Йейта на непрерывность
Предположим, мы хотим знать, связан ли пол с предпочтениями политической партии. Мы берем простую случайную выборку из 40 избирателей и опрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:

Вот как выполнить критерий независимости хи-квадрат с коррекцией непрерывности Йейта:
Наблюдаемые значения:

Ожидаемые значения:

Примечание. Мы вычисляем ожидаемое значение в каждой ячейке, умножая итог строки на итог столбца, а затем разделив на общий итог. Например, ожидаемое количество мужчин-республиканцев составляет (21*19)/40 = 9,975.
Статистика критерия хи-квадрат: X 2 = Σ(|O i -E i | – 0,5) 2 / E i
- (|8-9,975| – 0,5) 2 / 9,975 = 0,218
- (|9-6,3| – 0,5) 2 / 6,3 = 0,768
- (|4-4,725| – 0,5) 2 / 4,725 = 0,011
- (|11-9,025| – 0,5) 2 / 9,025 = 0,241
- (|3-5,7| – 0,5) 2 / 5,7 = 0,849
- (|5-4,275| – 0,5) 2 / 4,275 = 0,012
Таким образом, X 2 = 0,218 + 0,768 + 0,011 + 0,241 + 0,849 + 0,012 = 2,099.
P-значение: Согласно калькулятору хи-квадрат для P-значения , значение p, соответствующее статистике теста хи-квадрат с 2 степенями свободы, составляет 0,3501 .
Поскольку это p-значение не меньше 0,05, мы не сможем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что существует связь между полом и предпочтениями политических партий.