Поправка Йейта на непрерывность: определение и пример

Поправка Йейта на непрерывность: определение и пример

Критерий независимости Хи-квадрат используется для определения того, существует ли значительная связь между двумя категориальными переменными.

В этом тесте используются следующие нулевая и альтернативная гипотезы:

  • H 0 : (нулевая гипотеза) Две переменные независимы.
  • H 1 : (альтернативная гипотеза) Две переменные не являются независимыми. (т.е. они связаны)

Мы используем следующую формулу для расчета статистики теста Хи-квадрат X 2 для этого теста:

X 2 = Σ(O i -E i ) 2 / E i

куда:

  • Σ: причудливый символ, означающий «сумма».
  • O: наблюдаемое значение
  • E: ожидаемое значение

Этот тест предполагает, что дискретные вероятности частот в таблице непредвиденных обстоятельств могут быть аппроксимированы распределением хи-квадрат, которое является непрерывным распределением.

Однако это предположение, как правило, несколько неверно, и результирующая тестовая статистика имеет тенденцию к завышению.

Чтобы скорректировать это смещение, мы можем применить поправку Йейта на непрерывность , которая применяет следующую поправку к формуле X 2 :

X 2 = Σ(|O i -E i | – 0,5) 2 / E i

Обычно мы используем эту поправку только тогда, когда хотя бы одна ячейка в таблице непредвиденных обстоятельств имеет ожидаемую частоту менее 5.

Пример. Применение поправки Йейта на непрерывность

Предположим, мы хотим знать, связан ли пол с предпочтениями политической партии. Мы берем простую случайную выборку из 40 избирателей и опрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:

Вот как выполнить критерий независимости хи-квадрат с коррекцией непрерывности Йейта:

Наблюдаемые значения:

Ожидаемые значения:

Примечание. Мы вычисляем ожидаемое значение в каждой ячейке, умножая итог строки на итог столбца, а затем разделив на общий итог. Например, ожидаемое количество мужчин-республиканцев составляет (21*19)/40 = 9,975.

Статистика критерия хи-квадрат: X 2 = Σ(|O i -E i | – 0,5) 2 / E i

  • (|8-9,975| – 0,5) 2 / 9,975 = 0,218
  • (|9-6,3| – 0,5) 2 / 6,3 = 0,768
  • (|4-4,725| – 0,5) 2 / 4,725 = 0,011
  • (|11-9,025| – 0,5) 2 / 9,025 = 0,241
  • (|3-5,7| – 0,5) 2 / 5,7 = 0,849
  • (|5-4,275| – 0,5) 2 / 4,275 = 0,012

Таким образом, X 2 = 0,218 + 0,768 + 0,011 + 0,241 + 0,849 + 0,012 = 2,099.

P-значение: Согласно калькулятору хи-квадрат для P-значения , значение p, соответствующее статистике теста хи-квадрат с 2 степенями свободы, составляет 0,3501 .

Поскольку это p-значение не меньше 0,05, мы не сможем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что существует связь между полом и предпочтениями политических партий.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.