Критерий независимости хи-квадрат: определение, формула и пример


Критерий независимости Хи-квадрат используется для определения того, существует ли значительная связь между двумя категориальными переменными.

В этом руководстве объясняется следующее:

  • Мотивация для выполнения критерия независимости Хи-квадрат.
  • Формула для выполнения критерия независимости хи-квадрат.
  • Пример того, как выполнить критерий независимости хи-квадрат.

Тест независимости хи-квадрат: мотивация

Критерий независимости Хи-квадрат можно использовать для определения наличия связи между двумя категориальными переменными в различных условиях. Вот несколько примеров:

  • Мы хотим знать, связан ли пол с предпочтениями политических партий, поэтому мы опрашиваем 500 избирателей и фиксируем их пол и предпочтения политических партий.
  • Мы хотим знать, связан ли любимый цвет человека с его любимым видом спорта, поэтому мы опрашиваем 100 человек и спрашиваем их об их предпочтениях в отношении обоих видов спорта.
  • Мы хотим знать, связаны ли уровень образования и семейное положение, поэтому мы собираем данные об этих двух переменных на простой случайной выборке из 50 человек.

В каждом из этих сценариев мы хотим знать, связаны ли две категориальные переменные друг с другом. В каждом сценарии мы можем использовать критерий независимости Хи-квадрат, чтобы определить, существует ли статистически значимая связь между переменными.

Критерий независимости хи-квадрат: формула

Критерий независимости Хи-квадрат использует следующие нулевые и альтернативные гипотезы:

  • H 0 : (нулевая гипотеза) Две переменные независимы.
  • H 1 : (альтернативная гипотеза) Две переменные не являются независимыми. (т.е. они связаны)

Мы используем следующую формулу для расчета статистики критерия хи-квадрат X 2 :

Х 2 = Σ(ОЕ) 2 / Е

куда:

  • Σ: причудливый символ, означающий «сумма».
  • O: наблюдаемое значение
  • E: ожидаемое значение

Если p-значение, соответствующее тестовой статистике X 2 со степенями свободы (#rows-1)*(#columns-1), меньше выбранного вами уровня значимости, вы можете отклонить нулевую гипотезу.

Критерий независимости хи-квадрат: пример

Предположим, мы хотим знать, связан ли пол с предпочтениями политической партии. Мы берем простую случайную выборку из 500 избирателей и опрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:

|  |  |  |  |  | | --- | --- | --- | --- | --- | |  | республиканец | демократ | Независимый | Общий | | Мужской | 120 | 90 | 40 | 250 | | женский | 110 | 95 | 45 | 250 | | Общий | 230 | 185 | 85 | 500 |

Используйте следующие шаги, чтобы выполнить тест независимости Хи-квадрат, чтобы определить, связан ли пол с предпочтениями политической партии.

Шаг 1: Определите гипотезы.

Мы проведем критерий независимости Хи-квадрат, используя следующие гипотезы:

  • H 0 : Пол и предпочтения политической партии не зависят друг от друга.
  • H 1 : Пол и предпочтение политической партии не являются независимыми.

Шаг 2: Рассчитайте ожидаемые значения.

Далее мы рассчитаем ожидаемые значения для каждой ячейки в таблице непредвиденных обстоятельств, используя следующую формулу:

Ожидаемое значение = (сумма строк * сумма столбцов) / сумма таблицы.

Например, ожидаемое значение для мужчин-республиканцев: (230*250) / 500 = 115 .

Мы можем повторить эту формулу, чтобы получить ожидаемое значение для каждой ячейки в таблице:

|  |  |  |  |  | | --- | --- | --- | --- | --- | |  | республиканец | демократ | Независимый | Общий | | Мужской | 115 | 92,5 | 42,5 | 250 | | женский | 115 | 92,5 | 42,5 | 250 | | Общий | 230 | 185 | 85 | 500 |

Шаг 3: Рассчитайте (OE) 2 / E для каждой ячейки таблицы.

Далее мы рассчитаем (OE) 2 / E для каждой ячейки в таблице, где:

  • O: наблюдаемое значение
  • E: ожидаемое значение

Например, республиканцы-мужчины будут иметь значение: (120-115) 2 /115 = 0,2174 .

Мы можем повторить эту формулу для каждой ячейки в таблице:

|  |  |  |  | | --- | --- | --- | --- | |  | республиканец | демократ | Независимый | | Мужской | 0,2174 | 0,0676 | 0,1471 | | женский | 0,2174 | 0,0676 | 0,1471 |

Шаг 4: Рассчитайте тестовую статистику X 2 и соответствующее значение p.

X 2 = Σ(OE) 2 / E = 0,2174 + 0,2174 + 0,0676 + 0,0676 + 0,1471 + 0,1471 = 0,8642

Согласно калькулятору показателя хи-квадрат для значения P, значение p, связанное с X 2 = 0,8642 и (2-1)*(3-1) = 2 степенями свободы, составляет 0,649198 .

Шаг 5: Сделайте вывод.

Поскольку это p-значение не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что существует связь между полом и предпочтениями политических партий.

Примечание. Вы также можете выполнить весь этот тест, просто воспользовавшись Калькулятором критерия независимости хи-квадрат .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнить критерий независимости Хи-квадрат с использованием различных статистических программ:

Как выполнить тест независимости хи-квадрат в Stata
Как выполнить тест независимости хи-квадрат в Excel
Как выполнить тест независимости хи-квадрат в SPSS
Как выполнить тест независимости хи-квадрат в Python
Как выполнить тест независимости хи-квадрат в R
Тест независимости хи-квадрат на калькуляторе TI-84
Калькулятор критерия хи-квадрат независимости

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.