Критерий независимости хи-квадрат: определение, формула и пример


Критерий независимости Хи-квадрат используется для определения того, существует ли значительная связь между двумя категориальными переменными.

В этом руководстве объясняется следующее:

  • Мотивация для выполнения критерия независимости Хи-квадрат.
  • Формула для выполнения критерия независимости хи-квадрат.
  • Пример того, как выполнить критерий независимости хи-квадрат.

Тест независимости хи-квадрат: мотивация

Критерий независимости Хи-квадрат можно использовать для определения наличия связи между двумя категориальными переменными в различных условиях. Вот несколько примеров:

  • Мы хотим знать, связан ли пол с предпочтениями политических партий, поэтому мы опрашиваем 500 избирателей и фиксируем их пол и предпочтения политических партий.
  • Мы хотим знать, связан ли любимый цвет человека с его любимым видом спорта, поэтому мы опрашиваем 100 человек и спрашиваем их об их предпочтениях в отношении обоих видов спорта.
  • Мы хотим знать, связаны ли уровень образования и семейное положение, поэтому мы собираем данные об этих двух переменных на простой случайной выборке из 50 человек.

В каждом из этих сценариев мы хотим знать, связаны ли две категориальные переменные друг с другом. В каждом сценарии мы можем использовать критерий независимости Хи-квадрат, чтобы определить, существует ли статистически значимая связь между переменными.

Критерий независимости хи-квадрат: формула

Критерий независимости Хи-квадрат использует следующие нулевые и альтернативные гипотезы:

  • H 0 : (нулевая гипотеза) Две переменные независимы.
  • H 1 : (альтернативная гипотеза) Две переменные не являются независимыми. (т.е. они связаны)

Мы используем следующую формулу для расчета статистики критерия хи-квадрат X 2 :

Х 2 = Σ(ОЕ) 2 / Е

куда:

  • Σ: причудливый символ, означающий «сумма».
  • O: наблюдаемое значение
  • E: ожидаемое значение

Если p-значение, соответствующее тестовой статистике X 2 со степенями свободы (#rows-1)*(#columns-1), меньше выбранного вами уровня значимости, вы можете отклонить нулевую гипотезу.

Критерий независимости хи-квадрат: пример

Предположим, мы хотим знать, связан ли пол с предпочтениями политической партии. Мы берем простую случайную выборку из 500 избирателей и опрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:

|  |  |  |  |  | | --- | --- | --- | --- | --- | |  | республиканец | демократ | Независимый | Общий | | Мужской | 120 | 90 | 40 | 250 | | женский | 110 | 95 | 45 | 250 | | Общий | 230 | 185 | 85 | 500 |

Используйте следующие шаги, чтобы выполнить тест независимости Хи-квадрат, чтобы определить, связан ли пол с предпочтениями политической партии.

Шаг 1: Определите гипотезы.

Мы проведем критерий независимости Хи-квадрат, используя следующие гипотезы:

  • H 0 : Пол и предпочтения политической партии не зависят друг от друга.
  • H 1 : Пол и предпочтение политической партии не являются независимыми.

Шаг 2: Рассчитайте ожидаемые значения.

Далее мы рассчитаем ожидаемые значения для каждой ячейки в таблице непредвиденных обстоятельств, используя следующую формулу:

Ожидаемое значение = (сумма строк * сумма столбцов) / сумма таблицы.

Например, ожидаемое значение для мужчин-республиканцев: (230*250) / 500 = 115 .

Мы можем повторить эту формулу, чтобы получить ожидаемое значение для каждой ячейки в таблице:

|  |  |  |  |  | | --- | --- | --- | --- | --- | |  | республиканец | демократ | Независимый | Общий | | Мужской | 115 | 92,5 | 42,5 | 250 | | женский | 115 | 92,5 | 42,5 | 250 | | Общий | 230 | 185 | 85 | 500 |

Шаг 3: Рассчитайте (OE) 2 / E для каждой ячейки таблицы.

Далее мы рассчитаем (OE) 2 / E для каждой ячейки в таблице, где:

  • O: наблюдаемое значение
  • E: ожидаемое значение

Например, республиканцы-мужчины будут иметь значение: (120-115) 2 /115 = 0,2174 .

Мы можем повторить эту формулу для каждой ячейки в таблице:

|  |  |  |  | | --- | --- | --- | --- | |  | республиканец | демократ | Независимый | | Мужской | 0,2174 | 0,0676 | 0,1471 | | женский | 0,2174 | 0,0676 | 0,1471 |

Шаг 4: Рассчитайте тестовую статистику X 2 и соответствующее значение p.

X 2 = Σ(OE) 2 / E = 0,2174 + 0,2174 + 0,0676 + 0,0676 + 0,1471 + 0,1471 = 0,8642

Согласно калькулятору показателя хи-квадрат для значения P, значение p, связанное с X 2 = 0,8642 и (2-1)*(3-1) = 2 степенями свободы, составляет 0,649198 .

Шаг 5: Сделайте вывод.

Поскольку это p-значение не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что существует связь между полом и предпочтениями политических партий.

Примечание. Вы также можете выполнить весь этот тест, просто воспользовавшись Калькулятором критерия независимости хи-квадрат .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнить критерий независимости Хи-квадрат с использованием различных статистических программ:

Как выполнить тест независимости хи-квадрат в Stata
Как выполнить тест независимости хи-квадрат в Excel
Как выполнить тест независимости хи-квадрат в SPSS
Как выполнить тест независимости хи-квадрат в Python
Как выполнить тест независимости хи-квадрат в R
Тест независимости хи-квадрат на калькуляторе TI-84
Калькулятор критерия хи-квадрат независимости