Критерий независимости Хи-квадрат используется для определения того, существует ли значительная связь между двумя категориальными переменными.
В этом руководстве объясняется следующее:
- Мотивация для выполнения критерия независимости Хи-квадрат.
- Формула для выполнения критерия независимости хи-квадрат.
- Пример того, как выполнить критерий независимости хи-квадрат.
Тест независимости хи-квадрат: мотивация
Критерий независимости Хи-квадрат можно использовать для определения наличия связи между двумя категориальными переменными в различных условиях. Вот несколько примеров:
- Мы хотим знать, связан ли пол с предпочтениями политических партий, поэтому мы опрашиваем 500 избирателей и фиксируем их пол и предпочтения политических партий.
- Мы хотим знать, связан ли любимый цвет человека с его любимым видом спорта, поэтому мы опрашиваем 100 человек и спрашиваем их об их предпочтениях в отношении обоих видов спорта.
- Мы хотим знать, связаны ли уровень образования и семейное положение, поэтому мы собираем данные об этих двух переменных на простой случайной выборке из 50 человек.
В каждом из этих сценариев мы хотим знать, связаны ли две категориальные переменные друг с другом. В каждом сценарии мы можем использовать критерий независимости Хи-квадрат, чтобы определить, существует ли статистически значимая связь между переменными.
Критерий независимости хи-квадрат: формула
Критерий независимости Хи-квадрат использует следующие нулевые и альтернативные гипотезы:
- H 0 : (нулевая гипотеза) Две переменные независимы.
- H 1 : (альтернативная гипотеза) Две переменные не являются независимыми. (т.е. они связаны)
Мы используем следующую формулу для расчета статистики критерия хи-квадрат X 2 :
Х 2 = Σ(ОЕ) 2 / Е
куда:
- Σ: причудливый символ, означающий «сумма».
- O: наблюдаемое значение
- E: ожидаемое значение
Если p-значение, соответствующее тестовой статистике X 2 со степенями свободы (#rows-1)*(#columns-1), меньше выбранного вами уровня значимости, вы можете отклонить нулевую гипотезу.
Критерий независимости хи-квадрат: пример
Предположим, мы хотим знать, связан ли пол с предпочтениями политической партии. Мы берем простую случайную выборку из 500 избирателей и опрашиваем их об их предпочтениях в отношении политических партий. В следующей таблице представлены результаты опроса:
| | | | | | | --- | --- | --- | --- | --- | | | республиканец | демократ | Независимый | Общий | | Мужской | 120 | 90 | 40 | 250 | | женский | 110 | 95 | 45 | 250 | | Общий | 230 | 185 | 85 | 500 |
Используйте следующие шаги, чтобы выполнить тест независимости Хи-квадрат, чтобы определить, связан ли пол с предпочтениями политической партии.
Шаг 1: Определите гипотезы.
Мы проведем критерий независимости Хи-квадрат, используя следующие гипотезы:
- H 0 : Пол и предпочтения политической партии не зависят друг от друга.
- H 1 : Пол и предпочтение политической партии не являются независимыми.
Шаг 2: Рассчитайте ожидаемые значения.
Далее мы рассчитаем ожидаемые значения для каждой ячейки в таблице непредвиденных обстоятельств, используя следующую формулу:
Ожидаемое значение = (сумма строк * сумма столбцов) / сумма таблицы.
Например, ожидаемое значение для мужчин-республиканцев: (230*250) / 500 = 115 .
Мы можем повторить эту формулу, чтобы получить ожидаемое значение для каждой ячейки в таблице:
| | | | | | | --- | --- | --- | --- | --- | | | республиканец | демократ | Независимый | Общий | | Мужской | 115 | 92,5 | 42,5 | 250 | | женский | 115 | 92,5 | 42,5 | 250 | | Общий | 230 | 185 | 85 | 500 |
Шаг 3: Рассчитайте (OE) 2 / E для каждой ячейки таблицы.
Далее мы рассчитаем (OE) 2 / E для каждой ячейки в таблице, где:
- O: наблюдаемое значение
- E: ожидаемое значение
Например, республиканцы-мужчины будут иметь значение: (120-115) 2 /115 = 0,2174 .
Мы можем повторить эту формулу для каждой ячейки в таблице:
| | | | | | --- | --- | --- | --- | | | республиканец | демократ | Независимый | | Мужской | 0,2174 | 0,0676 | 0,1471 | | женский | 0,2174 | 0,0676 | 0,1471 |
Шаг 4: Рассчитайте тестовую статистику X 2 и соответствующее значение p.
X 2 = Σ(OE) 2 / E = 0,2174 + 0,2174 + 0,0676 + 0,0676 + 0,1471 + 0,1471 = 0,8642
Согласно калькулятору показателя хи-квадрат для значения P, значение p, связанное с X 2 = 0,8642 и (2-1)*(3-1) = 2 степенями свободы, составляет 0,649198 .
Шаг 5: Сделайте вывод.
Поскольку это p-значение не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что существует связь между полом и предпочтениями политических партий.
Примечание. Вы также можете выполнить весь этот тест, просто воспользовавшись Калькулятором критерия независимости хи-квадрат .
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнить критерий независимости Хи-квадрат с использованием различных статистических программ:
Как выполнить тест независимости хи-квадрат в Stata
Как выполнить тест независимости хи-квадрат в Excel
Как выполнить тест независимости хи-квадрат в SPSS
Как выполнить тест независимости хи-квадрат в Python
Как выполнить тест независимости хи-квадрат в R
Тест независимости хи-квадрат на калькуляторе TI-84
Калькулятор критерия хи-квадрат независимости