В статистике G-критерий согласия используется для определения того, следует ли некоторая категориальная переменная гипотетическому распределению.
Этот тест является альтернативой критерию согласияхи-квадрат и часто используется, когда в данных присутствуют выбросы или когда данные, с которыми вы работаете, очень велики.
В G-тесте качества подгонки используются следующие нулевая и альтернативные гипотезы:
- H 0 : Переменная следует за гипотетическим распределением.
- H A : Переменная не следует предполагаемому распределению.
Статистика теста рассчитывается следующим образом:
G=2 * Σ[O * ln(O/E)]
куда:
- O: наблюдаемое количество в клетке
- E: ожидаемое количество в ячейке
Если p-значение, соответствующее тестовой статистике, меньше некоторого уровня значимости , то можно отклонить нулевую гипотезу и сделать вывод, что исследуемая переменная не следует предполагаемому распределению.
В следующем примере показано, как выполнить G-тест качества подгонки на практике.
Пример: G-тест качества подгонки
Биолог утверждает, что в определенной местности существует равное количество трех видов черепах. Чтобы проверить это утверждение, независимый исследователь подсчитал количество видов каждого типа и обнаружил следующее:
- Виды А: 80
- Вид Б: 125
- Вид С: 95
Независимый исследователь может использовать следующие шаги для выполнения G-теста согласия, чтобы определить, согласуются ли собранные им данные с утверждением биолога.
Шаг 1: Сформулируйте нулевую и альтернативную гипотезы.
Исследователь выполнит G-тест качества соответствия, используя следующие гипотезы:
- H 0 : В этой области существует равное количество трех видов черепах.
- H A : В этом районе не существует равного количества трех видов черепах.
Шаг 2: Рассчитайте тестовую статистику.
Формула для расчета тестовой статистики выглядит следующим образом:
G=2 * Σ[O * ln(O/E)]
В этом примере всего наблюдается 300 черепах. Если бы доля каждого вида была равной, мы ожидали бы увидеть по 100 черепах каждого вида. Таким образом, мы можем рассчитать тестовую статистику как:
G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337
Шаг 3: Рассчитайте p-значение тестовой статистики.
Согласно Калькулятору отношения хи-квадрат к P-значению , значение p, связанное со статистикой теста 10,337 и #categories-1 = 3-1 = 2 степени свободы, составляет 0,005693 .
Поскольку это p-значение меньше 0,05, исследователь отвергает нулевую гипотезу. Это означает, что у нее есть достаточно доказательств, чтобы сказать, что в этой конкретной области не существует равной доли каждого вида черепах.
Бонус: G-тест соответствия в R
Вы можете использовать функцию Gtest() из пакета DescTools, чтобы быстро выполнить G-тест на соответствие в R.
В следующем коде показано, как выполнить G-тест для предыдущего примера:
#load the DescTools library
library (DescTools)
#perform the G-test
GTest(x = c(80, 125, 95), #observed values
p = c(1/3, 1/3, 1/3), #expected proportions
correct = " none ")
Log likelihood ratio (G-test) goodness of fit test
data: c(80, 125, 95)
G = 10.337, X-squared df = 2, p-value = 0.005693
Обратите внимание, что статистика G-теста равна 10,337 , а соответствующее значение p равно 0,005693.Поскольку это p-значение меньше 0,05, мы отвергаем нулевую гипотезу.
Это соответствует результатам, которые мы рассчитали вручную.
Дополнительные ресурсы
Не стесняйтесь использовать этот калькулятор G-test of Goodness of Fit для автоматического выполнения G-теста для любого набора данных.