G-критерий согласия: определение + пример

В статистике G-критерий согласия используется для определения того, следует ли некоторая категориальная переменная гипотетическому распределению.

Этот тест является альтернативой критерию согласияхи-квадрат и часто используется, когда в данных присутствуют выбросы или когда данные, с которыми вы работаете, очень велики.

В G-тесте качества подгонки используются следующие нулевая и альтернативные гипотезы:

H 0 : Переменная следует за гипотетическим распределением.
H A : Переменная не следует предполагаемому распределению.

Статистика теста рассчитывается следующим образом:

G=2 * Σ[O * ln(O/E)]

куда:

O: наблюдаемое количество в клетке
E: ожидаемое количество в ячейке

Если p-значение, соответствующее тестовой статистике, меньше некоторого уровня значимости , то можно отклонить нулевую гипотезу и сделать вывод, что исследуемая переменная не следует предполагаемому распределению.

В следующем примере показано, как выполнить G-тест качества подгонки на практике.

Пример: G-тест качества подгонки

Биолог утверждает, что в определенной местности существует равное количество трех видов черепах. Чтобы проверить это утверждение, независимый исследователь подсчитал количество видов каждого типа и обнаружил следующее:

Виды А: 80
Вид Б: 125
Вид С: 95

Независимый исследователь может использовать следующие шаги для выполнения G-теста согласия, чтобы определить, согласуются ли собранные им данные с утверждением биолога.

Шаг 1: Сформулируйте нулевую и альтернативную гипотезы.

Исследователь выполнит G-тест качества соответствия, используя следующие гипотезы:

H 0 : В этой области существует равное количество трех видов черепах.
H A : В этом районе не существует равного количества трех видов черепах.

Шаг 2: Рассчитайте тестовую статистику.

Формула для расчета тестовой статистики выглядит следующим образом:

G=2 * Σ[O * ln(O/E)]

В этом примере всего наблюдается 300 черепах. Если бы доля каждого вида была равной, мы ожидали бы увидеть по 100 черепах каждого вида. Таким образом, мы можем рассчитать тестовую статистику как:

G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337

Шаг 3: Рассчитайте p-значение тестовой статистики.

Согласно Калькулятору отношения хи-квадрат к P-значению , значение p, связанное со статистикой теста 10,337 и #categories-1 = 3-1 = 2 степени свободы, составляет 0,005693 .

Поскольку это p-значение меньше 0,05, исследователь отвергает нулевую гипотезу. Это означает, что у нее есть достаточно доказательств, чтобы сказать, что в этой конкретной области не существует равной доли каждого вида черепах.

Бонус: G-тест соответствия в R

Вы можете использовать функцию Gtest() из пакета DescTools, чтобы быстро выполнить G-тест на соответствие в R.

В следующем коде показано, как выполнить G-тест для предыдущего примера:

#load the DescTools library
library (DescTools)

#perform the G-test 
GTest(x = c(80, 125, 95), #observed values
 p = c(1/3, 1/3, 1/3), #expected proportions
 correct = " none ") 

 Log likelihood ratio (G-test) goodness of fit test

data: c(80, 125, 95)
G = 10.337, X-squared df = 2, p-value = 0.005693

Обратите внимание, что статистика G-теста равна 10,337 , а соответствующее значение p равно 0,005693.Поскольку это p-значение меньше 0,05, мы отвергаем нулевую гипотезу.

Это соответствует результатам, которые мы рассчитали вручную.

Дополнительные ресурсы

Не стесняйтесь использовать этот калькулятор G-test of Goodness of Fit для автоматического выполнения G-теста для любого набора данных.

G-критерий согласия: определение + пример

Пример: G-тест качества подгонки

Бонус: G-тест соответствия в R

Дополнительные ресурсы

Редакция Кодкампа