G-критерий согласия: определение + пример


В статистике G-критерий согласия используется для определения того, следует ли некоторая категориальная переменная гипотетическому распределению.

Этот тест является альтернативой критерию согласияхи-квадрат и часто используется, когда в данных присутствуют выбросы или когда данные, с которыми вы работаете, очень велики.

В G-тесте качества подгонки используются следующие нулевая и альтернативные гипотезы:

  • H 0 : Переменная следует за гипотетическим распределением.
  • H A : Переменная не следует предполагаемому распределению.

Статистика теста рассчитывается следующим образом:

G=2 * Σ[O * ln(O/E)]

куда:

  • O: наблюдаемое количество в клетке
  • E: ожидаемое количество в ячейке

Если p-значение, соответствующее тестовой статистике, меньше некоторого уровня значимости , то можно отклонить нулевую гипотезу и сделать вывод, что исследуемая переменная не следует предполагаемому распределению.

В следующем примере показано, как выполнить G-тест качества подгонки на практике.

Пример: G-тест качества подгонки

Биолог утверждает, что в определенной местности существует равное количество трех видов черепах. Чтобы проверить это утверждение, независимый исследователь подсчитал количество видов каждого типа и обнаружил следующее:

  • Виды А: 80
  • Вид Б: 125
  • Вид С: 95

Независимый исследователь может использовать следующие шаги для выполнения G-теста согласия, чтобы определить, согласуются ли собранные им данные с утверждением биолога.

Шаг 1: Сформулируйте нулевую и альтернативную гипотезы.

Исследователь выполнит G-тест качества соответствия, используя следующие гипотезы:

  • H 0 : В этой области существует равное количество трех видов черепах.
  • H A : В этом районе не существует равного количества трех видов черепах.

Шаг 2: Рассчитайте тестовую статистику.

Формула для расчета тестовой статистики выглядит следующим образом:

G=2 * Σ[O * ln(O/E)]

В этом примере всего наблюдается 300 черепах. Если бы доля каждого вида была равной, мы ожидали бы увидеть по 100 черепах каждого вида. Таким образом, мы можем рассчитать тестовую статистику как:

G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337

Шаг 3: Рассчитайте p-значение тестовой статистики.

Согласно Калькулятору отношения хи-квадрат к P-значению , значение p, связанное со статистикой теста 10,337 и #categories-1 = 3-1 = 2 степени свободы, составляет 0,005693 .

Поскольку это p-значение меньше 0,05, исследователь отвергает нулевую гипотезу. Это означает, что у нее есть достаточно доказательств, чтобы сказать, что в этой конкретной области не существует равной доли каждого вида черепах.

Бонус: G-тест соответствия в R

Вы можете использовать функцию Gtest() из пакета DescTools, чтобы быстро выполнить G-тест на соответствие в R.

В следующем коде показано, как выполнить G-тест для предыдущего примера:

#load the DescTools library
library (DescTools)

#perform the G-test 
GTest(x = c(80, 125, 95), #observed values
 p = c(1/3, 1/3, 1/3), #expected proportions
 correct = " none ") 

 Log likelihood ratio (G-test) goodness of fit test

data: c(80, 125, 95)
G = 10.337, X-squared df = 2, p-value = 0.005693

Обратите внимание, что статистика G-теста равна 10,337 , а соответствующее значение p равно 0,005693.Поскольку это p-значение меньше 0,05, мы отвергаем нулевую гипотезу.

Это соответствует результатам, которые мы рассчитали вручную.

Дополнительные ресурсы

Не стесняйтесь использовать этот калькулятор G-test of Goodness of Fit для автоматического выполнения G-теста для любого набора данных.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.