Внутригрупповая и межгрупповая вариация в ANOVA


Односторонний дисперсионный анализ используется для определения того, равны ли средние значения трех или более независимых групп.

Однофакторный дисперсионный анализ использует следующие нулевую и альтернативную гипотезы :

  • H 0 : Все средние группы равны.
  • H A : По крайней мере одно среднее значение группы отличается от остальных.

Всякий раз, когда вы выполняете односторонний ANOVA, вы получите сводную таблицу, которая выглядит следующим образом:

Мы видим, что есть два разных источника вариаций, которые измеряет ANOVA:

Межгрупповая вариация : общая вариация между средним значением каждой группы и общим средним значением.

Внутригрупповая вариация : общая вариация индивидуальных значений в каждой группе и их среднее значение по группе.

Если вариация между группами высока по сравнению с вариациями внутри группы, то F-статистика дисперсионного анализа будет выше, а соответствующее значение p будет ниже, что повышает вероятность того, что мы отклоним нулевую гипотезу о том, что групповые средние равны.

В следующем примере показано, как на практике рассчитать вариацию между группами и вариацию внутри группы для однофакторного дисперсионного анализа.

Пример: расчет внутригрупповой и межгрупповой вариации в ANOVA

Предположим, мы хотим определить, приводят ли три разных метода обучения к разным средним баллам на экзаменах. Чтобы проверить это, мы набираем 30 студентов и случайным образом распределяем по 10 из них для использования разных методов обучения.

Результаты экзаменов для студентов в каждой группе показаны ниже:

Мы можем использовать следующую формулу для расчета вариации между группами :

Межгрупповая вариация = Σn j (X j – X ..) 2

куда:

  • n j : размер выборки группы j
  • Σ : символ, означающий «сумма»
  • X j : среднее значение группы j
  • X .. : общее среднее значение

Чтобы вычислить это значение, мы сначала рассчитаем среднее значение каждой группы и общее среднее значение:

Затем мы рассчитываем межгрупповую вариацию следующим образом: 10(80,5-83,1) 2 + 10(82,1-83,1) 2 + 10(86,7-83,1) 2 = 207,2 .

Затем мы можем использовать следующую формулу для расчета вариации внутри группы :

Внутригрупповая вариация : Σ(X ij – X j ) 2

куда:

  • Σ : символ, означающий «сумма»
  • X ij : i -е наблюдение в группе j
  • X j : среднее значение группы j

В нашем примере мы рассчитываем внутригрупповую вариацию следующим образом:

1 группа: (75-80,5) 2 + (77-80,5) 2 +(78-80,5) 2 +(78-80,5) 2 +(79-80,5) 2 +(81-80,5) 2 +(81-80,5) 2 +(83-80,5) 2 +(86-80,5) 2 +(87-80,5) 2 = 136,5

2 группа: (78-82,1) 2 + (78-82,1) 2 +(79-82,1) 2 +(81-82,1) 2 +(81-82,1) 2 +(82-82,1) 2 +(83-82,1) 2 +(85-82,1) 2 +(86-82,1) 2 +(88-82,1) 2 = 104,9

3 группа: (82-86,7) 2 + (82-86,7) 2 +(84-86,7) 2 +(86-86,7) 2 +(86-86,7) 2 +(87-86,7) 2 +(87-86,7) 2 +(89-86,7) 2 +(90-86,7) 2 +(94-86,7) 2 = 122,1

Внутригрупповая вариация: 136,5 + 104,9 + 122,1 = 363,5 .

Если мы используем статистическое программное обеспечение для выполнения однофакторного дисперсионного анализа с использованием этого набора данных, мы получим следующую таблицу дисперсионного анализа:

Обратите внимание, что значения вариаций между группами и внутри групп совпадают с теми, которые мы рассчитали вручную.

Общая F-статистика в таблице — это способ количественной оценки соотношения межгрупповой вариации по сравнению с внутригрупповой вариацией.

Чем больше F-статистика, тем больше вариация между средними группами по сравнению с вариацией внутри групп.

Таким образом, чем больше F-статистика, тем больше доказательств того, что существует разница между средними группами.

В этом примере мы видим, что значение p, соответствующее F-статистике 7,6952, равно 0,0023 .

Поскольку это значение меньше, чем α = 0,05, мы отклоняем нулевую гипотезу дисперсионного анализа и делаем вывод, что три метода обучения не приводят к одному и тому же экзаменационному баллу.

Дополнительные ресурсы

Следующие руководства предоставляют дополнительную информацию о моделях ANOVA:

Введение в однофакторный дисперсионный анализ
Как интерпретировать F-значение и P-значение в ANOVA
Полное руководство: как сообщить о результатах ANOVA