Как рассчитать сумму квадратов в ANOVA (с примером)

Как рассчитать сумму квадратов в ANOVA (с примером)

В статистике однофакторный дисперсионный анализ используется для сравнения средних значений трех или более независимых групп, чтобы определить, существует ли статистически значимая разница между соответствующими средними значениями генеральной совокупности.

Всякий раз, когда вы выполняете однофакторный дисперсионный анализ, вы всегда будете вычислять три значения суммы квадратов:

1. Регрессия суммы квадратов (SSR)

2. Ошибка суммы квадратов (SSE)

  • Это сумма квадратов разностей между каждым отдельным наблюдением и групповым средним значением этого наблюдения.

3. Общая сумма квадратов (SST)

  • Это сумма квадратов разностей между каждым отдельным наблюдением и средним значением.

Каждое из этих трех значений помещается в итоговую таблицу ANOVA, которую мы используем, чтобы определить, существует ли статистически значимая разница между средними группами.

В следующем примере показано, как на практике рассчитать каждое из этих значений суммы квадратов для однофакторного дисперсионного анализа.

Пример: как рассчитать сумму квадратов в ANOVA

Предположим, мы хотим знать, приводят ли три разные программы подготовки к экзаменам к разным средним баллам на определенном экзамене. Чтобы проверить это, мы набираем 30 студентов для участия в исследовании и разделяем их на три группы.

Студенты в каждой группе случайным образом назначаются для использования одной из трех программ подготовки к экзамену в течение следующих трех недель для подготовки к экзамену. По истечении трех недель все студенты сдают один и тот же экзамен.

Ниже представлены результаты экзаменов для каждой группы:

Пример однофакторных данных ANOVA

Следующие шаги показывают, как рассчитать сумму квадратов значений для этого однофакторного дисперсионного анализа.

Шаг 1: Рассчитайте групповые средние и общее среднее.

Во-первых, мы рассчитаем среднее значение для всех трех групп вместе с общим (или «общим») средним значением:

Шаг 2: Рассчитайте SSR.

Далее мы рассчитаем сумму квадратов регрессии (SSR) по следующей формуле:

nΣ(X j – X ..) 2

куда:

  • n : размер выборки группы j
  • Σ : греческий символ, означающий «сумма».
  • X j : среднее значение группы j
  • X .. : общее среднее значение

В нашем примере мы вычисляем, что SSR = 10(83,4-85,8) 2 + 10(89,3-85,8) 2 + 10(84,7-85,8) 2 = 192,2

Шаг 3: Рассчитайте SSE.

Далее мы рассчитаем ошибку суммы квадратов (SSE) по следующей формуле:

Σ( Xij – Xj ) 2

куда:

  • Σ : греческий символ, означающий «сумма».
  • X ij : i -е наблюдение в группе j
  • X j : среднее значение группы j

В нашем примере мы вычисляем SSE следующим образом:

1 группа: (85-83,4) 2 + (86-83,4) 2 +(88-83,4) 2 +(75-83,4) 2 +(78-83,4) 2 +(94-83,4) 2 +(98-83,4) 2 +(79-83,4) 2 +(71-83,4) 2 +(80-83,4) 2 = 640,4

2 группа: (91-89,3) 2 + (92-89,3) 2 +(93-89,3) 2 +(85-89,3) 2 +(87-89,3) 2 +(84-89,3) 2 +(82-89,3) 2 +(88-89,3) 2 +(95-89,3) 2 +(96-89,3) 2 = 208,1

3 группа: (79-84,7) 2 + (78-84,7) 2 +(88-84,7) 2 +(94-84,7) 2 +(92-84,7) 2 +(85-84,7) 2 +(83-84,7) 2 +(85-84,7) 2 +(82-84,7) 2 +(81-84,7) 2 = 252,1

ССЭ: 640,4 + 208,1 + 252,1 = 1100,6

Шаг 4: Рассчитайте SST.

Далее мы рассчитаем общую сумму квадратов (SST) по следующей формуле:

SST = SSR + SSE

В нашем примере SST = 192,2 + 1100,6 = 1292,8.

Как только мы рассчитали значения для SSR, SSE и SST, каждое из этих значений в конечном итоге будет помещено в таблицу ANOVA:

| Источник | Сумма квадратов (СС) | дф | Средние квадраты (MS) | F-значение | р-значение | | --- | --- | --- | --- | --- | --- | | Регрессия | 192,2 | 2 | 96,1 | 2,358 | 0,1138 | | Ошибка | 1100,6 | 27 | 40,8 |  |  | | Общий | 1292,8 | 29 |  |  |  |

Вот как мы рассчитали различные числа в таблице:

  • регрессия df: k-1 = 3-1 = 2
  • ошибка df: nk = 30-3 = 27
  • df всего: n-1 = 30-1 = 29
  • Лечение MS: лечение SST / df = 192,2 / 2 = 96,1
  • Ошибка MS: ошибка SSE/df = 1100,6/27 = 40,8
  • Значение F: обработка МС/ошибка МС = 96,1/40,8 = 2,358.
  • p-значение : p-значение, соответствующее значению F.

Примечание: n = общее количество наблюдений, k = количество групп.

Ознакомьтесь с этим руководством , чтобы узнать, как интерпретировать F-значение и p-значение в таблице ANOVA.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.