Что такое объясненная дисперсия? (Определение и пример)

Что такое объясненная дисперсия? (Определение и пример)

Объясненная дисперсия (иногда называемая «объясненной вариацией») относится к дисперсии переменной отклика в модели, которая может быть объяснена предикторной переменной (переменными) в модели.

Чем выше объясненная дисперсия модели, тем больше модель способна объяснить вариацию данных.

Объясненная дисперсия появляется на выходе двух разных статистических моделей:

1. Дисперсионный анализ: используется для сравнения средних значений трех или более независимых групп.

2. Регрессия: используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

В следующих примерах показано, как интерпретировать остаточную дисперсию в каждом из этих методов.

Примечание.Противоположность объясненной дисперсии известна как остаточная дисперсия .

Объяснение дисперсии в моделях ANOVA

Всякий раз, когда мы подбираем модель ANOVA («дисперсионный анализ»), мы получаем таблицу ANOVA, которая выглядит следующим образом:

Объясненную дисперсию можно найти в столбце SS («сумма квадратов») для вариации между группами .

В приведенной выше модели ANOVA мы видим, что объясненная дисперсия составляет 192,2.

Чтобы определить, является ли эта объясненная дисперсия «высокой», мы можем рассчитать среднюю сумму квадратов для внутри групп и среднюю сумму квадратов для между группами и найти соотношение между ними, что приводит к общему F-значению в таблице ANOVA.

  • F = MS между / MS внутри
  • F = 96,1/40,76296
  • F = 2,357

Значение F в приведенной выше таблице ANOVA равно 2,357, а соответствующее значение p равно 0,113848.

Поскольку это p-значение не меньше α = 0,05, у нас нет достаточных доказательств, чтобы отклонить нулевую гипотезу ANOVA .

Это означает, что у нас нет достаточных доказательств, чтобы сказать, что средняя разница между группами, которые мы сравниваем, значительно отличается.

Это говорит нам о том, что объясненная дисперсия в модели ANOVA низка по сравнению с необъяснимой дисперсией.

Объяснение дисперсии в регрессионных моделях

В регрессионной модели объясненная дисперсия суммируется R -квадратом , часто обозначаемым как R2.

Это значение представляет долю дисперсии в переменной отклика, которая может быть объяснена предикторной переменной (переменными) в модели.

Значение для R-квадрата может варьироваться от 0 до где:

  • Значение 0 указывает, что переменная отклика вообще не может быть объяснена предикторной переменной (переменными).
  • Значение 1 указывает на то, что переменная отклика может быть полностью объяснена без ошибок с помощью переменных-предикторов.

Когда мы подбираем регрессионную модель, мы обычно получаем результат, который выглядит следующим образом:

Мы видим, что объясненная дисперсия составляет 168,5976 , а общая дисперсия — 174,5 .

Используя эти значения, мы можем рассчитать значение R-квадрата для этой регрессионной модели следующим образом:

  • R-квадрат: регрессия SS / общая сумма SS
  • R-квадрат: 168,5976 / 174,5
  • R-квадрат: 0,966

Поскольку значение R-квадрата для этой модели близко к 1, это говорит нам о том, что объясненная дисперсия в модели чрезвычайно высока.

Другими словами, модель может хорошо справляться с использованием переменных-предикторов для объяснения изменения переменной отклика.

Связанный: Что такое хорошее значение R-квадрата?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.