Что такое остаточная дисперсия? (Определение и пример)

Что такое остаточная дисперсия? (Определение и пример)

Остаточная дисперсия (иногда называемая «необъяснимой дисперсией») относится к дисперсии в модели, которая не может быть объяснена переменными в модели.

Чем выше остаточная дисперсия модели, тем меньше модель способна объяснить изменение данных.

Остаточная дисперсия появляется на выходе двух разных статистических моделей:

1. Дисперсионный анализ: используется для сравнения средних значений трех или более независимых групп.

2. Регрессия: используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

В следующих примерах показано, как интерпретировать остаточную дисперсию в каждом из этих методов.

Остаточная дисперсия в моделях ANOVA

Всякий раз, когда мы подбираем модель ANOVA («дисперсионный анализ»), мы получаем таблицу ANOVA, которая выглядит следующим образом:

Остаточная дисперсия в модели ANOVA

Значение остаточной дисперсии модели ANOVA можно найти в столбце SS («сумма квадратов») для варианта внутри групп .

Это значение также называется «сумма квадратов ошибок» и рассчитывается по следующей формуле:

Σ( Xij – Xj ) 2

куда:

  • Σ : греческий символ, означающий «сумма».
  • X ij : i -е наблюдение в группе j
  • X j : среднее значение группы j

В приведенной выше модели ANOVA мы видим, что остаточная дисперсия составляет 1100,6.

Чтобы определить, является ли эта остаточная дисперсия «высокой», мы можем рассчитать среднюю сумму квадратов для внутри групп и среднюю сумму квадратов для между группами и найти соотношение между ними, что приводит к общему F-значению в таблице ANOVA.

  • F = MS между / MS внутри
  • F = 96,1/40,76296
  • F = 2,357

Значение F в приведенной выше таблице ANOVA равно 2,357, а соответствующее значение p равно 0,113848. Поскольку это p-значение не меньше α = 0,05, у нас нет достаточных доказательств, чтобы отклонить нулевую гипотезу.

Это означает, что у нас нет достаточных доказательств, чтобы сказать, что средняя разница между группами, которые мы сравниваем, значительно отличается.

Это говорит нам о том, что остаточная дисперсия в модели ANOVA высока по сравнению с вариацией, которую модель фактически может объяснить.

Остаточная дисперсия в регрессионных моделях

В регрессионной модели остаточная дисперсия определяется как сумма квадратов разностей между прогнозируемыми точками данных и наблюдаемыми точками данных.

Он рассчитывается как:

Σ(ŷ i – y i ) 2

куда:

  • Σ : греческий символ, означающий «сумма».
  • ŷ i : прогнозируемые точки данных
  • y i : наблюдаемые точки данных

Когда мы подбираем регрессионную модель, мы обычно получаем результат, который выглядит следующим образом:

Остаточная дисперсия в регрессионной модели

Значение остаточной дисперсии модели ANOVA можно найти в столбце SS («сумма квадратов») для остаточной вариации.

Отношение остаточной вариации к общей вариации в модели говорит нам о проценте вариации переменной отклика, которая не может быть объяснена предикторными переменными в модели.

Например, в приведенной выше таблице мы рассчитали бы этот процент как:

  • Необъяснимая вариация = SS Residual / SS Total
  • Необъяснимая вариация = 5,9024 / 174,5
  • Необъяснимая вариация = 0,0338

Мы также можем рассчитать это значение, используя следующую формулу:

  • Необъяснимая вариация = 1 – R 2
  • Необъяснимая вариация = 1 – 0,96617
  • Необъяснимая вариация = 0,0338

Значение R-квадрата для модели говорит нам о процентной вариации переменной отклика, которая может быть объяснена переменной-предиктором.

Таким образом, чем ниже необъяснимая вариация, тем лучше модель способна использовать переменные-предикторы для объяснения вариации переменной отклика.

Дополнительные ресурсы

Что такое хорошее значение R-квадрата?
Как рассчитать R-квадрат в Excel
Как рассчитать R-квадрат в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.