Что такое остаточная дисперсия? (Определение и пример)


Остаточная дисперсия (иногда называемая «необъяснимой дисперсией») относится к дисперсии в модели, которая не может быть объяснена переменными в модели.

Чем выше остаточная дисперсия модели, тем меньше модель способна объяснить изменение данных.

Остаточная дисперсия появляется на выходе двух разных статистических моделей:

1. Дисперсионный анализ: используется для сравнения средних значений трех или более независимых групп.

2. Регрессия: используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

В следующих примерах показано, как интерпретировать остаточную дисперсию в каждом из этих методов.

Остаточная дисперсия в моделях ANOVA

Всякий раз, когда мы подбираем модель ANOVA («дисперсионный анализ»), мы получаем таблицу ANOVA, которая выглядит следующим образом:

Значение остаточной дисперсии модели ANOVA можно найти в столбце SS («сумма квадратов») для варианта внутри групп .

Это значение также называется «сумма квадратов ошибок» и рассчитывается по следующей формуле:

Σ( Xij – Xj ) 2

куда:

  • Σ : греческий символ, означающий «сумма».
  • X ij : i -е наблюдение в группе j
  • X j : среднее значение группы j

В приведенной выше модели ANOVA мы видим, что остаточная дисперсия составляет 1100,6.

Чтобы определить, является ли эта остаточная дисперсия «высокой», мы можем рассчитать среднюю сумму квадратов для внутри групп и среднюю сумму квадратов для между группами и найти соотношение между ними, что приводит к общему F-значению в таблице ANOVA.

  • F = MS между / MS внутри
  • F = 96,1/40,76296
  • F = 2,357

Значение F в приведенной выше таблице ANOVA равно 2,357, а соответствующее значение p равно 0,113848. Поскольку это p-значение не меньше α = 0,05, у нас нет достаточных доказательств, чтобы отклонить нулевую гипотезу.

Это означает, что у нас нет достаточных доказательств, чтобы сказать, что средняя разница между группами, которые мы сравниваем, значительно отличается.

Это говорит нам о том, что остаточная дисперсия в модели ANOVA высока по сравнению с вариацией, которую модель фактически может объяснить.

Остаточная дисперсия в регрессионных моделях

В регрессионной модели остаточная дисперсия определяется как сумма квадратов разностей между прогнозируемыми точками данных и наблюдаемыми точками данных.

Он рассчитывается как:

Σ(ŷ i – y i ) 2

куда:

  • Σ : греческий символ, означающий «сумма».
  • ŷ i : прогнозируемые точки данных
  • y i : наблюдаемые точки данных

Когда мы подбираем регрессионную модель, мы обычно получаем результат, который выглядит следующим образом:

Значение остаточной дисперсии модели ANOVA можно найти в столбце SS («сумма квадратов») для остаточной вариации.

Отношение остаточной вариации к общей вариации в модели говорит нам о проценте вариации переменной отклика, которая не может быть объяснена предикторными переменными в модели.

Например, в приведенной выше таблице мы рассчитали бы этот процент как:

  • Необъяснимая вариация = SS Residual / SS Total
  • Необъяснимая вариация = 5,9024 / 174,5
  • Необъяснимая вариация = 0,0338

Мы также можем рассчитать это значение, используя следующую формулу:

  • Необъяснимая вариация = 1 – R 2
  • Необъяснимая вариация = 1 – 0,96617
  • Необъяснимая вариация = 0,0338

Значение R-квадрата для модели говорит нам о процентной вариации переменной отклика, которая может быть объяснена переменной-предиктором.

Таким образом, чем ниже необъяснимая вариация, тем лучше модель способна использовать переменные-предикторы для объяснения вариации переменной отклика.

Дополнительные ресурсы

Что такое хорошее значение R-квадрата?
Как рассчитать R-квадрат в Excel
Как рассчитать R-квадрат в R