Объясненная дисперсия (иногда называемая «объясненной вариацией») относится к дисперсии переменной отклика в модели, которая может быть объяснена предикторной переменной (переменными) в модели.
Чем выше объясненная дисперсия модели, тем больше модель способна объяснить вариацию данных.
Объясненная дисперсия появляется на выходе двух разных статистических моделей:
1. Дисперсионный анализ: используется для сравнения средних значений трех или более независимых групп.
2. Регрессия: используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.
В следующих примерах показано, как интерпретировать остаточную дисперсию в каждом из этих методов.
Примечание.Противоположность объясненной дисперсии известна как остаточная дисперсия .
Объяснение дисперсии в моделях ANOVA
Всякий раз, когда мы подбираем модель ANOVA («дисперсионный анализ»), мы получаем таблицу ANOVA, которая выглядит следующим образом:
Объясненную дисперсию можно найти в столбце SS («сумма квадратов») для вариации между группами .
В приведенной выше модели ANOVA мы видим, что объясненная дисперсия составляет 192,2.
Чтобы определить, является ли эта объясненная дисперсия «высокой», мы можем рассчитать среднюю сумму квадратов для внутри групп и среднюю сумму квадратов для между группами и найти соотношение между ними, что приводит к общему F-значению в таблице ANOVA.
- F = MS между / MS внутри
- F = 96,1/40,76296
- F = 2,357
Значение F в приведенной выше таблице ANOVA равно 2,357, а соответствующее значение p равно 0,113848.
Поскольку это p-значение не меньше α = 0,05, у нас нет достаточных доказательств, чтобы отклонить нулевую гипотезу ANOVA .
Это означает, что у нас нет достаточных доказательств, чтобы сказать, что средняя разница между группами, которые мы сравниваем, значительно отличается.
Это говорит нам о том, что объясненная дисперсия в модели ANOVA низка по сравнению с необъяснимой дисперсией.
Объяснение дисперсии в регрессионных моделях
В регрессионной модели объясненная дисперсия суммируется R -квадратом , часто обозначаемым как R2.
Это значение представляет долю дисперсии в переменной отклика, которая может быть объяснена предикторной переменной (переменными) в модели.
Значение для R-квадрата может варьироваться от 0 до где:
- Значение 0 указывает, что переменная отклика вообще не может быть объяснена предикторной переменной (переменными).
- Значение 1 указывает на то, что переменная отклика может быть полностью объяснена без ошибок с помощью переменных-предикторов.
Когда мы подбираем регрессионную модель, мы обычно получаем результат, который выглядит следующим образом:
Мы видим, что объясненная дисперсия составляет 168,5976 , а общая дисперсия — 174,5 .
Используя эти значения, мы можем рассчитать значение R-квадрата для этой регрессионной модели следующим образом:
- R-квадрат: регрессия SS / общая сумма SS
- R-квадрат: 168,5976 / 174,5
- R-квадрат: 0,966
Поскольку значение R-квадрата для этой модели близко к 1, это говорит нам о том, что объясненная дисперсия в модели чрезвычайно высока.
Другими словами, модель может хорошо справляться с использованием переменных-предикторов для объяснения изменения переменной отклика.
Связанный: Что такое хорошее значение R-квадрата?