Предположение о постоянной дисперсии: определение и пример

Линейная регрессия — это метод, который мы используем для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной- откликом .

Одно из ключевых предположений линейной регрессии состоит в том, что остатки имеют постоянную дисперсию на каждом уровне предиктора (переменных).

Если это предположение не выполняется, говорят, что остатки страдают гетероскедастичностью.Когда это происходит, оценки коэффициентов модели становятся ненадежными.

Как оценить постоянную дисперсию

Наиболее распространенный способ определить, имеют ли остаточные значения регрессионной модели постоянную дисперсию, — это построить график сопоставления подходящих значений с остаточными значениями .

Это тип графика, который отображает подогнанные значения регрессионной модели по оси x и остатки этих подогнанных значений по оси y.

Если разброс остатков примерно одинаков на каждом уровне подобранных значений, мы говорим, что выполняется предположение о постоянной дисперсии.

В противном случае, если разброс остатков систематически увеличивается или уменьшается, это предположение, вероятно, нарушается.

Примечание.Этот тип графика можно создать только после подбора регрессионной модели к набору данных.

На следующем графике показан пример графика сопоставленных значений и остатка, который отображает постоянную дисперсию :

Обратите внимание, как остатки случайным образом разбросаны вокруг нуля без какой-либо конкретной закономерности с примерно постоянной дисперсией на каждом уровне подобранных значений.

На следующем графике показан пример графика сопоставления подобранных значений и остатка, который отображает непостоянную дисперсию :

Обратите внимание, что разброс остатков становится все больше и больше по мере увеличения подогнанных значений. Это типичный признак непостоянной дисперсии.

Это говорит нам о том, что наша регрессионная модель страдает непостоянной дисперсией остатков, и поэтому оценки коэффициентов модели ненадежны.

Как исправить нарушение постоянной дисперсии

Если предположение о постоянной дисперсии нарушается, наиболее распространенный способ справиться с этим — преобразовать переменную отклика с помощью одного из трех преобразований:

1. Преобразование журнала: преобразование переменной ответа из y в log(y)

2. Преобразование квадратного корня: преобразование переменной отклика из y в √ y

3. Преобразование кубического корня: преобразование переменной ответа из y в y 1/3

Выполняя эти преобразования, проблема непостоянной дисперсии обычно исчезает.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о линейной регрессии и анализе невязок:

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Четыре допущения линейной регрессии
Что такое остатки в статистике?

Предположение о постоянной дисперсии: определение и пример

Как оценить постоянную дисперсию

Как исправить нарушение постоянной дисперсии

Дополнительные ресурсы

Редакция Кодкампа