Что такое остатки в статистике?

Остаток — это разница между наблюдаемым значением и прогнозируемым значением в регрессионном анализе .

Он рассчитывается как:

Остаток = наблюдаемое значение – прогнозируемое значение

Напомним, что цель линейной регрессии состоит в том, чтобы количественно определить взаимосвязь между одной или несколькими переменными-предикторами и переменной- откликом.Для этого линейная регрессия находит линию, которая лучше всего «соответствует» данным, известную как линия регрессии методом наименьших квадратов .

Эта линия дает прогноз для каждого наблюдения в наборе данных, но маловероятно, что прогноз, сделанный линией регрессии, будет точно соответствовать наблюдаемому значению.

Разница между прогнозом и наблюдаемым значением является остатком. Если мы нанесем наблюдаемые значения и наложим подобранную линию регрессии, остатки для каждого наблюдения будут вертикальным расстоянием между наблюдением и линией регрессии:

Наблюдение имеет положительную невязку , если его значение больше предсказанного значения, сделанного линией регрессии.

И наоборот, наблюдение имеет отрицательную невязку , если его значение меньше предсказанного значения, сделанного линией регрессии.

Некоторые наблюдения будут иметь положительные остатки, в то время как другие будут иметь отрицательные остатки, но все остатки будут в сумме равны нулю .

Пример расчета остатков

Предположим, у нас есть следующий набор данных с 12 общими наблюдениями:

Если мы используем какое-либо статистическое программное обеспечение (например, R , Excel , Python , Stata и т. д.), чтобы подогнать линию линейной регрессии к этому набору данных, мы обнаружим, что линия наилучшего соответствия оказывается:

у = 29,63 + 0,7553х

Используя эту строку, мы можем вычислить прогнозируемое значение для каждого значения Y на основе значения X. Например, прогнозируемое значение первого наблюдения будет следующим:

у = 29,63 + 0,7553 * (8) = 35,67

Затем мы можем рассчитать остаток для этого наблюдения как:

Остаток = наблюдаемое значение – прогнозируемое значение = 41 – 35,67 = 5,33

Мы можем повторить этот процесс, чтобы найти невязку для каждого отдельного наблюдения:

Если мы создадим диаграмму рассеяния для визуализации наблюдений вместе с подобранной линией регрессии, мы увидим, что некоторые наблюдения лежат выше линии, а некоторые — ниже линии:

Свойства остатков

Остатки обладают следующими свойствами:

Каждое наблюдение в наборе данных имеет соответствующий остаток. Таким образом, если в наборе данных всего 100 наблюдений, модель выдаст 100 прогнозируемых значений, что приведет к 100 общим остаткам.
Сумма всех остатков в сумме равна нулю.
Среднее значение остатков равно нулю.

Как остатки используются на практике?

На практике остатки используются в регрессии по трем разным причинам:

1. Оцените соответствие модели.

Как только мы создадим подобранную линию регрессии, мы сможем вычислить сумму квадратов остатков (RSS) , которая представляет собой сумму всех квадратов остатков. Чем ниже RSS, тем лучше регрессионная модель соответствует данным.

2. Проверить предположение о нормальности.

Одно из ключевых предположений линейной регрессии состоит в том, что остатки нормально распределены.

Чтобы проверить это предположение, мы можем создать график QQ, тип графика, который мы можем использовать, чтобы определить, следуют ли остатки модели нормальному распределению.

Если точки на графике примерно образуют прямую диагональную линию, то предположение о нормальности выполнено.

Пример графика QQ 3. Проверить предположение о гомоскедастичности.

Другое ключевое предположение линейной регрессии состоит в том, что остатки имеют постоянную дисперсию на каждом уровне x. Это известно как гомоскедастичность. Когда это не так, говорят, что остатки страдают от гетероскедастичности .

Чтобы проверить, выполняется ли это предположение, мы можем создать график остатков , который представляет собой диаграмму рассеяния, показывающую остатки в сравнении с прогнозируемыми значениями модели.

Пример графика остаточных и подобранных значений Если остатки примерно равномерно разбросаны вокруг нуля на графике без четкой закономерности, то мы обычно говорим, что предположение о гомоскедастичности выполнено.

Дополнительные ресурсы

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Четыре допущения линейной регрессии
Как создать остаточный график в Excel

Что такое остатки в статистике?

Пример расчета остатков

Свойства остатков

Как остатки используются на практике?

Дополнительные ресурсы

Редакция Кодкампа