Что такое стандартизированные остатки?

Что такое стандартизированные остатки?

Остаток — это разница между наблюдаемым значением и прогнозируемым значением в регрессионной модели .

Он рассчитывается как:

Остаток = наблюдаемое значение – прогнозируемое значение

Если мы нанесем наблюдаемые значения и наложим подобранную линию регрессии, остатки для каждого наблюдения будут вертикальным расстоянием между наблюдением и линией регрессии:

Пример остатка в статистике

Один тип остатка, который мы часто используем для выявления выбросов в регрессионной модели, известен как стандартизированный остаток .

Он рассчитывается как:

r i = e i / s(e i ) = e i / RSE√ 1-h ii

куда:

  • e i : i -й остаток
  • RSE: остаточная стандартная ошибка модели.
  • h ii : рычаг i -го наблюдения

На практике мы часто считаем выбросом любой стандартизированный остаток с абсолютным значением больше 3.

Это не обязательно означает, что мы удалим эти наблюдения из модели, но мы должны, по крайней мере, исследовать их дальше, чтобы убедиться, что они не являются результатом ошибки ввода данных или какого-либо другого странного события.

Примечание. Иногда стандартизированные остатки также называют «внутренними студенческими остатками».

Пример. Как рассчитать стандартизованные остатки

Предположим, у нас есть следующий набор данных с 12 общими наблюдениями:

Если мы используем какое-либо статистическое программное обеспечение (например, R , Excel , Python , Stata и т. д.), чтобы подогнать линию линейной регрессии к этому набору данных, мы обнаружим, что линия наилучшего соответствия оказывается:

у = 29,63 + 0,7553х

Используя эту строку, мы можем вычислить прогнозируемое значение для каждого значения Y на основе значения X. Например, прогнозируемое значение первого наблюдения будет следующим:

у = 29,63 + 0,7553 * (8) = 35,67

Затем мы можем рассчитать остаток для этого наблюдения как:

Остаток = наблюдаемое значение – прогнозируемое значение = 41 – 35,67 = 5,33

Мы можем повторить этот процесс, чтобы найти невязку для каждого отдельного наблюдения:

Как рассчитать остатки

Мы также можем использовать статистическое программное обеспечение, чтобы найти, что остаточная стандартная ошибка модели составляет 4,44 .

И, хотя это выходит за рамки этого руководства, мы можем использовать программное обеспечение, чтобы найти статистику кредитного плеча (h ii ) для каждого наблюдения:

Затем мы можем использовать следующую формулу для расчета стандартизованного остатка для каждого наблюдения:

r i = e i / RSE √ 1-h ii

Например, стандартизированный остаток для первого наблюдения рассчитывается как:

г я = 5,33 / 4,44 √ 1-0,27 = 1,404

Мы можем повторить этот процесс, чтобы найти стандартизованную невязку для каждого наблюдения:

Пример расчета стандартизированных остатков

Затем мы можем создать быструю диаграмму рассеяния значений предиктора по сравнению со стандартизованными остатками, чтобы визуально увидеть, превышает ли какой-либо из стандартизованных остатков порог абсолютного значения, равный 3:

Значения предиктора и стандартизированный график остатков

Из графика видно, что ни один из стандартизованных остатков не превышает абсолютного значения 3. Таким образом, ни одно из наблюдений не является выбросом.

Стоит отметить, что в некоторых случаях исследователи считают наблюдения со стандартизованными остатками, превышающими абсолютное значение 2, выбросами.

Вам решать, в зависимости от области, в которой вы работаете, и конкретной проблемы, над которой вы работаете, использовать ли абсолютное значение 2 или 3 в качестве порога для выбросов.

Дополнительные ресурсы

Что такое остатки в статистике?
Как рассчитать стандартизированные остатки в Excel
Как рассчитать стандартизованные остатки в R
Как рассчитать стандартизованные остатки в Python

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.