График остатков и кредитного плеча — это тип диагностического графика , который позволяет нам идентифицировать важные наблюдения в регрессионной модели.
Вот как этот тип графика выглядит на языке статистического программирования R:

Каждое наблюдение из набора данных отображается как отдельная точка на графике. По оси x показано кредитное плечо каждой точки, а по оси y — стандартизованная невязка каждой точки.
Кредитное плечо относится к степени, в которой коэффициенты в модели регрессии изменились бы, если бы конкретное наблюдение было удалено из набора данных.
Наблюдения с высоким кредитным плечом оказывают сильное влияние на коэффициенты в регрессионной модели. Если убрать эти наблюдения, то коэффициенты модели заметно изменятся.
Стандартизированные остатки относятся к стандартизированной разнице между прогнозируемым значением наблюдения и фактическим значением наблюдения.
Стоит отметить, что наблюдение может иметь высокое абсолютное значение для стандартизированного остатка, но низкое значение для кредитного плеча.
Как интерпретировать график остатков и кредитного плеча
Если какая-либо точка на этом графике выходит за пределы расстояния Кука (красные пунктирные линии), то это считается важным наблюдением.
Давайте обратимся к приведенному ранее графику зависимости остатков от кредитного плеча:

В приведенном выше примере мы видим, что наблюдение №10 находится ближе всего к границе расстояния Кука, но не выходит за пределы пунктирной линии. Это означает, что в нашей регрессионной модели нет никаких влиятельных точек .
Однако предположим, что у нас есть следующий график зависимости остатков от кредитного плеча:

Мы видим, что наблюдение № 1 в правом верхнем углу выходит за пределы красных пунктирных линий. Это указывает на то, что это влиятельная точка .
Это означает, что если мы удалим это наблюдение из нашего набора данных и снова подгоним регрессионную модель, коэффициенты модели значительно изменятся.
Как справиться с влиятельными наблюдениями
Если вы создаете график остатков и рычага для модели и обнаруживаете, что одно или несколько наблюдений идентифицированы как влиятельные, вы можете сделать несколько вещей:
1. Убедитесь, что наблюдение не является ошибкой.
Прежде чем предпринимать какие-либо действия, вы должны сначала убедиться, что важные наблюдения не являются результатом ошибки ввода данных или какого-либо другого странного события.
2. Попытайтесь подобрать другую регрессионную модель.
Влиятельные наблюдения могут указывать на то, что указанная вами модель не обеспечивает хорошего соответствия данным. В этом случае вы можете попробовать модель полиномиальной регрессии или нелинейную модель.
3. Удалите важные замечания.
Наконец, вы можете решить просто удалить влиятельные наблюдения, если указанная вами модель кажется хорошо согласующейся с данными, за исключением одного или двух влиятельных наблюдений.
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация о том, как использовать остатки для оценки соответствия регрессионных моделей.
Что такое остатки в статистике?
Что такое стандартизированные остатки?
Как интерпретировать диагностические графики в R