Как интерпретировать диагностические графики в R

Как интерпретировать диагностические графики в R

Модели линейной регрессии используются для описания взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Однако после того, как мы подогнали регрессионную модель, было бы неплохо создать диагностические графики для анализа остатков модели и убедиться, что линейная модель подходит для использования с конкретными данными, с которыми мы работаем.

В этом руководстве объясняется, как создавать и интерпретировать диагностические графики для заданной модели регрессии в R.

Пример: создание и интерпретация диагностических графиков в R

Предположим, мы подгоняем простую модель линейной регрессии, используя «учебные часы», чтобы предсказать «экзаменационный балл» для учащихся в определенном классе:

#create data frame
df <- data.frame(hours=c(1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6),
 score=c(67, 65, 68, 77, 73, 79, 81, 88, 80, 67, 84, 93, 90, 91)) 

#fit linear regression model
model = lm(score ~ hours, data=df)

Мы можем использовать команду plot() для создания четырех диагностических графиков для этой регрессионной модели:

#produce diagnostic plots for regression model
plot(model)
диагностические графики в R

Диагностический график № 1: График остатков и кредитного плеча

Этот график используется для выявления влиятельных наблюдений. Если какие-либо точки на этом графике выходят за пределы расстояния Кука (пунктирные линии), то это важное наблюдение.

график зависимости остатков от кредитного плеча в R

В нашем примере мы видим, что наблюдение №10 находится ближе всего к границе расстояния Кука, но не выходит за пределы пунктирной линии. Это означает, что в нашем наборе данных нет чрезмерно влиятельных точек.

Диагностический график № 2: график масштаба-местоположения

Этот график используется для проверки предположения о равной дисперсии (также называемой «гомоскедастичностью») остатков в нашей регрессионной модели. Если красная линия проходит по графику примерно горизонтально, то предположение о равной дисперсии, скорее всего, выполнено.

график масштабирования в R

В нашем примере мы видим, что красная линия не совсем горизонтальна на графике, но она не отклоняется слишком сильно ни в одной точке. Мы, вероятно, заявим, что предположение о равной дисперсии в этом случае не нарушается.

Связанный: Понимание гетероскедастичности в регрессионном анализе

Диагностический график № 3: нормальный график QQ

Этот график используется для определения нормального распределения остатков регрессионной модели. Если точки на этом графике ложатся примерно на прямую диагональную линию, то мы можем предположить, что остатки распределены нормально.

В нашем примере мы видим, что точки падают примерно по прямой диагональной линии. Наблюдения № 10 и № 8 немного отклоняются от линии на концах, но недостаточно, чтобы объявить, что остатки не имеют нормального распределения.

Диагностический график № 4: остатки по сравнению с подогнанным графиком

Этот график используется для определения того, имеют ли остатки нелинейные закономерности. Если красная линия в центре графика примерно горизонтальна, мы можем предположить, что остатки следуют линейному образцу.

В нашем примере мы видим, что красная линия отклоняется от идеальной горизонтальной линии, но не сильно. Мы, вероятно, заявим, что остатки следуют примерно линейному образцу и что для этого набора данных подходит модель линейной регрессии.

Дополнительные ресурсы

Четыре допущения линейной регрессии
Что такое остатки в статистике?
Как создать остаточный график в R
Как интерпретировать график масштаба-местоположения

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.