Когда следует использовать полиномиальную регрессию?

Когда следует использовать полиномиальную регрессию?

Полиномиальная регрессия — это метод, который мы можем использовать для подбора регрессионной модели, когда связь между предикторной переменной (переменными) и переменной отклика нелинейна.

Модель полиномиальной регрессии принимает следующий вид:

Y = β 0 + β 1 X + β 2 X 2 + … + β h X h + ε

На практике есть три простых способа определить, следует ли вам использовать полиномиальную регрессию по сравнению с более простой моделью, такой как линейная регрессия .

1. Создайте диаграмму рассеяния переменной-предиктора и переменной-ответа.

Самый простой способ определить, следует ли вам использовать полиномиальную регрессию, — это создать простую диаграмму рассеяния переменной-предиктора и переменной-ответа.

Например, предположим, что мы хотим использовать предикторную переменную «учебные часы», чтобы предсказать балл, который студент получит на выпускном экзамене.

Перед подгонкой регрессионной модели мы можем сначала построить диаграмму рассеивания часов обучения по сравнению с баллами на экзаменах. Предположим, что наша диаграмма рассеяния выглядит следующим образом:

Взаимосвязь между количеством часов обучения и экзаменационным баллом выглядит линейной , поэтому имеет смысл подогнать к этому набору данных простую модель линейной регрессии.

Однако предположим, что диаграмма рассеяния на самом деле выглядит следующим образом:

Эта связь выглядит немного более нелинейной , поэтому это говорит нам о том, что вместо этого может быть хорошей идеей использовать модель полиномиальной регрессии.

2. Создайте график подобранных значений и остатков

Еще один способ определить, следует ли вам использовать полиномиальную регрессию, — подобрать модель линейной регрессии к набору данных, а затем создать график сопоставления значений и остатков для модели.

Если в остатках есть четкая нелинейная закономерность, то это указывает на то, что полиномиальная регрессия может лучше соответствовать данным.

Например, предположим, что мы подгоняем модель линейной регрессии, используя количество часов обучения в качестве переменной-предиктора и экзаменационный балл в качестве переменной-ответа, а затем создаем следующий график сопоставления значений и остатков:

Остатки случайным образом разбросаны вокруг нуля без четкой закономерности, что указывает на то, что линейная модель обеспечивает подходящее соответствие данным.

Однако предположим, что наш график подгонки значений по сравнению с остатками на самом деле выглядит следующим образом:

Из графика видно, что в остатках наблюдается четкая нелинейная картина — остатки имеют U-образную форму.

Это говорит нам о том, что линейная модель не подходит для этих конкретных данных, и вместо этого может быть хорошей идеей подобрать модель полиномиальной регрессии.

3. Рассчитайте скорректированное значение R-квадрата модели.

Другой способ определить, следует ли вам использовать полиномиальную регрессию, — подобрать модель линейной регрессии и модель полиномиальной регрессии и вычислить скорректированные значения R-квадрата для обеих моделей.

Скорректированный R-квадрат представляет собой долю дисперсии переменной отклика, которая может быть объяснена переменными-предикторами в модели, с поправкой на количество переменных-предикторов в модели.

Модель с более высоким скорректированным R-квадратом представляет собой модель, которая лучше способна использовать переменную (переменные) предиктора для объяснения изменения переменной отклика.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять полиномиальную регрессию с использованием различных статистических программ:

Введение в полиномиальную регрессию
Как выполнить полиномиальную регрессию в R
Как выполнить полиномиальную регрессию в Python
Как выполнить полиномиальную регрессию в Excel

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.