7 распространенных типов регрессии (и когда их использовать)

Регрессионный анализ является одним из наиболее часто используемых методов в статистике.

Основная цель регрессионного анализа состоит в том, чтобы подобрать модель, которая наилучшим образом описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной- откликом .

В этой статье мы расскажем о 7 наиболее часто используемых моделях регрессии в реальной жизни, а также о том, когда использовать каждый тип регрессии.

1. Линейная регрессия

Линейная регрессия используется для подбора регрессионной модели, которая описывает взаимосвязь между одной или несколькими предикторными переменными и числовой переменной отклика.

Используйте, когда:

Отношения между предикторной переменной (переменными) и переменной отклика достаточно линейны.
Переменная ответа является непрерывной числовой переменной.

Пример: розничная компания может использовать модель линейной регрессии, используя расходы на рекламу для прогнозирования общего объема продаж.

Поскольку связь между этими двумя переменными, вероятно, является линейной (больше денег, потраченных на рекламу, обычно приводит к увеличению продаж), а переменная отклика (общий объем продаж) является непрерывной числовой переменной, имеет смысл использовать модель линейной регрессии.

Ресурс: Введение в множественную линейную регрессию

2. Логистическая регрессия

Логистическая регрессия используется для подбора модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной бинарного отклика.

Используйте, когда:

Переменная ответа является бинарной — она может принимать только два значения.

Пример. Медицинские исследователи могут использовать модель логистической регрессии, используя физические упражнения и привычки к курению, чтобы предсказать вероятность сердечного приступа у человека.

Поскольку переменная ответа (сердечный приступ) является бинарной — у человека либо есть, либо нет сердечного приступа — уместно подобрать модель логистической регрессии.

Ресурс: Введение в логистическую регрессию

3. Полиномиальная регрессия

Полиномиальная регрессия используется для подбора регрессионной модели, которая описывает взаимосвязь между одной или несколькими предикторными переменными и числовой переменной отклика.

Используйте, когда:

Отношения между переменной (переменными) предиктора и переменной ответа нелинейны.
Переменная ответа является непрерывной числовой переменной.

Пример: психологи могут построить полиномиальную регрессию, используя «отработанные часы», чтобы предсказать «общее счастье» сотрудников в определенной отрасли.

Связь между этими двумя переменными, вероятно, будет нелинейной. То есть по мере увеличения количества часов человек может сообщать о более высоком уровне счастья, но после определенного количества отработанных часов общее счастье, вероятно, уменьшится. Поскольку эта связь между переменной-предиктором и переменной-ответом является нелинейной, имеет смысл использовать модель полиномиальной регрессии.

Ресурс: Введение в полиномиальную регрессию

4. Регрессия хребта

Гребневая регрессия используется для подбора регрессионной модели, которая описывает взаимосвязь между одной или несколькими предикторными переменными и числовой переменной отклика.

Используйте, когда:

Переменные-предикторы сильно коррелированы, и мультиколлинеарность становится проблемой.
Переменная ответа является непрерывной числовой переменной.

Пример. Баскетбольный специалист по данным может подобрать модель гребневой регрессии, используя переменные-предикторы, такие как очки, передачи и подборы, для прогнозирования зарплаты игрока.

Переменные-предикторы, вероятно, будут сильно коррелированы, поскольку лучшие игроки, как правило, получают больше очков, передач и подборов. Таким образом, мультиколлинеарность, вероятно, будет проблемой, поэтому мы можем минимизировать эту проблему, используя гребневую регрессию.

Ресурс: Введение в гребневую регрессию

5. Лассо-регрессия

Лассо-регрессия очень похожа на гребенчатую регрессию и используется для подбора модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и числовой переменной отклика.

Используйте, когда:

Переменные-предикторы сильно коррелированы, и мультиколлинеарность становится проблемой.
Переменная ответа является непрерывной числовой переменной.

Пример: экономист может подобрать модель регрессии лассо, используя переменные-предикторы, такие как общее количество лет обучения, количество отработанных часов и стоимость жизни, для прогнозирования дохода домохозяйства.

Предикторные переменные, вероятно, будут сильно коррелированы, поскольку люди, которые получают больше образования, также, как правило, живут в городах с более высокой стоимостью жизни и работают больше часов. Таким образом, мультиколлинеарность, вероятно, будет проблемой, поэтому мы можем минимизировать эту проблему, используя регрессию лассо.

Обратите внимание, что регрессия Лассо и регрессия гребня очень похожи. Когда мультиколлинеарность является проблемой в наборе данных, я рекомендую использовать регрессионную модель Лассо и Риджа, чтобы увидеть, какая модель работает лучше всего.

Ресурс: Введение в регрессию Лассо

6. Регрессия Пуассона

Регрессия Пуассона используется для подбора регрессионной модели, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной отклика.

Используйте, когда:

Переменная ответа состоит из «счетных» данных — например, количество солнечных дней в неделю, количество дорожно-транспортных происшествий в год, количество звонков, сделанных в день, и т. д.

Пример: университет может использовать регрессию Пуассона для изучения количества студентов, окончивших определенную программу колледжа, на основе их среднего балла при поступлении на программу и их пола.

В этом случае, поскольку переменная ответа состоит из данных подсчета (мы можем «подсчитать» количество выпускников — 200, 250, 300, 413 и т. д.), уместно использовать регрессию Пуассона.

Ресурс: Введение в регрессию Пуассона

7. Квантильная регрессия

Квантильная регрессия используется для подбора модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной отклика.

Используйте, когда:

Мы хотели бы оценить конкретный квантиль или процентиль переменной отклика, например, 90-й процентиль, 95-й процентиль и т. д.

Пример. Профессор может использовать квантильную регрессию для прогнозирования ожидаемого 90-го процентиля экзаменационных баллов на основе количества часов обучения:

В этом случае, поскольку профессор заинтересован в прогнозировании определенного процентиля переменной ответа (экзаменационных баллов), уместно использовать квантильную регрессию.

Ресурс: Введение в квантильную регрессию

Дополнительные ресурсы

4 примера использования линейной регрессии в реальной жизни
4 примера использования логистической регрессии в реальной жизни
ANOVA против регрессии: в чем разница?
Полное руководство: как сообщать о результатах регрессии

7 распространенных типов регрессии (и когда их использовать)

1. Линейная регрессия

2. Логистическая регрессия

3. Полиномиальная регрессия

4. Регрессия хребта

5. Лассо-регрессия

6. Регрессия Пуассона

7. Квантильная регрессия

Дополнительные ресурсы

Редакция Кодкампа