Логистическая регрессия против линейной регрессии: ключевые отличия


Двумя наиболее часто используемыми регрессионными моделями являются линейная регрессия и логистическая регрессия .

Оба типа регрессионных моделей используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика , но между этими двумя моделями есть некоторые ключевые различия:

Вот краткое изложение различий:

Отличие №1: переменная типа ответа

Модель линейной регрессии используется, когда переменная отклика принимает непрерывное значение, например:

  • Цена
  • Высота
  • Возраст
  • Расстояние

И наоборот, модель логистической регрессии используется, когда переменная ответа принимает категориальное значение, например:

  • Да или нет
  • Мужчина или женщина
  • Победа или не победа

Отличие № 2: используется уравнение

Линейная регрессия использует следующее уравнение, чтобы обобщить взаимосвязь между предикторной переменной (переменными) и переменной ответа:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p X p

куда:

  • Y: переменная ответа
  • X j : j -я предикторная переменная
  • β j : среднее влияние на Y увеличения X j на одну единицу при неизменности всех остальных предикторов.

И наоборот, логистическая регрессия использует следующее уравнение:

p(X) = e β 0 + β 1 X 1 + β 2 X 2 + … + β p X p / (1 + e β 0 + β 1 X 1 + β 2 X 2 + … + β p X p )

Это уравнение используется для прогнозирования вероятности того, что отдельное наблюдение попадает в определенную категорию.

Отличие № 3: метод, используемый для подбора уравнения

Линейная регрессия использует метод, известный как обычный метод наименьших квадратов , чтобы найти наиболее подходящее уравнение регрессии.

И наоборот, логистическая регрессия использует метод, известный как оценка максимального правдоподобия, чтобы найти наиболее подходящее уравнение регрессии.

Отличие № 4: вывод для прогнозирования

Линейная регрессия предсказывает непрерывное значение в качестве вывода. Например:

  • Цена (150$, 199$, 400$ и т.д.)
  • Рост (14 дюймов, 2 фута, 94,32 см и т. д.)
  • Возраст (2 месяца, 6 лет, 41,5 года и т. д.)
  • Расстояние (1,23 мили, 4,5 км и т. д.)

И наоборот, логистическая регрессия предсказывает вероятности как результат. Например:

  • 40,3% шанс поступить в университет.
  • 93,2% шанс выиграть игру.
  • Вероятность принятия закона 34,2%.

Когда использовать логистическую или линейную регрессию

Следующие практические задачи помогут вам лучше понять, когда следует использовать логистическую регрессию или линейную регрессию.

Проблема №1: годовой доход

Предположим, экономист хочет использовать переменные-предикторы (1) количество отработанных часов в неделю и (2) количество лет обучения, чтобы предсказать годовой доход отдельных лиц.

В этом сценарии он будет использовать линейную регрессию , поскольку переменная отклика (годовой доход) непрерывна.

Проблема №2: Поступление в университет

Предположим, сотрудник приемной комиссии колледжа хочет использовать переменные-предикторы (1) средний балл и (2) балл ACT, чтобы предсказать вероятность того, что студент будет принят в определенный университет.

В этом сценарии она будет использовать логистическую регрессию , потому что переменная ответа является категориальной и может принимать только два значения — принятое или непринятое.

Проблема № 3: Цена дома

Предположим, агент по недвижимости хочет использовать переменные-предикторы (1) площадь в квадратных футах, (2) количество спален и (3) количество ванных комнат, чтобы предсказать цены продажи дома.

В этом сценарии она будет использовать линейную регрессию , поскольку переменная отклика (цена) непрерывна.

Проблема № 4: Обнаружение спама

Предположим, программист хочет использовать переменные-предикторы (1) количество слов и (2) страну происхождения, чтобы предсказать вероятность того, что данное электронное письмо является спамом.

В этом сценарии он будет использовать логистическую регрессию , потому что переменная ответа является категориальной и может принимать только два значения — спам или не спам.

Дополнительные ресурсы

Следующие руководства предлагают более подробную информацию о линейной регрессии:

Следующие руководства предлагают более подробную информацию о логистической регрессии: