6 допущений логистической регрессии (с примерами)


Логистическая регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда переменная ответа является двоичной.

Прежде чем подгонять модель к набору данных, логистическая регрессия делает следующие предположения:

Предположение № 1: переменная ответа является двоичной

Логистическая регрессия предполагает, что переменная отклика принимает только два возможных результата. Вот некоторые примеры:

  • Да или нет
  • Мужчина или женщина
  • Пройти или не пройти
  • Проект или не проект
  • Злокачественные или доброкачественные

Как проверить это предположение: просто подсчитайте, сколько уникальных результатов встречается в переменной ответа. Если существует более двух возможных результатов, вместо этого вам нужно будет выполнить порядковую регрессию .

Допущение № 2: наблюдения независимы

Логистическая регрессия предполагает, что наблюдения в наборе данных независимы друг от друга. То есть наблюдения не должны исходить из повторных измерений одного и того же человека или каким-либо образом быть связаны друг с другом.

Как проверить это предположение. Самый простой способ проверить это предположение — построить график зависимости остатков от времени (т. е. порядка наблюдений) и посмотреть, есть ли случайная закономерность. Если нет случайной закономерности, то это предположение может быть нарушено.

Предположение № 3. Мультиколлинеарность независимых переменных отсутствует.

Логистическая регрессия предполагает, что между независимыми переменными нет сильной мультиколлинеарности .

Мультиколлинеарность возникает, когда две или более независимых переменных сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации модели.

Например, предположим, что вы хотите выполнить логистическую регрессию, используя максимальный вертикальный прыжок в качестве переменной отклика и следующие переменные в качестве независимых переменных:

  • Рост игрока
  • Размер обуви игрока
  • Количество часов занятий в день

В этом случае рост и размер обуви , вероятно, будут тесно связаны, поскольку у более высоких людей, как правило, размер обуви больше. Это означает, что мультиколлинеарность, вероятно, будет проблемой, если мы будем использовать обе эти переменные в регрессии.

Как проверить это предположение. Самый распространенный способ обнаружения мультиколлинеарности — использование коэффициента инфляции дисперсии (VIF), который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели. Ознакомьтесь с этим учебным пособием для подробного объяснения того, как рассчитать и интерпретировать значения VIF.

Предположение № 4: экстремальных выбросов не бывает

Логистическая регрессия предполагает, что в наборе данных нет экстремальных выбросов или важных наблюдений.

Как проверить это предположение. Самый распространенный способ проверить наличие экстремальных выбросов и влиятельных наблюдений в наборе данных — вычислить расстояние Кука для каждого наблюдения. Если действительно есть выбросы, вы можете (1) удалить их, (2) заменить их значением, таким как среднее или медиана, или (3) просто оставить их в модели, но сделать пометку об этом при отчете о регрессии. полученные результаты.

Предположение № 5: существует линейная связь между независимыми переменными и логитом переменной отклика.

Логистическая регрессия предполагает, что существует линейная связь между каждой независимой переменной и логитом переменной отклика. Напомним, что логит определяется как:

Logit(p) = log(p / (1-p)), где p — вероятность положительного исхода.

Как проверить это предположение: Самый простой способ проверить, выполняется ли это предположение, — использовать тест Бокса-Тидвелла.

Допущение № 6: размер выборки достаточно велик

Логистическая регрессия предполагает, что размер выборки набора данных достаточно велик, чтобы сделать достоверные выводы из подобранной модели логистической регрессии.

Как проверить это предположение: Как правило, у вас должно быть не менее 10 случаев с наименее частым исходом для каждой независимой переменной. Например, если у вас есть 3 объясняющие переменные и ожидаемая вероятность наименее частого исхода равна 0,20, тогда у вас должен быть размер выборки не менее (10 * 3) / 0,20 = 150 .

Предположения логистической регрессии против линейной регрессии

В отличие от линейной регрессии, логистическая регрессия не требует:

  • Линейная зависимость между объясняющей переменной (переменными) и переменной отклика.
  • Остатки модели должны быть нормально распределены.
  • Остатки должны иметь постоянную дисперсию, также известную как гомоскедастичность .

Связанный: Четыре предположения линейной регрессии

Дополнительные ресурсы

4 примера использования логистической регрессии в реальной жизни
Как выполнить логистическую регрессию в SPSS
Как выполнить логистическую регрессию в Excel
Как выполнить логистическую регрессию в Stata

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.