6 допущений логистической регрессии (с примерами)

Логистическая регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда переменная ответа является двоичной.

Прежде чем подгонять модель к набору данных, логистическая регрессия делает следующие предположения:

Предположение № 1: переменная ответа является двоичной

Логистическая регрессия предполагает, что переменная отклика принимает только два возможных результата. Вот некоторые примеры:

Да или нет
Мужчина или женщина
Пройти или не пройти
Проект или не проект
Злокачественные или доброкачественные

Как проверить это предположение: просто подсчитайте, сколько уникальных результатов встречается в переменной ответа. Если существует более двух возможных результатов, вместо этого вам нужно будет выполнить порядковую регрессию .

Допущение № 2: наблюдения независимы

Логистическая регрессия предполагает, что наблюдения в наборе данных независимы друг от друга. То есть наблюдения не должны исходить из повторных измерений одного и того же человека или каким-либо образом быть связаны друг с другом.

Как проверить это предположение. Самый простой способ проверить это предположение — построить график зависимости остатков от времени (т. е. порядка наблюдений) и посмотреть, есть ли случайная закономерность. Если нет случайной закономерности, то это предположение может быть нарушено.

Предположение № 3. Мультиколлинеарность независимых переменных отсутствует.

Логистическая регрессия предполагает, что между независимыми переменными нет сильной мультиколлинеарности .

Мультиколлинеарность возникает, когда две или более независимых переменных сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации модели.

Например, предположим, что вы хотите выполнить логистическую регрессию, используя максимальный вертикальный прыжок в качестве переменной отклика и следующие переменные в качестве независимых переменных:

Рост игрока
Размер обуви игрока
Количество часов занятий в день

В этом случае рост и размер обуви , вероятно, будут тесно связаны, поскольку у более высоких людей, как правило, размер обуви больше. Это означает, что мультиколлинеарность, вероятно, будет проблемой, если мы будем использовать обе эти переменные в регрессии.

Как проверить это предположение. Самый распространенный способ обнаружения мультиколлинеарности — использование коэффициента инфляции дисперсии (VIF), который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели. Ознакомьтесь с этим учебным пособием для подробного объяснения того, как рассчитать и интерпретировать значения VIF.

Предположение № 4: экстремальных выбросов не бывает

Логистическая регрессия предполагает, что в наборе данных нет экстремальных выбросов или важных наблюдений.

Как проверить это предположение. Самый распространенный способ проверить наличие экстремальных выбросов и влиятельных наблюдений в наборе данных — вычислить расстояние Кука для каждого наблюдения. Если действительно есть выбросы, вы можете (1) удалить их, (2) заменить их значением, таким как среднее или медиана, или (3) просто оставить их в модели, но сделать пометку об этом при отчете о регрессии. полученные результаты.

Предположение № 5: существует линейная связь между независимыми переменными и логитом переменной отклика.

Логистическая регрессия предполагает, что существует линейная связь между каждой независимой переменной и логитом переменной отклика. Напомним, что логит определяется как:

Logit(p) = log(p / (1-p)), где p — вероятность положительного исхода.

Как проверить это предположение: Самый простой способ проверить, выполняется ли это предположение, — использовать тест Бокса-Тидвелла.

Допущение № 6: размер выборки достаточно велик

Логистическая регрессия предполагает, что размер выборки набора данных достаточно велик, чтобы сделать достоверные выводы из подобранной модели логистической регрессии.

Как проверить это предположение: Как правило, у вас должно быть не менее 10 случаев с наименее частым исходом для каждой независимой переменной. Например, если у вас есть 3 объясняющие переменные и ожидаемая вероятность наименее частого исхода равна 0,20, тогда у вас должен быть размер выборки не менее (10 * 3) / 0,20 = 150 .

Предположения логистической регрессии против линейной регрессии

В отличие от линейной регрессии, логистическая регрессия не требует:

Линейная зависимость между объясняющей переменной (переменными) и переменной отклика.
Остатки модели должны быть нормально распределены.
Остатки должны иметь постоянную дисперсию, также известную как гомоскедастичность .

Связанный: Четыре предположения линейной регрессии

Дополнительные ресурсы

4 примера использования логистической регрессии в реальной жизни
Как выполнить логистическую регрессию в SPSS
Как выполнить логистическую регрессию в Excel
Как выполнить логистическую регрессию в Stata