Логистическая регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда переменная ответа является двоичной.
Прежде чем подгонять модель к набору данных, логистическая регрессия делает следующие предположения:
Предположение № 1: переменная ответа является двоичной
Логистическая регрессия предполагает, что переменная отклика принимает только два возможных результата. Вот некоторые примеры:
- Да или нет
- Мужчина или женщина
- Пройти или не пройти
- Проект или не проект
- Злокачественные или доброкачественные
Как проверить это предположение: просто подсчитайте, сколько уникальных результатов встречается в переменной ответа. Если существует более двух возможных результатов, вместо этого вам нужно будет выполнить порядковую регрессию .
Допущение № 2: наблюдения независимы
Логистическая регрессия предполагает, что наблюдения в наборе данных независимы друг от друга. То есть наблюдения не должны исходить из повторных измерений одного и того же человека или каким-либо образом быть связаны друг с другом.
Как проверить это предположение. Самый простой способ проверить это предположение — построить график зависимости остатков от времени (т. е. порядка наблюдений) и посмотреть, есть ли случайная закономерность. Если нет случайной закономерности, то это предположение может быть нарушено.
Предположение № 3. Мультиколлинеарность независимых переменных отсутствует.
Логистическая регрессия предполагает, что между независимыми переменными нет сильной мультиколлинеарности .
Мультиколлинеарность возникает, когда две или более независимых переменных сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации модели.
Например, предположим, что вы хотите выполнить логистическую регрессию, используя максимальный вертикальный прыжок в качестве переменной отклика и следующие переменные в качестве независимых переменных:
- Рост игрока
- Размер обуви игрока
- Количество часов занятий в день
В этом случае рост и размер обуви , вероятно, будут тесно связаны, поскольку у более высоких людей, как правило, размер обуви больше. Это означает, что мультиколлинеарность, вероятно, будет проблемой, если мы будем использовать обе эти переменные в регрессии.
Как проверить это предположение. Самый распространенный способ обнаружения мультиколлинеарности — использование коэффициента инфляции дисперсии (VIF), который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели. Ознакомьтесь с этим учебным пособием для подробного объяснения того, как рассчитать и интерпретировать значения VIF.
Предположение № 4: экстремальных выбросов не бывает
Логистическая регрессия предполагает, что в наборе данных нет экстремальных выбросов или важных наблюдений.
Как проверить это предположение. Самый распространенный способ проверить наличие экстремальных выбросов и влиятельных наблюдений в наборе данных — вычислить расстояние Кука для каждого наблюдения. Если действительно есть выбросы, вы можете (1) удалить их, (2) заменить их значением, таким как среднее или медиана, или (3) просто оставить их в модели, но сделать пометку об этом при отчете о регрессии. полученные результаты.
Предположение № 5: существует линейная связь между независимыми переменными и логитом переменной отклика.
Логистическая регрессия предполагает, что существует линейная связь между каждой независимой переменной и логитом переменной отклика. Напомним, что логит определяется как:
Logit(p) = log(p / (1-p)), где p — вероятность положительного исхода.
Как проверить это предположение: Самый простой способ проверить, выполняется ли это предположение, — использовать тест Бокса-Тидвелла.
Допущение № 6: размер выборки достаточно велик
Логистическая регрессия предполагает, что размер выборки набора данных достаточно велик, чтобы сделать достоверные выводы из подобранной модели логистической регрессии.
Как проверить это предположение: Как правило, у вас должно быть не менее 10 случаев с наименее частым исходом для каждой независимой переменной. Например, если у вас есть 3 объясняющие переменные и ожидаемая вероятность наименее частого исхода равна 0,20, тогда у вас должен быть размер выборки не менее (10 * 3) / 0,20 = 150 .
Предположения логистической регрессии против линейной регрессии
В отличие от линейной регрессии, логистическая регрессия не требует:
- Линейная зависимость между объясняющей переменной (переменными) и переменной отклика.
- Остатки модели должны быть нормально распределены.
- Остатки должны иметь постоянную дисперсию, также известную как гомоскедастичность .
Связанный: Четыре предположения линейной регрессии
Дополнительные ресурсы
4 примера использования логистической регрессии в реальной жизни
Как выполнить логистическую регрессию в SPSS
Как выполнить логистическую регрессию в Excel
Как выполнить логистическую регрессию в Stata