Полное руководство: как сообщать о результатах логистической регрессии


Логистическая регрессия — это тип регрессионного анализа, который мы используем, когда переменная отклика является бинарной.

Мы можем использовать следующий общий формат для отчета о результатах модели логистической регрессии:

Логистическую регрессию использовали для анализа взаимосвязи между [переменной-предиктором 1], [переменной-предиктором 2],… [переменной-предиктором n ] и [переменной-откликом].
Было обнаружено, что при неизменности всех других предикторов вероятность того, что [переменная ответа] произойдет [увеличилась или уменьшилась] на [несколько процентов] (95% ДИ [нижний предел, верхний предел]) для увеличения на одну единицу [ предикторная переменная 1].
Было обнаружено, что при неизменности всех других предикторов вероятность того, что [переменная ответа] произойдет [увеличилась или уменьшилась] на [несколько процентов] (95% ДИ [нижний предел, верхний предел]) для увеличения на одну единицу [ предикторная переменная 2].

Мы можем использовать этот базовый синтаксис для сообщения отношений шансов и соответствующего 95% доверительного интервала для отношений шансов каждой предикторной переменной в модели.

В следующем примере показано, как на практике сообщить о результатах модели логистической регрессии.

Пример: отчет о результатах логистической регрессии

Предположим, профессор хочет понять, влияют ли две разные программы обучения (программа А и программа Б) и количество часов обучения на вероятность того, что студент сдаст выпускной экзамен в своем классе.

Он подходит к модели логистической регрессии, используя часы обучения и программу обучения в качестве переменных-предикторов и результат экзамена (сдал или не сдал) в качестве переменной ответа.

Следующие выходные данные показывают результаты модели логистической регрессии:

Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -2.415 0.623 -3.876 <0.000
program_A 0.344 0.156 2.205 0.027
hours 0.006 0.002 3.000 0.003

Прежде чем сообщать о результатах модели логистической регрессии, мы должны сначала рассчитать отношение шансов для каждой переменной-предиктора, используя формулу e β .

Например, вот как рассчитать отношение шансов для каждой переменной-предиктора:

  • Отношение шансов Программы: e 0,344 = 1,41
  • Отношение шансов часов: e 0,006 = 1,006

Мы также должны рассчитать 95% доверительный интервал для отношения шансов каждой переменной-предиктора, используя формулу e (β +/- 1,96 * стандартная ошибка) .

Например, вот как рассчитать отношение шансов для каждой переменной-предиктора:

  • 95% ДИ для отношения шансов программы: e 0,344 +/- 1,96 * 0,156 = [1,04, 1,92]
  • 95% ДИ для отношения шансов часов: e 0,006 +/- 1,96 * 0,002 = [1,002, 1,009]

Теперь, когда мы рассчитали отношение шансов и соответствующий доверительный интервал для каждой переменной-предиктора, мы можем представить результаты модели следующим образом:

Логистическая регрессия использовалась для анализа взаимосвязи между программой обучения и часами обучения с вероятностью сдачи выпускного экзамена.
Было обнаружено, что при неизменном количестве часов обучения шансы сдать выпускной экзамен увеличились на 41% (95% ДИ [0,04, 0,92]) для студентов, которые использовали программу обучения A по сравнению с программой обучения B.
Также было обнаружено, что при неизменности программы обучения шансы сдать выпускной экзамен увеличивались на 0,6% (95% ДИ [0,002, 0,009]) за каждый дополнительный час обучения.

Обратите внимание, что мы сообщали об отношениях шансов для переменных-предикторов, а не о бета-значениях из модели, потому что отношения шансов легче интерпретировать и понимать.

Дополнительные ресурсы

Следующие руководства предлагают дополнительную информацию о логистической регрессии:

Введение в логистическую регрессию
Как выполнить логистическую регрессию в R
Как выполнить логистическую регрессию в Python
4 примера использования логистической регрессии в реальной жизни