Как выполнить логистическую регрессию в Stata


Логистическая регрессия — это метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной. Вот несколько примеров, когда мы можем использовать логистическую регрессию:

  • Мы хотим знать, как физические упражнения, диета и вес влияют на вероятность сердечного приступа. Переменной отклика является сердечный приступ , и у него есть два возможных исхода: сердечный приступ происходит или не происходит.
  • Мы хотим знать, как GPA, оценка ACT и количество пройденных классов AP влияют на вероятность поступления в конкретный университет. Переменная отклика — это принятие , и у него есть два возможных результата: принято или не принято.
  • Мы хотим знать, влияют ли количество слов и заголовок электронной почты на вероятность того, что электронная почта является спамом. Переменная ответа — это спам , и у нее есть два возможных результата: спам или не спам.

В этом руководстве объясняется, как выполнить логистическую регрессию в Stata.

Пример: логистическая регрессия в Stata

Предположим, нам интересно понять, влияют ли возраст матери и ее пристрастие к курению на вероятность рождения ребенка с низким весом при рождении.

Чтобы изучить это, мы можем выполнить логистическую регрессию, используя возраст и курение (да или нет) в качестве объясняющих переменных и низкий вес при рождении (да или нет) в качестве переменной ответа. Поскольку переменная отклика является бинарной (есть только два возможных результата), уместно использовать логистическую регрессию.

Выполните следующие шаги в Stata, чтобы провести логистическую регрессию с использованием набора данных lbw , который содержит данные о 189 различных матерях.

Шаг 1: Загрузите данные.

Загрузите данные, введя следующее в поле Command:

используйте http://www.stata-press.com/data/r13/lbw

Шаг 2: Получите сводку данных.

Чтобы быстро понять данные, с которыми вы работаете, введите следующее в поле «Команда»:

подвести итог

Мы видим, что в наборе данных есть 11 различных переменных, но нас интересуют только три:

  • низкий – был ли у ребенка низкий вес при рождении. 1 = да, 0 = нет.
  • возраст – возраст матери.
  • курить – курила ли мать во время беременности. 1 = да, 0 = нет.

Шаг 3: Выполните логистическую регрессию.

Введите следующее в поле «Команда», чтобы выполнить логистическую регрессию, используя возраст и дым в качестве независимых переменных и низкий уровень в качестве переменной ответа.

логит низкий возраст курить

Вот как интерпретировать наиболее интересные числа в выводе:

Коэф (возраст): -0,0497792. При неизменном уровне дыма каждый год увеличения возраста связан с exp(-0,0497792) = 0,951 увеличением шансов рождения ребенка с низким весом. Поскольку это число меньше 1, это означает, что увеличение возраста на самом деле связано с уменьшением шансов рождения ребенка с низким весом при рождении.

Например, предположим, что мать А и мать Б курят. Если мать А на один год старше матери Б, то вероятность того, что у матери А родится ребенок с низкой массой тела при рождении, составляет всего 95,1% от вероятности того, что у матери Б будет ребенок с низкой массой тела при рождении.

Р>|г| (возраст): 0,119. Это p-значение, связанное со статистикой теста для возраста.Поскольку это значение не менее 0,05, возраст не является статистически значимым предиктором низкой массы тела при рождении.

Отношение шансов (дым): 0,6918486. При неизменном возрасте у матери, которая курит во время беременности, вероятность рождения ребенка с низким весом при рождении на exp(0,6918486) = 1,997 выше, чем у матери, которая не курит во время беременности.

Например, предположим, что матери А и матери Б по 30 лет. Если мать А курит во время беременности, а мать Б нет, то вероятность того, что у матери А родится ребенок с низкой массой тела при рождении, на 99,7% выше, чем вероятность того, что у матери Б будет ребенок с низкой массой тела при рождении.

Р>|г| (дым): 0,032. Это p-значение, связанное со статистикой теста для дыма.Поскольку это значение меньше 0,05, курение является статистически значимым предиктором низкой массы тела при рождении.

Шаг 4: Сообщите о результатах.

Наконец, мы хотим сообщить о результатах нашей логистической регрессии. Вот пример того, как это сделать:

Была проведена логистическая регрессия, чтобы определить, влияют ли возраст матери и ее привычки к курению на вероятность рождения ребенка с низкой массой тела при рождении. Для анализа использовалась выборка из 189 матерей.
Результаты показали, что существует статистически значимая связь между курением и вероятностью низкой массы тела при рождении (z = 2,15, p = 0,032), в то время как статистически значимой связи между возрастом и вероятностью низкой массы тела при рождении не было (z = -1,56, p = 0,032). 119).