Как выполнить логистическую регрессию в Stata

Как выполнить логистическую регрессию в Stata

Логистическая регрессия — это метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной. Вот несколько примеров, когда мы можем использовать логистическую регрессию:

  • Мы хотим знать, как физические упражнения, диета и вес влияют на вероятность сердечного приступа. Переменной отклика является сердечный приступ , и у него есть два возможных исхода: сердечный приступ происходит или не происходит.
  • Мы хотим знать, как GPA, оценка ACT и количество пройденных классов AP влияют на вероятность поступления в конкретный университет. Переменная отклика — это принятие , и у него есть два возможных результата: принято или не принято.
  • Мы хотим знать, влияют ли количество слов и заголовок электронной почты на вероятность того, что электронная почта является спамом. Переменная ответа — это спам , и у нее есть два возможных результата: спам или не спам.

В этом руководстве объясняется, как выполнить логистическую регрессию в Stata.

Пример: логистическая регрессия в Stata

Предположим, нам интересно понять, влияют ли возраст матери и ее пристрастие к курению на вероятность рождения ребенка с низким весом при рождении.

Чтобы изучить это, мы можем выполнить логистическую регрессию, используя возраст и курение (да или нет) в качестве объясняющих переменных и низкий вес при рождении (да или нет) в качестве переменной ответа. Поскольку переменная отклика является бинарной (есть только два возможных результата), уместно использовать логистическую регрессию.

Выполните следующие шаги в Stata, чтобы провести логистическую регрессию с использованием набора данных lbw , который содержит данные о 189 различных матерях.

Шаг 1: Загрузите данные.

Загрузите данные, введя следующее в поле Command:

используйте http://www.stata-press.com/data/r13/lbw

Шаг 2: Получите сводку данных.

Чтобы быстро понять данные, с которыми вы работаете, введите следующее в поле «Команда»:

подвести итог
Набор данных о низком весе при рождении в Stata

Мы видим, что в наборе данных есть 11 различных переменных, но нас интересуют только три:

  • низкий – был ли у ребенка низкий вес при рождении. 1 = да, 0 = нет.
  • возраст – возраст матери.
  • курить – курила ли мать во время беременности. 1 = да, 0 = нет.

Шаг 3: Выполните логистическую регрессию.

Введите следующее в поле «Команда», чтобы выполнить логистическую регрессию, используя возраст и дым в качестве независимых переменных и низкий уровень в качестве переменной ответа.

логит низкий возраст курить
Вывод логистической регрессии в Stata

Вот как интерпретировать наиболее интересные числа в выводе:

Коэф (возраст): -0,0497792. При неизменном уровне дыма каждый год увеличения возраста связан с exp(-0,0497792) = 0,951 увеличением шансов рождения ребенка с низким весом. Поскольку это число меньше 1, это означает, что увеличение возраста на самом деле связано с уменьшением шансов рождения ребенка с низким весом при рождении.

Например, предположим, что мать А и мать Б курят. Если мать А на один год старше матери Б, то вероятность того, что у матери А родится ребенок с низкой массой тела при рождении, составляет всего 95,1% от вероятности того, что у матери Б будет ребенок с низкой массой тела при рождении.

Р>|г| (возраст): 0,119. Это p-значение, связанное со статистикой теста для возраста.Поскольку это значение не менее 0,05, возраст не является статистически значимым предиктором низкой массы тела при рождении.

Отношение шансов (дым): 0,6918486. При неизменном возрасте у матери, которая курит во время беременности, вероятность рождения ребенка с низким весом при рождении на exp(0,6918486) = 1,997 выше, чем у матери, которая не курит во время беременности.

Например, предположим, что матери А и матери Б по 30 лет. Если мать А курит во время беременности, а мать Б нет, то вероятность того, что у матери А родится ребенок с низкой массой тела при рождении, на 99,7% выше, чем вероятность того, что у матери Б будет ребенок с низкой массой тела при рождении.

Р>|г| (дым): 0,032. Это p-значение, связанное со статистикой теста для дыма.Поскольку это значение меньше 0,05, курение является статистически значимым предиктором низкой массы тела при рождении.

Шаг 4: Сообщите о результатах.

Наконец, мы хотим сообщить о результатах нашей логистической регрессии. Вот пример того, как это сделать:

Была проведена логистическая регрессия, чтобы определить, влияют ли возраст матери и ее привычки к курению на вероятность рождения ребенка с низкой массой тела при рождении. Для анализа использовалась выборка из 189 матерей.
Результаты показали, что существует статистически значимая связь между курением и вероятностью низкой массы тела при рождении (z = 2,15, p = 0,032), в то время как статистически значимой связи между возрастом и вероятностью низкой массы тела при рождении не было (z = -1,56, p = 0,032). 119).
Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.