Как выполнить логистическую регрессию в SAS

Как выполнить логистическую регрессию в SAS

Логистическая регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда переменная ответа является двоичной.

Логистическая регрессия использует метод, известный как оценка максимального правдоподобия, чтобы найти уравнение следующего вида:

log[p(X) / (1-p(X))] = β 0 + β 1 X 1 + β 2 X 2 + … + β p X p

куда:

  • X j : j -я предикторная переменная
  • β j : Оценка коэффициента для j -й переменной-предиктора

Формула в правой части уравнения предсказывает логарифмические шансы переменной ответа, принимающей значение 1.

В следующем пошаговом примере показано, как подобрать модель логистической регрессии в SAS.

Шаг 1: Создайте набор данных

Сначала мы создадим набор данных, содержащий информацию о следующих трех переменных для 18 учащихся:

  • Прием в определенный колледж (1 = да, 0 = нет)
  • Средний балл (шкала от 1 до 4)
  • Оценка ACT (шкала от 1 до 36)
/\*create dataset\*/
data my_data;
 input acceptance gpa act;
 datalines ;
1 3 30
0 1 21
0 2 26
0 1 24
1 3 29
1 3 34
0 3 31
1 2 29
0 1 21
1 2 21
0 1 15
1 3 32
1 4 31
1 4 29
0 1 24
1 4 29
1 3 21
1 4 34
;
run ;

/\*view dataset\*/
proc print data =my_data;

Шаг 2: Подберите модель логистической регрессии

Далее мы будем использовать proc logistic для подбора модели логистической регрессии, используя «acceptance» в качестве переменной отклика и «gpa» и «act» в качестве переменных-предикторов.

Примечание.Мы должны указать убывание , чтобы SAS знал, как предсказать вероятность того, что переменная ответа примет значение 1. По умолчанию SAS прогнозирует вероятность того, что переменная ответа примет значение 0.

/\*fit logistic regression model\*/
proc logistic data =my_data descending ;
 model acceptance = gpa act;
run ;

Первая представляющая интерес таблица называется Model Fit Statistics .

Из этой таблицы мы можем увидеть значение AIC модели, которое оказывается равным 16,595.Чем ниже значение AIC, тем лучше модель соответствует данным.

Однако не существует порога того, что считается «хорошим» значением AIC.Скорее, мы используем AIC для сравнения соответствия нескольких моделей одному и тому же набору данных. Модель с наименьшим значением AIC обычно считается лучшей.

Следующая представляющая интерес таблица называется « Проверка глобальной нулевой гипотезы: БЕТА=0» .

Из этой таблицы мы можем видеть значение отношения хи-квадрат отношения правдоподобия 13,4620 с соответствующим p-значением 0,0012 .

Поскольку это p-значение меньше 0,05, это говорит нам о том, что модель логистической регрессии в целом статистически значима.

Далее мы можем проанализировать оценки коэффициентов в таблице под названием «Анализ оценок максимального правдоподобия ».

Из этой таблицы мы можем увидеть коэффициенты для gpa и act, которые показывают среднее изменение логарифмических шансов на поступление в университет при увеличении каждой переменной на одну единицу.

Например:

  • Увеличение среднего балла на одну единицу связано со средним увеличением логарифмических шансов на поступление в университет на 2,9665 .
  • Увеличение балла ACT на одну единицу связано со средним снижением логарифмических шансов на поступление в университет на 0,1145 .

Соответствующие p-значения в выходных данных также дают нам представление о том, насколько эффективна каждая предикторная переменная при прогнозировании вероятности ее принятия:

  • P-значение среднего балла: 0,0679
  • P-значение ACT: 0,6289

Это говорит нам о том, что средний балл, по-видимому, является статистически значимым предиктором поступления в университет, в то время как оценка ACT, по-видимому, не является статистически значимой.

Дополнительные ресурсы

В следующих руководствах объясняется, как подобрать другие модели регрессии в SAS:

Как выполнить простую линейную регрессию в SAS
Как выполнить множественную линейную регрессию в SAS

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.