Как интерпретировать Pr(>|z|) в выводе логистической регрессии в R


Всякий раз, когда вы выполняете логистическую регрессию в R, выходные данные вашей регрессионной модели будут отображаться в следующем формате:

Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -17.638452 9.165482 -1.924 0.0543 .
disp -0.004153 0.006621 -0.627 0.5305 
drat 4.879396 2.268115 2.151 0.0315 \*

Столбец Pr(>|z|) представляет значение p, связанное со значением в столбце значений z .

Если p-значение меньше определенного уровня значимости (например, α = 0,05), то это указывает на то, что переменная-предиктор имеет статистически значимую связь с переменной отклика в модели.

В следующем примере показано, как интерпретировать значения в столбце Pr(>|z|) для модели логистической регрессии на практике.

Пример. Как интерпретировать значения Pr(>|z|)

В следующем коде показано, как подобрать модель логистической регрессии в R с использованием встроенного набора данных mtcars :

#fit logistic regression model
model <- glm(am ~ disp + drat, data=mtcars, family=binomial)

#view model summary
summary(model)

Call:
glm(formula = am ~ disp + drat, family = binomial, data = mtcars)

Deviance Residuals: 
 Min 1Q Median 3Q Max 
-1.5773 -0.2273 -0.1155 0.5196 1.8957 

Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -17.638452 9.165482 -1.924 0.0543 .
disp -0.004153 0.006621 -0.627 0.5305 
drat 4.879396 2.268115 2.151 0.0315 \*
---
Signif. codes: 0 '\*\*\*' 0.001 '\*\*' 0.01 '\*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

 Null deviance: 43.230 on 31 degrees of freedom
Residual deviance: 21.268 on 29 degrees of freedom
AIC: 27.268

Number of Fisher Scoring iterations: 6

Вот как интерпретировать значения в столбце Pr(>|z|):

  • Значение p для предикторной переменной «disp» равно 0,5305.Поскольку это значение не меньше 0,05, оно не имеет статистически значимой связи с переменной отклика в модели.
  • Значение p для предикторной переменной «drat» равно 0,0315.Поскольку это значение меньше 0,05, оно имеет статистически значимую связь с переменной отклика в модели.

Коды значимости под таблицей коэффициентов говорят нам, что одна звездочка (*) рядом с p-значением 0,0315 означает, что p-значение является статистически значимым при α = 0,05.

Как рассчитывается Pr(>|z|)?

Вот как вычисляется значение Pr(>|z|):

Шаг 1: Рассчитайте значение z

Сначала мы вычисляем значение z по следующей формуле:

  • значение z = оценка / станд. Ошибка

Например, вот как вычислить значение z для предикторной переменной «drat»:

#calculate z-value
4.879396 / 2.268115

[1] 2.151

Шаг 2: Рассчитайте p-значение

Затем мы вычисляем двустороннее p-значение. Это представляет вероятность того, что абсолютное значение нормального распределения больше 2,151 или меньше -2,151.

Мы можем использовать следующую формулу в R для вычисления этого значения:

  • p-значение = 2 * (1-pnorm (значение z))

Например, вот как вычислить двустороннее p-значение для z-значения 2,151:

#calculate p-value
2\*(1-pnorm(2.151))

[1] 0.0314762

Обратите внимание, что это p-значение соответствует p-значению в выходных данных регрессии сверху.

Дополнительные ресурсы

В следующих руководствах объясняется, как подобрать различные модели регрессии в R:

Как выполнить логистическую регрессию в R
Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.