Как интерпретировать Pr(>|z|) в выводе логистической регрессии в R

Всякий раз, когда вы выполняете логистическую регрессию в R, выходные данные вашей регрессионной модели будут отображаться в следующем формате:

Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -17.638452 9.165482 -1.924 0.0543 .
disp -0.004153 0.006621 -0.627 0.5305 
drat 4.879396 2.268115 2.151 0.0315 \*

Столбец Pr(>|z|) представляет значение p, связанное со значением в столбце значений z .

Если p-значение меньше определенного уровня значимости (например, α = 0,05), то это указывает на то, что переменная-предиктор имеет статистически значимую связь с переменной отклика в модели.

В следующем примере показано, как интерпретировать значения в столбце Pr(>|z|) для модели логистической регрессии на практике.

Пример. Как интерпретировать значения Pr(>|z|)

В следующем коде показано, как подобрать модель логистической регрессии в R с использованием встроенного набора данных mtcars :

#fit logistic regression model
model <- glm(am ~ disp + drat, data=mtcars, family=binomial)

#view model summary
summary(model)

Call:
glm(formula = am ~ disp + drat, family = binomial, data = mtcars)

Deviance Residuals: 
 Min 1Q Median 3Q Max 
-1.5773 -0.2273 -0.1155 0.5196 1.8957 

Coefficients:
 Estimate Std. Error z value Pr(>|z|) 
(Intercept) -17.638452 9.165482 -1.924 0.0543 .
disp -0.004153 0.006621 -0.627 0.5305 
drat 4.879396 2.268115 2.151 0.0315 \*
---
Signif. codes: 0 '\*\*\*' 0.001 '\*\*' 0.01 '\*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

 Null deviance: 43.230 on 31 degrees of freedom
Residual deviance: 21.268 on 29 degrees of freedom
AIC: 27.268

Number of Fisher Scoring iterations: 6

Вот как интерпретировать значения в столбце Pr(>|z|):

Значение p для предикторной переменной «disp» равно 0,5305.Поскольку это значение не меньше 0,05, оно не имеет статистически значимой связи с переменной отклика в модели.
Значение p для предикторной переменной «drat» равно 0,0315.Поскольку это значение меньше 0,05, оно имеет статистически значимую связь с переменной отклика в модели.

Коды значимости под таблицей коэффициентов говорят нам, что одна звездочка (*) рядом с p-значением 0,0315 означает, что p-значение является статистически значимым при α = 0,05.

Как рассчитывается Pr(>|z|)?

Вот как вычисляется значение Pr(>|z|):

Шаг 1: Рассчитайте значение z

Сначала мы вычисляем значение z по следующей формуле:

значение z = оценка / станд. Ошибка

Например, вот как вычислить значение z для предикторной переменной «drat»:

#calculate z-value
4.879396 / 2.268115

[1] 2.151

Шаг 2: Рассчитайте p-значение

Затем мы вычисляем двустороннее p-значение. Это представляет вероятность того, что абсолютное значение нормального распределения больше 2,151 или меньше -2,151.

Мы можем использовать следующую формулу в R для вычисления этого значения:

p-значение = 2 * (1-pnorm (значение z))

Например, вот как вычислить двустороннее p-значение для z-значения 2,151:

#calculate p-value
2\*(1-pnorm(2.151))

[1] 0.0314762

Обратите внимание, что это p-значение соответствует p-значению в выходных данных регрессии сверху.

Дополнительные ресурсы

В следующих руководствах объясняется, как подобрать различные модели регрессии в R:

Как выполнить логистическую регрессию в R
Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R

Как интерпретировать Pr(&gt;|z|) в выводе логистической регрессии в R

Пример. Как интерпретировать значения Pr(>|z|)

Как рассчитывается Pr(>|z|)?

Дополнительные ресурсы

Редакция Кодкампа

Как интерпретировать Pr(>|z|) в выводе логистической регрессии в R