Как интерпретировать вывод регрессии в R


Чтобы подобрать модель линейной регрессии в R, мы можем использовать команду lm() .

Чтобы просмотреть вывод модели регрессии, мы можем использовать команду summary() .

В этом руководстве объясняется, как интерпретировать каждое значение в выходных данных регрессии в R.

Пример: интерпретация результатов регрессии в R

В следующем коде показано, как подобрать модель множественной линейной регрессии со встроенным набором данных mtcars , используя hp , drat и wt в качестве переменных-предикторов и mpg в качестве переменной ответа:

#fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
 Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) 29.394934 6.156303 4.775 5.13e-05 \*\*\*
hp -0.032230 0.008925 -3.611 0.001178 \*\* 
drat 1.615049 1.226983 1.316 0.198755 
wt -3.227954 0.796398 -4.053 0.000364 \*\*\*
---
Signif. codes: 0 ‘\*\*\*’ 0.001 ‘\*\*’ 0.01 ‘\*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Вот как интерпретировать каждое значение в выводе:

Вызов

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Этот раздел напоминает нам о формуле, которую мы использовали в нашей регрессионной модели. Мы можем видеть, что мы использовали mpg в качестве переменной ответа и hp , drat и wt в качестве наших переменных-предикторов. Каждая переменная взята из набора данных под названием mtcars .

Остатки

Residuals:
 Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078

В этом разделе отображается сводка по распределению остатков регрессионной модели. Напомним, что остаток — это разница между наблюдаемым значением и прогнозируемым значением из регрессионной модели.

Минимальный остаток составил -3,3598 , средний остаток -0,5099 , а максимальный остаток - 5,7078 .

Коэффициенты

Coefficients:
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) 29.394934 6.156303 4.775 5.13e-05 \*\*\*
hp -0.032230 0.008925 -3.611 0.001178 \*\* 
drat 1.615049 1.226983 1.316 0.198755 
wt -3.227954 0.796398 -4.053 0.000364 \*\*\*

---
Signif. codes: 0 ‘\*\*\*’ 0.001 ‘\*\*’ 0.01 ‘\*’ 0.05 ‘.’ 0.1 ‘ ’ 1

В этом разделе отображаются оценочные коэффициенты регрессионной модели. Мы можем использовать эти коэффициенты для формирования следующего оценочного уравнения регрессии:

миль на галлон = 29,39 – 0,03*л.с. + 1,62*драт – 3,23*вес.

Для каждой переменной-предиктора нам даны следующие значения:

Оценка: Расчетный коэффициент. Это говорит нам о среднем увеличении переменной отклика, связанном с увеличением на одну единицу переменной-предиктора, при условии, что все другие переменные-предикторы остаются постоянными.

стандарт Ошибка : это стандартная ошибка коэффициента. Это мера неопределенности в нашей оценке коэффициента.

Значение t: это t-статистика для предикторной переменной, рассчитанная как (Оценка) / (Стандартная ошибка).

Pr(>|t|): это значение p, соответствующее t-статистике. Если это значение меньше некоторого альфа-уровня (например, 0,05), то переменная-предиктор считается статистически значимой.

Если бы мы использовали альфа-уровень α = 0,05, чтобы определить, какие предикторы были значимы в этой регрессионной модели, мы бы сказали, что hp и wt являются статистически значимыми предикторами, а drat — нет.

Оценка соответствия модели

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

В этом последнем разделе отображаются различные числа, которые помогают нам оценить, насколько хорошо модель регрессии соответствует нашему набору данных.

Остаточная стандартная ошибка: это говорит нам о среднем расстоянии, на которое наблюдаемые значения отклоняются от линии регрессии. Чем меньше значение, тем лучше регрессионная модель соответствует данным.

Степени свободы рассчитываются как nk-1, где n = общее количество наблюдений, а k = количество предикторов. В этом примере mtcars имеет 32 наблюдения, и мы использовали 3 предиктора в регрессионной модели, поэтому степени свободы составляют 32 — 3 — 1 = 28.

Множественный R-квадрат: известен как коэффициент детерминации. Он сообщает нам долю дисперсии переменной отклика , которая может быть объяснена переменными-предикторами.

Это значение находится в диапазоне от 0 до 1. Чем оно ближе к 1, тем лучше переменные-предикторы способны предсказать значение переменной отклика.

Скорректированный R-квадрат: Ths — это модифицированная версия R-квадрата, которая была скорректирована с учетом количества предикторов в модели. Он всегда ниже R-квадрата.

Скорректированный R-квадрат может быть полезен для сравнения соответствия различных моделей регрессии, в которых используется разное количество переменных-предикторов.

F-статистика: указывает, обеспечивает ли регрессионная модель лучшее соответствие данным, чем модель, не содержащая независимых переменных. По сути, он проверяет, полезна ли регрессионная модель в целом.

p-значение: это p-значение, соответствующее F-статистике. Если это значение меньше некоторого уровня значимости (например, 0,05), то регрессионная модель соответствует данным лучше, чем модель без предикторов.

При построении регрессионных моделей мы надеемся, что это p-значение меньше некоторого уровня значимости, поскольку оно указывает на то, что переменные-предикторы действительно полезны для прогнозирования значения переменной отклика.

Дополнительные ресурсы

Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R
Что такое хорошее значение R-квадрата?