Как интерпретировать вывод регрессии в R


Чтобы подобрать модель линейной регрессии в R, мы можем использовать команду lm() .

Чтобы просмотреть вывод модели регрессии, мы можем использовать команду summary() .

В этом руководстве объясняется, как интерпретировать каждое значение в выходных данных регрессии в R.

Пример: интерпретация результатов регрессии в R

В следующем коде показано, как подобрать модель множественной линейной регрессии со встроенным набором данных mtcars , используя hp , drat и wt в качестве переменных-предикторов и mpg в качестве переменной ответа:

#fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
 Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) 29.394934 6.156303 4.775 5.13e-05 \*\*\*
hp -0.032230 0.008925 -3.611 0.001178 \*\* 
drat 1.615049 1.226983 1.316 0.198755 
wt -3.227954 0.796398 -4.053 0.000364 \*\*\*
---
Signif. codes: 0 ‘\*\*\*’ 0.001 ‘\*\*’ 0.01 ‘\*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Вот как интерпретировать каждое значение в выводе:

Вызов

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Этот раздел напоминает нам о формуле, которую мы использовали в нашей регрессионной модели. Мы можем видеть, что мы использовали mpg в качестве переменной ответа и hp , drat и wt в качестве наших переменных-предикторов. Каждая переменная взята из набора данных под названием mtcars .

Остатки

Residuals:
 Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078

В этом разделе отображается сводка по распределению остатков регрессионной модели. Напомним, что остаток — это разница между наблюдаемым значением и прогнозируемым значением из регрессионной модели.

Минимальный остаток составил -3,3598 , средний остаток -0,5099 , а максимальный остаток - 5,7078 .

Коэффициенты

Coefficients:
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) 29.394934 6.156303 4.775 5.13e-05 \*\*\*
hp -0.032230 0.008925 -3.611 0.001178 \*\* 
drat 1.615049 1.226983 1.316 0.198755 
wt -3.227954 0.796398 -4.053 0.000364 \*\*\*

---
Signif. codes: 0 ‘\*\*\*’ 0.001 ‘\*\*’ 0.01 ‘\*’ 0.05 ‘.’ 0.1 ‘ ’ 1

В этом разделе отображаются оценочные коэффициенты регрессионной модели. Мы можем использовать эти коэффициенты для формирования следующего оценочного уравнения регрессии:

миль на галлон = 29,39 – 0,03*л.с. + 1,62*драт – 3,23*вес.

Для каждой переменной-предиктора нам даны следующие значения:

Оценка: Расчетный коэффициент. Это говорит нам о среднем увеличении переменной отклика, связанном с увеличением на одну единицу переменной-предиктора, при условии, что все другие переменные-предикторы остаются постоянными.

стандарт Ошибка : это стандартная ошибка коэффициента. Это мера неопределенности в нашей оценке коэффициента.

Значение t: это t-статистика для предикторной переменной, рассчитанная как (Оценка) / (Стандартная ошибка).

Pr(>|t|): это значение p, соответствующее t-статистике. Если это значение меньше некоторого альфа-уровня (например, 0,05), то переменная-предиктор считается статистически значимой.

Если бы мы использовали альфа-уровень α = 0,05, чтобы определить, какие предикторы были значимы в этой регрессионной модели, мы бы сказали, что hp и wt являются статистически значимыми предикторами, а drat — нет.

Оценка соответствия модели

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

В этом последнем разделе отображаются различные числа, которые помогают нам оценить, насколько хорошо модель регрессии соответствует нашему набору данных.

Остаточная стандартная ошибка: это говорит нам о среднем расстоянии, на которое наблюдаемые значения отклоняются от линии регрессии. Чем меньше значение, тем лучше регрессионная модель соответствует данным.

Степени свободы рассчитываются как nk-1, где n = общее количество наблюдений, а k = количество предикторов. В этом примере mtcars имеет 32 наблюдения, и мы использовали 3 предиктора в регрессионной модели, поэтому степени свободы составляют 32 — 3 — 1 = 28.

Множественный R-квадрат: известен как коэффициент детерминации. Он сообщает нам долю дисперсии переменной отклика , которая может быть объяснена переменными-предикторами.

Это значение находится в диапазоне от 0 до 1. Чем оно ближе к 1, тем лучше переменные-предикторы способны предсказать значение переменной отклика.

Скорректированный R-квадрат: Ths — это модифицированная версия R-квадрата, которая была скорректирована с учетом количества предикторов в модели. Он всегда ниже R-квадрата.

Скорректированный R-квадрат может быть полезен для сравнения соответствия различных моделей регрессии, в которых используется разное количество переменных-предикторов.

F-статистика: указывает, обеспечивает ли регрессионная модель лучшее соответствие данным, чем модель, не содержащая независимых переменных. По сути, он проверяет, полезна ли регрессионная модель в целом.

p-значение: это p-значение, соответствующее F-статистике. Если это значение меньше некоторого уровня значимости (например, 0,05), то регрессионная модель соответствует данным лучше, чем модель без предикторов.

При построении регрессионных моделей мы надеемся, что это p-значение меньше некоторого уровня значимости, поскольку оно указывает на то, что переменные-предикторы действительно полезны для прогнозирования значения переменной отклика.

Дополнительные ресурсы

Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R
Что такое хорошее значение R-квадрата?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.