Регрессия через происхождение: определение и пример

Регрессия через происхождение: определение и пример

Простая линейная регрессия — это метод, который можно использовать для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной- откликом .

Простая модель линейной регрессии принимает следующий вид:

у = β 0 + β 1 х

куда:

  • y : значение переменной ответа
  • β 0 : значение переменной отклика при x = 0 (известное как термин «перехвата»)
  • β 1 : Среднее увеличение переменной отклика, связанное с увеличением x на одну единицу.
  • x : значение переменной-предиктора

Модифицированная версия этой модели известна как регрессия через начало координат , которая заставляет y равняться 0, когда x равен 0.

Этот тип модели принимает следующий вид:

у = β 1 х

Обратите внимание, что термин перехвата был полностью удален из модели.

Эта модель иногда используется, когда исследователи знают, что переменная ответа должна быть равна нулю, когда переменная-предиктор равна нулю.

В реальном мире этот тип модели чаще всего используется в исследованиях лесного хозяйства или экологии .

Например, исследователи могут использовать окружность дерева для прогнозирования высоты дерева. Если данное дерево имеет нулевую окружность, оно должно иметь нулевую высоту.

Таким образом, при подгонке регрессионной модели к этим данным не имеет смысла, чтобы член пересечения был ненулевым.

В следующем примере показана разница между подгонкой обычной модели простой линейной регрессии и моделью, реализующей регрессию через начало координат.

Пример: регрессия через происхождение

Предположим, биолог хочет подогнать регрессионную модель, используя окружность дерева для предсказания высоты дерева. Она выходит и собирает следующие измерения для выборки из 15 деревьев:

Мы можем использовать следующий код в R, чтобы подогнать простую модель линейной регрессии вместе с моделью регрессии, которая не использует точку пересечения, и построить обе линии регрессии:

#create data frame
df <- data.frame(circ=c(15, 19, 25, 39, 44, 46, 49, 54, 67, 79, 81, 84, 88, 90, 99),
 height=c(200, 234, 285, 375, 440, 470, 564, 544, 639, 750, 830, 854,
 901, 912, 989))

#fit a simple linear regression model
model <- lm(height ~ circ, data = df)

#fit regression through the origin
model_origin <- lm(height ~ 0 + ., data = df)

#create scatterplot
plot(df$circ, df$height, xlab='Circumference', ylab='Height',
 cex= 1.5 , pch= 16 , ylim=c(0,1000), xlim=c(0,100))

#add the fitted regression lines to the scatterplot
abline(model, col='blue', lwd= 2 )
abline(model_origin, lty='dashed', col='red', lwd= 2 )
регресс через происхождение

Красная пунктирная линия представляет модель регрессии, которая проходит через начало координат, а синяя сплошная линия представляет собой обычную модель простой линейной регрессии.

Мы можем использовать следующий код в R, чтобы получить оценки коэффициентов для каждой модели:

#display coefficients for simple linear regression model
coef(model)

(Intercept) circ 
 40.696971 9.529631 

#display coefficients for regression model through the origin
coef(model_origin)

 circ 
10.10574

Подходящее уравнение для простой модели линейной регрессии:

Высота = 40,6969 + 9,5296 (окружность)

И подогнанное уравнение для модели регрессии через начало координат:

Высота = 10,1057 (окружность)

Обратите внимание, что оценки коэффициентов для переменной окружности немного отличаются.

Предостережения по использованию регрессии через начало координат

Прежде чем использовать регрессию через начало координат, вы должны быть абсолютно уверены, что значение 0 для переменной предиктора подразумевает значение 0 для переменной ответа. Во многих сценариях почти невозможно знать это наверняка.

И если вы используете регрессию через начало координат, чтобы сохранить одну степень свободы от оценки точки пересечения, это редко имеет существенное значение, если размер вашей выборки достаточно велик.

Если вы решите использовать регрессию по происхождению, обязательно изложите свои доводы в окончательном анализе или отчете.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о линейной регрессии:

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Как читать и интерпретировать таблицу регрессии

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.