Как рассчитать доверительный интервал для перехвата регрессии

Как рассчитать доверительный интервал для перехвата регрессии

Простая линейная регрессия используется для количественной оценки взаимосвязи между переменной-предиктором и переменной-ответом.

Этот метод находит строку, которая лучше всего «соответствует» набору данных, и принимает следующий вид:

ŷ = б 0 + б 1 х

куда:

  • ŷ : Расчетное значение отклика
  • b 0 : точка пересечения линии регрессии
  • b 1 : Наклон линии регрессии
  • x : значение переменной-предиктора

Часто нас интересует значение b 1 , которое сообщает нам среднее изменение переменной отклика , связанное с увеличением на одну единицу переменной предиктора.

Однако в редких случаях нас также интересует значение b 0 , которое сообщает нам среднее значение переменной ответа, когда переменная-предиктор равна нулю.

Мы можем использовать следующую формулу для расчета доверительного интервала для значения β 0 , истинного пересечения популяции:

Доверительный интервал для β 0 : b 0 ± t α/2, n-2 * se(b 0 )

В следующем примере показано, как на практике рассчитать доверительный интервал для перехвата.

Пример: доверительный интервал для перехвата регрессии

Предположим, мы хотим подогнать простую модель линейной регрессии, используя часы обучения в качестве переменной-предиктора и баллы за экзамены в качестве переменной-ответа для 15 учеников в конкретном классе:

В следующем коде показано, как подогнать эту простую модель линейной регрессии в R:

#create data frame
df <- data.frame(hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
 Min 1Q Median 3Q Max 
-5.140 -3.219 -1.193 2.816 5.772 

Coefficients:
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) 65.334 2.106 31.023 1.41e-13 \*\*\*
hours 1.982 0.248 7.995 2.25e-06 \*\*\*
---
Signif. codes: 0 '\*\*\*' 0.001 '\*\*' 0.01 '\*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared: 0.831, Adjusted R-squared: 0.818 
F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06

Используя оценки коэффициентов в выходных данных, мы можем записать подобранную простую модель линейной регрессии как:

Оценка = 65,334 + 1,982 * (часы обучения)

Значение перехвата равно 65,334. Это говорит нам о том, что средний оценочный экзаменационный балл для студента, который учится ноль часов, составляет 65,334 .

Мы можем использовать следующую формулу для расчета 95% доверительного интервала для перехвата:

  • 95% ДИ для β 0 : b 0 ± t α/2, n-2 * se(b 0 )
  • 95% ДИ для β 0 : 65,334 ± t 0,05/2, 15-2 * 2,106
  • 95% ДИ для β 0 : 65,334 ± 2,1604 * 2,106
  • 95% ДИ для β 0 : [60,78, 69,88]

Мы интерпретируем это как то, что мы на 95 % уверены в том, что истинный средний балл за экзамен для учащихся, которые учатся без часов, составляет от 60,78 до 69,88.

Примечание.Мы использовали Калькулятор обратного распределения t , чтобы найти критическое значение t, соответствующее 95% доверительному уровню с 13 степенями свободы.

Предостережения по расчету доверительного интервала для точки пересечения регрессии

На практике мы часто не рассчитываем доверительный интервал для точки пересечения регрессии, потому что обычно не имеет смысла интерпретировать значение точки пересечения в регрессионной модели.

Например, предположим, что мы подбираем регрессионную модель, в которой рост баскетболиста используется в качестве переменной-предиктора, а среднее количество очков за игру — в качестве переменной-ответа.

Игрок не может быть ростом в ноль футов, поэтому не имеет смысла буквально интерпретировать перехват в этой модели.

Существует бесчисленное множество подобных сценариев, когда предикторная переменная не может принимать нулевое значение, поэтому нет смысла интерпретировать значение точки пересечения модели или создавать доверительный интервал для точки пересечения.

Например, рассмотрим следующие потенциальные предикторы в модели:

  • Квадратные метры дома
  • Длина автомобиля
  • Вес человека

Каждая из этих переменных-предикторов не может принимать нулевое значение, поэтому не имеет смысла вычислять доверительный интервал для пересечения модели регрессии в любом из этих обстоятельств.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о линейной регрессии:

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Как читать и интерпретировать таблицу регрессии
Как сообщить о результатах регрессии

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.