Как интерпретировать перехват в регрессионной модели (с примерами)


Точка пересечения (иногда называемая «константой») в регрессионной модели представляет собой среднее значение переменной отклика, когда все переменные-предикторы в модели равны нулю.

В этом руководстве объясняется, как интерпретировать значение точки пересечения как в моделях простой линейной регрессии, так и в моделях множественной линейной регрессии.

Интерпретация перехвата в простой линейной регрессии

Простая модель линейной регрессии имеет следующий вид:

ŷ = β 0 + β 1 (х)

куда:

  • ŷ: Прогнозируемое значение для переменной ответа
  • β 0 : Среднее значение переменной отклика, когда x = 0
  • β 1 : Среднее изменение переменной отклика при увеличении x на одну единицу.
  • x: значение переменной-предиктора

В некоторых случаях имеет смысл интерпретировать значение точки пересечения в простой модели линейной регрессии, но не всегда. Следующие примеры иллюстрируют это.

Пример 1: Intercept имеет смысл интерпретировать

Предположим, мы хотим подогнать простую модель линейной регрессии, используя количество часов обучения в качестве переменной-предиктора и экзаменационный балл в качестве переменной-ответа.

Мы собираем эти данные для 50 студентов определенного курса колледжа и подгоняем под следующую модель регрессии:

Экзаменационный балл = 65,4 + 2,67 (часа)

Значение термина перехвата в этой модели равно 65,4.Это означает, что средний экзаменационный балл составляет 65,4 , когда количество часов обучения равно нулю.

Это имеет смысл интерпретировать, так как вполне вероятно, что студент будет заниматься ноль часов в рамках подготовки к экзамену.

Пример 2: Перехват не имеет смысла интерпретировать

Предположим, мы хотим подобрать простую модель линейной регрессии, используя вес (в фунтах) в качестве переменной-предиктора и рост (в дюймах) в качестве переменной отклика.

Мы собираем эти данные для 50 человек и используем следующую регрессионную модель:

Рост = 22,3 + 0,28 (фунта)

Значение термина перехвата в этой модели равно 22,3.Это будет означать, что средний рост человека составляет 22,3 дюйма, когда его вес равен нулю.

Это не имеет смысла интерпретировать, поскольку человек не может весить ноль фунтов.

Однако нам по-прежнему необходимо сохранить член перехвата в модели, чтобы использовать модель для прогнозирования. Перехват просто не имеет какой-либо значимой интерпретации для этой модели.

Интерпретация перехвата в множественной линейной регрессии

Модель множественной линейной регрессии принимает следующую форму:

ŷ = β 0 + β 1 (x 1 ) + β 2 (x 2 ) + β 3 (x 3 ) + … + β k (x k )

куда:

  • ŷ: Прогнозируемое значение для переменной ответа
  • β 0 : Среднее значение переменной отклика, когда все предикторы равны нулю.
  • β j : среднее изменение переменной отклика при увеличении на одну единицу j -й переменной-предиктора при условии, что все остальные переменные-предикторы остаются постоянными.
  • x j : значение для j -й переменной-предиктора

Подобно простой линейной регрессии, иногда имеет смысл интерпретировать значение точки пересечения в модели множественной линейной регрессии, но не всегда. Следующие примеры иллюстрируют это.

Пример 1: Intercept имеет смысл интерпретировать

Предположим, мы хотим подогнать модель множественной линейной регрессии, используя часы обучения и подготовительные экзамены, взятые в качестве переменных-предикторов, и экзаменационный балл в качестве переменной ответа.

Мы собираем эти данные для 50 студентов определенного курса колледжа и подгоняем под следующую модель регрессии:

Экзаменационный балл = 58,4 + 2,23 (часа) + 1,34 (количество подготовительных экзаменов)

Значение термина перехвата в этой модели равно 58,4.Это означает, что средний балл за экзамен составляет 58,4 , когда количество часов обучения и количество сданных подготовительных экзаменов равны нулю.

Это имеет смысл интерпретировать, поскольку вполне вероятно, что учащийся будет учиться ноль часов и не сдавать подготовительных экзаменов перед фактическим экзаменом.

Пример 2: Перехват не имеет смысла интерпретировать

Предположим, мы хотим подобрать модель множественной линейной регрессии, используя квадратные метры и количество спален в качестве переменных-предикторов и цену продажи в качестве переменной отклика.

Мы собираем эти данные для 100 домов в определенном городе и подгоняем под следующую модель регрессии:

Цена = 87 244 + 3,44 (квадратный метр) + 843,45 (количество спален)

Значение термина перехвата в этой модели равно 87 244.Это будет означать, что средняя цена продажи дома составляет 87 244 доллара, когда площадь и количество спален в доме равны нулю.

Это не имеет смысла интерпретировать, поскольку в доме не может быть нулевых квадратных метров и нулевых спален.

Тем не менее, нам все равно нужно сохранить член перехвата в модели, чтобы использовать его для прогнозирования. Перехват просто не имеет какой-либо значимой интерпретации для этой модели.

Дополнительные ресурсы

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Как интерпретировать коэффициенты частичной регрессии

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.