Линейная регрессия — это метод, который мы можем использовать для понимания взаимосвязи между одной или несколькими переменными-предикторами и переменной- откликом .
Если у нас есть только одна предикторная переменная и одна переменная отклика, мы можем использовать простую линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:
ŷ = β 0 + β 1 х
куда:
- ŷ: расчетное значение отклика.
- β 0 : Среднее значение y, когда x равно нулю.
- β 1 : Среднее изменение y, связанное с увеличением x на одну единицу.
- x: значение переменной-предиктора.
Простая линейная регрессия использует следующие нулевые и альтернативные гипотезы:
- Н 0 : β 1 = 0
- Н А : β 1 ≠ 0
Нулевая гипотеза утверждает, что коэффициент β 1 равен нулю. Другими словами, нет статистически значимой связи между предикторной переменной x и переменной ответа y.
Альтернативная гипотеза утверждает, что β 1 не равно нулю. Другими словами, существует статистически значимая связь между x и y.
Если у нас есть несколько переменных-предикторов и одна переменная ответа, мы можем использовать множественную линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:
ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
куда:
- ŷ: расчетное значение отклика.
- β 0 : Среднее значение y, когда все предикторы равны нулю.
- β i : среднее изменение y, связанное с увеличением x i на одну единицу.
- x i : значение переменной-предиктора x i .
Множественная линейная регрессия использует следующие нулевые и альтернативные гипотезы:
- Н 0 : β 1 = β 2 = … = β k = 0
- H А : β 1 = β 2 = … = β k ≠ 0
Нулевая гипотеза утверждает, что все коэффициенты в модели равны нулю. Другими словами, ни одна из переменных-предикторов не имеет статистически значимой связи с переменной отклика y.
Альтернативная гипотеза утверждает, что не каждый коэффициент одновременно равен нулю.
В следующих примерах показано, как принять решение об отклонении или отклонении нулевой гипотезы как в моделях простой линейной регрессии, так и в моделях множественной линейной регрессии.
Пример 1: простая линейная регрессия
Предположим, профессор хотел бы использовать количество часов обучения, чтобы предсказать экзаменационные баллы, которые получат студенты в его классе. Он собирает данные для 20 студентов и использует простую модель линейной регрессии.
На следующем снимке экрана показаны выходные данные регрессионной модели:

Подогнанная простая модель линейной регрессии:
Экзаменационный балл = 67,1617 + 5,2503*(часы обучения)
Чтобы определить, существует ли статистически значимая связь между учебными часами и экзаменационным баллом, нам необходимо проанализировать общее значение F модели и соответствующее значение p:
- Общее F-значение: 47,9952
- P-значение: 0,000
Поскольку это p-значение меньше 0,05, мы можем отклонить нулевую гипотезу. Другими словами, существует статистически значимая связь между количеством часов обучения и полученными экзаменационными баллами.
Пример 2: Множественная линейная регрессия
Предположим, профессор хотел бы использовать количество часов обучения и количество сданных подготовительных экзаменов, чтобы предсказать экзаменационный балл, который студенты получат в его классе. Он собирает данные по 20 учащимся и использует модель множественной линейной регрессии.
На следующем снимке экрана показаны выходные данные регрессионной модели:

Подогнанная модель множественной линейной регрессии:
Экзаменационный балл = 67,67 + 5,56*(часы обучения) – 0,60*(пройдены подготовительные экзамены)
Чтобы определить, существует ли совместно статистически значимая связь между двумя предикторными переменными и переменной отклика, нам необходимо проанализировать общее значение F модели и соответствующее значение p:
- Общее F-значение: 23,46
- Р-значение: 0,00
Поскольку это p-значение меньше 0,05, мы можем отклонить нулевую гипотезу. Другими словами, часы обучения и сданные подготовительные экзамены имеют совместно статистически значимую связь с экзаменационным баллом.
Примечание. Хотя значение p для сданных подготовительных экзаменов (p = 0,52) не является значимым, количество подготовительных экзаменов в сочетании с отработанными часами имеет значительную связь с экзаменационным баллом.
Дополнительные ресурсы
Понимание F-теста общей значимости в регрессии
Как читать и интерпретировать таблицу регрессии
Как сообщить о результатах регрессии
Как выполнить простую линейную регрессию в Excel
Как выполнить множественную линейную регрессию в Excel