Понимание нулевой гипотезы для линейной регрессии


Линейная регрессия — это метод, который мы можем использовать для понимания взаимосвязи между одной или несколькими переменными-предикторами и переменной- откликом .

Если у нас есть только одна предикторная переменная и одна переменная отклика, мы можем использовать простую линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:

ŷ = β 0 + β 1 х

куда:

  • ŷ: расчетное значение отклика.
  • β 0 : Среднее значение y, когда x равно нулю.
  • β 1 : Среднее изменение y, связанное с увеличением x на одну единицу.
  • x: значение переменной-предиктора.

Простая линейная регрессия использует следующие нулевые и альтернативные гипотезы:

  • Н 0 : β 1 = 0
  • Н А : β 1 ≠ 0

Нулевая гипотеза утверждает, что коэффициент β 1 равен нулю. Другими словами, нет статистически значимой связи между предикторной переменной x и переменной ответа y.

Альтернативная гипотеза утверждает, что β 1 не равно нулю. Другими словами, существует статистически значимая связь между x и y.

Если у нас есть несколько переменных-предикторов и одна переменная ответа, мы можем использовать множественную линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:

ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

куда:

  • ŷ: расчетное значение отклика.
  • β 0 : Среднее значение y, когда все предикторы равны нулю.
  • β i : среднее изменение y, связанное с увеличением x i на одну единицу.
  • x i : значение переменной-предиктора x i .

Множественная линейная регрессия использует следующие нулевые и альтернативные гипотезы:

  • Н 0 : β 1 = β 2 = … = β k = 0
  • H А : β 1 = β 2 = … = β k ≠ 0

Нулевая гипотеза утверждает, что все коэффициенты в модели равны нулю. Другими словами, ни одна из переменных-предикторов не имеет статистически значимой связи с переменной отклика y.

Альтернативная гипотеза утверждает, что не каждый коэффициент одновременно равен нулю.

В следующих примерах показано, как принять решение об отклонении или отклонении нулевой гипотезы как в моделях простой линейной регрессии, так и в моделях множественной линейной регрессии.

Пример 1: простая линейная регрессия

Предположим, профессор хотел бы использовать количество часов обучения, чтобы предсказать экзаменационные баллы, которые получат студенты в его классе. Он собирает данные для 20 студентов и использует простую модель линейной регрессии.

На следующем снимке экрана показаны выходные данные регрессионной модели:

Подогнанная простая модель линейной регрессии:

Экзаменационный балл = 67,1617 + 5,2503*(часы обучения)

Чтобы определить, существует ли статистически значимая связь между учебными часами и экзаменационным баллом, нам необходимо проанализировать общее значение F модели и соответствующее значение p:

  • Общее F-значение: 47,9952
  • P-значение: 0,000

Поскольку это p-значение меньше 0,05, мы можем отклонить нулевую гипотезу. Другими словами, существует статистически значимая связь между количеством часов обучения и полученными экзаменационными баллами.

Пример 2: Множественная линейная регрессия

Предположим, профессор хотел бы использовать количество часов обучения и количество сданных подготовительных экзаменов, чтобы предсказать экзаменационный балл, который студенты получат в его классе. Он собирает данные по 20 учащимся и использует модель множественной линейной регрессии.

На следующем снимке экрана показаны выходные данные регрессионной модели:

Подогнанная модель множественной линейной регрессии:

Экзаменационный балл = 67,67 + 5,56*(часы обучения) – 0,60*(пройдены подготовительные экзамены)

Чтобы определить, существует ли совместно статистически значимая связь между двумя предикторными переменными и переменной отклика, нам необходимо проанализировать общее значение F модели и соответствующее значение p:

  • Общее F-значение: 23,46
  • Р-значение: 0,00

Поскольку это p-значение меньше 0,05, мы можем отклонить нулевую гипотезу. Другими словами, часы обучения и сданные подготовительные экзамены имеют совместно статистически значимую связь с экзаменационным баллом.

Примечание. Хотя значение p для сданных подготовительных экзаменов (p = 0,52) не является значимым, количество подготовительных экзаменов в сочетании с отработанными часами имеет значительную связь с экзаменационным баллом.

Дополнительные ресурсы

Понимание F-теста общей значимости в регрессии
Как читать и интерпретировать таблицу регрессии
Как сообщить о результатах регрессии
Как выполнить простую линейную регрессию в Excel
Как выполнить множественную линейную регрессию в Excel