Понимание нулевой гипотезы для линейной регрессии

Понимание нулевой гипотезы для линейной регрессии

Линейная регрессия — это метод, который мы можем использовать для понимания взаимосвязи между одной или несколькими переменными-предикторами и переменной- откликом .

Если у нас есть только одна предикторная переменная и одна переменная отклика, мы можем использовать простую линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:

ŷ = β 0 + β 1 х

куда:

  • ŷ: расчетное значение отклика.
  • β 0 : Среднее значение y, когда x равно нулю.
  • β 1 : Среднее изменение y, связанное с увеличением x на одну единицу.
  • x: значение переменной-предиктора.

Простая линейная регрессия использует следующие нулевые и альтернативные гипотезы:

  • Н 0 : β 1 = 0
  • Н А : β 1 ≠ 0

Нулевая гипотеза утверждает, что коэффициент β 1 равен нулю. Другими словами, нет статистически значимой связи между предикторной переменной x и переменной ответа y.

Альтернативная гипотеза утверждает, что β 1 не равно нулю. Другими словами, существует статистически значимая связь между x и y.

Если у нас есть несколько переменных-предикторов и одна переменная ответа, мы можем использовать множественную линейную регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:

ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

куда:

  • ŷ: расчетное значение отклика.
  • β 0 : Среднее значение y, когда все предикторы равны нулю.
  • β i : среднее изменение y, связанное с увеличением x i на одну единицу.
  • x i : значение переменной-предиктора x i .

Множественная линейная регрессия использует следующие нулевые и альтернативные гипотезы:

  • Н 0 : β 1 = β 2 = … = β k = 0
  • H А : β 1 = β 2 = … = β k ≠ 0

Нулевая гипотеза утверждает, что все коэффициенты в модели равны нулю. Другими словами, ни одна из переменных-предикторов не имеет статистически значимой связи с переменной отклика y.

Альтернативная гипотеза утверждает, что не каждый коэффициент одновременно равен нулю.

В следующих примерах показано, как принять решение об отклонении или отклонении нулевой гипотезы как в моделях простой линейной регрессии, так и в моделях множественной линейной регрессии.

Пример 1: простая линейная регрессия

Предположим, профессор хотел бы использовать количество часов обучения, чтобы предсказать экзаменационные баллы, которые получат студенты в его классе. Он собирает данные для 20 студентов и использует простую модель линейной регрессии.

На следующем снимке экрана показаны выходные данные регрессионной модели:

Вывод простой линейной регрессии в Excel

Подогнанная простая модель линейной регрессии:

Экзаменационный балл = 67,1617 + 5,2503*(часы обучения)

Чтобы определить, существует ли статистически значимая связь между учебными часами и экзаменационным баллом, нам необходимо проанализировать общее значение F модели и соответствующее значение p:

  • Общее F-значение: 47,9952
  • P-значение: 0,000

Поскольку это p-значение меньше 0,05, мы можем отклонить нулевую гипотезу. Другими словами, существует статистически значимая связь между количеством часов обучения и полученными экзаменационными баллами.

Пример 2: Множественная линейная регрессия

Предположим, профессор хотел бы использовать количество часов обучения и количество сданных подготовительных экзаменов, чтобы предсказать экзаменационный балл, который студенты получат в его классе. Он собирает данные по 20 учащимся и использует модель множественной линейной регрессии.

На следующем снимке экрана показаны выходные данные регрессионной модели:

Вывод множественной линейной регрессии в Excel

Подогнанная модель множественной линейной регрессии:

Экзаменационный балл = 67,67 + 5,56*(часы обучения) – 0,60*(пройдены подготовительные экзамены)

Чтобы определить, существует ли совместно статистически значимая связь между двумя предикторными переменными и переменной отклика, нам необходимо проанализировать общее значение F модели и соответствующее значение p:

  • Общее F-значение: 23,46
  • Р-значение: 0,00

Поскольку это p-значение меньше 0,05, мы можем отклонить нулевую гипотезу. Другими словами, часы обучения и сданные подготовительные экзамены имеют совместно статистически значимую связь с экзаменационным баллом.

Примечание. Хотя значение p для сданных подготовительных экзаменов (p = 0,52) не является значимым, количество подготовительных экзаменов в сочетании с отработанными часами имеет значительную связь с экзаменационным баллом.

Дополнительные ресурсы

Понимание F-теста общей значимости в регрессии
Как читать и интерпретировать таблицу регрессии
Как сообщить о результатах регрессии
Как выполнить простую линейную регрессию в Excel
Как выполнить множественную линейную регрессию в Excel

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.