Как проверить значимость наклона регрессии

Как проверить значимость наклона регрессии

Предположим, у нас есть следующий набор данных, который показывает площадь и цену 12 разных домов:

Простой пример линейной регрессии

Мы хотим знать, существует ли значительная связь между квадратными метрами и ценой.

Чтобы получить представление о том, как выглядят данные, мы сначала создадим диаграмму рассеяния с квадратными футами на оси x и ценой на оси y:

Простая диаграмма рассеяния линейной регрессии

Мы можем ясно видеть, что существует положительная корреляция между квадратными метрами и ценой. С увеличением площади квадратных метров растет и цена дома.

Однако, чтобы узнать, существует ли статистически значимая связь между квадратными метрами и ценой, нам нужно запустить простую линейную регрессию.

Итак, мы запускаем простую линейную регрессию , используя квадратные футы в качестве предиктора и цену в качестве ответа, и получаем следующий результат:

Вывод простой линейной регрессии

Независимо от того, запускаете ли вы простую линейную регрессию в Excel, SPSS, R или каком-либо другом программном обеспечении, вы получите результат, аналогичный показанному выше.

Напомним, что простая линейная регрессия даст линию наилучшего соответствия, которая является уравнением для линии, которая лучше всего «соответствует» данным на нашей диаграмме рассеяния. Эта линия наилучшего соответствия определяется как:

ŷ = б 0 + б 1 х

где ŷ — прогнозируемое значение переменной отклика, b 0 — точка пересечения с осью y, b 1 — коэффициент регрессии, а x — значение переменной-предиктора.

Значение для b 0 определяется коэффициентом для точки пересечения, который равен 47588,70.

Значение для b 1 задается коэффициентом для переменной-предиктора Square Feet , который равен 93,57.

Таким образом, линия наилучшего соответствия в этом примере равна ŷ = 47588,70+ 93,57x.

Вот как интерпретировать эту линию наилучшего соответствия:

  • b 0 : Когда значение квадратных футов равно нулю, среднее ожидаемое значение цены составляет 47 588,70 долларов США. (В этом случае не имеет смысла интерпретировать перехват, так как в доме никогда не может быть ноль квадратных футов)
  • b 1 : Для каждого дополнительного квадратного фута среднее ожидаемое увеличение цены составляет 93,57 доллара.

Итак, теперь мы знаем, что для каждого дополнительного квадратного фута среднее ожидаемое увеличение цены составляет 93,57 доллара.

Чтобы выяснить, является ли это увеличение статистически значимым, нам нужно провести проверку гипотезы для B 1 или построить доверительный интервал для B 1 .

Примечание.Проверка гипотезы и доверительный интервал всегда дают одинаковые результаты.

Построение доверительного интервала для наклона регрессии

Чтобы построить доверительный интервал для наклона регрессии, мы используем следующую формулу:

Доверительный интервал = b 1 +/- (t 1-∝/2, n-2 ) * (стандартная ошибка b 1 )

куда:

  • b 1 — коэффициент наклона, указанный в выходных данных регрессии.
  • (t 1-∝/2, n-2 ) — критическое значение t для доверительного уровня 1-∝ с n-2 степенями свободы, где n — общее количество наблюдений в нашем наборе данных.
  • (стандартная ошибка b 1 ) — стандартная ошибка b 1 , указанная в выходных данных регрессии.

Для нашего примера, вот как построить 95% доверительный интервал для B 1 :

  • b 1 равно 93,57 из выходных данных регрессии.
  • Поскольку мы используем доверительный интервал 95%, ∝ = 0,05 и n-2 = 12-2 = 10, таким образом, t 0,975, 10 равно 2,228 согласно таблице t-распределения .
  • (стандартная ошибка b 1 ) составляет 11,45 из выходных данных регрессии.

Таким образом, наш 95% доверительный интервал для B 1 равен:

93,57 +/- (2,228) * (11,45) = (68,06, 119,08)

Это означает, что мы на 95% уверены, что истинное среднее увеличение цены за каждый дополнительный квадратный фут составляет от 68,06 до 119,08 долларов США.

Обратите внимание, что в этом интервале нет $0, поэтому взаимосвязь между квадратными футами и ценой является статистически значимой при доверительном уровне 95%.

Проведение проверки гипотезы о наклоне регрессии

Чтобы провести проверку гипотезы для наклона регрессии, мы следуем стандартным пяти шагам для любой проверки гипотезы :

Шаг 1. Сформулируйте гипотезы.

Нулевая гипотеза (H0): B 1 = 0

Альтернативная гипотеза: (Ha): B 1 ≠ 0

Шаг 2. Определите уровень значимости для использования.

Поскольку в предыдущем примере мы построили доверительный интервал 95%, здесь мы воспользуемся эквивалентным подходом и выберем уровень значимости 0,05.

Шаг 3. Найдите статистику теста и соответствующее значение p.

В этом случае тестовая статистика равна t = коэффициент b 1 / стандартная ошибка b 1 с n-2 степенями свободы. Мы можем найти эти значения из выходных данных регрессии:

Вывод простой линейной регрессии


Таким образом, тестовая статистика t = 92,89/13,88 = 6,69.

Используя калькулятор T Score to P Value с оценкой 6,69 с 10 степенями свободы и двусторонним тестом, значение p = 0,000 .

Шаг 4. Отклонить или не отклонить нулевую гипотезу.

Поскольку p-значение меньше нашего уровня значимости 0,05, мы отвергаем нулевую гипотезу.

Шаг 5. Интерпретируйте результаты.

Поскольку мы отвергли нулевую гипотезу, у нас есть достаточно доказательств, чтобы сказать, что истинное среднее увеличение цены на каждый дополнительный квадратный фут не равно нулю.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.