Как интерпретировать P-значения в линейной регрессии (с примером)


В статистике модели линейной регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Всякий раз, когда вы выполняете регрессионный анализ с помощью какого-либо статистического программного обеспечения, вы получаете таблицу регрессии, в которой обобщаются результаты модели.

Двумя наиболее важными значениями в таблице регрессии являются коэффициенты регрессии и соответствующие им p-значения .

P-значения говорят вам, существует ли статистически значимая связь между каждой переменной-предиктором и переменной-ответом.

В следующем примере показано, как интерпретировать p-значения модели множественной линейной регрессии на практике.

Пример: интерпретация P-значений в регрессионной модели

Предположим, мы хотим подобрать регрессионную модель, используя следующие переменные:

Предикторные переменные

  • Общее количество часов обучения (от 0 до 20)
  • Использовал ли студент репетитора (да или нет)

Переменная ответа

  • Оценка за экзамен (от 0 до 100)

Мы хотим изучить взаимосвязь между переменными-предикторами и переменной-ответом, чтобы выяснить, действительно ли часы обучения и репетиторства оказывают значимое влияние на экзаменационный балл.

Предположим, мы запускаем регрессионный анализ и получаем следующий результат:

| Срок | Коэффициент | Стандартная ошибка | т Стат | P-значение | | --- | --- | --- | --- | --- | | Перехват | 48,56 | 14.32 | 3,39 | 0,002 | | Часы обучения | 2.03 | 0,67 | 3.03 | 0,009 | | Репетитор | 8,34 | 5,68 | 1,47 | 0,138 |

Вот как интерпретировать вывод для каждого термина в модели:

Интерпретация P-значения для Intercept

Термин перехвата в таблице регрессии сообщает нам среднее ожидаемое значение для переменной отклика, когда все переменные-предикторы равны нулю.

В этом примере коэффициент регрессии для точки пересечения равен 48,56.Это означает, что для студента, проучившегося ноль часов , средний ожидаемый экзаменационный балл составляет 48,56.

Значение p равно 0,002 , что говорит нам о том, что член пересечения статистически отличается от нуля.

На практике мы обычно не заботимся о p-значении члена перехвата. Даже если p-значение не меньше некоторого уровня значимости (например, 0,05), мы все равно сохраним член пересечения в модели.

Интерпретация P-значения для непрерывной переменной-предиктора

В этом примере изученные часы — это непрерывная предикторная переменная, которая находится в диапазоне от 0 до 20 часов.

Из результатов регрессии мы видим, что коэффициент регрессии для изученных часов составляет 2,03.Это означает, что в среднем каждый дополнительный час обучения связан с повышением на 2,03 балла на выпускном экзамене, если предположить, что предикторная переменная Tutor остается постоянной.

Например, рассмотрим студента А, который занимается 10 часов и пользуется услугами репетитора. Также рассмотрим студента Б, который учится 11 часов и также пользуется услугами репетитора. Согласно нашим результатам регрессии, ожидается, что учащийся Б получит экзаменационный балл на 2,03 балла выше, чем учащийся А.

Соответствующее значение p равно 0,009 , что является статистически значимым при альфа-уровне 0,05.

Это говорит нам о том, что среднее изменение экзаменационного балла за каждый дополнительный час обучения статистически значимо отличается от нуля .

Другими словами, количество часов обучения имеет статистически значимую связь с экзаменационной оценкой переменной ответа.

Интерпретация P-значения для категориальной переменной-предиктора

В этом примере Tutor — это категориальная переменная-предиктор, которая может принимать два разных значения:

  • 1 = студент использовал репетитора для подготовки к экзамену
  • 0 = студент не использовал репетитора для подготовки к экзамену

Из вывода регрессии мы видим, что коэффициент регрессии для Tutor равен 8,34.Это означает, что в среднем учащийся, который пользовался услугами репетитора, набрал на экзамене на 8,34 балла больше, чем учащийся, не пользовавшийся услугами репетитора, при условии, что предикторная переменная Количество часов обучения остается постоянной.

Например, рассмотрим студента А, который занимается 10 часов и пользуется услугами репетитора. Также рассмотрим студента Б, который занимается 10 часов и не пользуется услугами репетитора. Согласно нашим результатам регрессии, ожидается, что учащийся А получит экзаменационный балл на 8,34 балла выше, чем учащийся Б.

Соответствующее значение p равно 0,138 , что не является статистически значимым при альфа-уровне 0,05.

Это говорит нам о том, что среднее изменение экзаменационного балла за каждый дополнительный час обучения статистически значимо не отличается от нуля .

Другими словами, предикторная переменная Tutor не имеет статистически значимой связи с экзаменационной оценкой переменной ответа.

Это указывает на то, что, хотя студенты, которые использовали репетитора, получили более высокие баллы на экзамене, эта разница могла быть вызвана случайностью.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о линейной регрессии:

Как интерпретировать F-тест общей значимости в регрессии
Пять предположений множественной линейной регрессии
Понимание t-теста в линейной регрессии

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.