Как интерпретировать коэффициенты регрессии

В статистике регрессионный анализ — это метод, который можно использовать для анализа взаимосвязи между переменными-предикторами и переменной-откликом.

Когда вы используете программное обеспечение (например, R , Stata , SPSS и т. д.) для выполнения регрессионного анализа, вы получите в качестве выходных данных таблицу регрессии, в которой суммируются результаты регрессии.

Вероятно, наиболее важными числами в выходных данных таблицы регрессии являются коэффициенты регрессии.Тем не менее, несмотря на их важность, многим людям трудно правильно интерпретировать эти числа.

В этом руководстве рассматривается пример регрессионного анализа и дается подробное объяснение того, как интерпретировать коэффициенты регрессии, полученные в результате регрессии.

Связанный: Как читать и интерпретировать всю таблицу регрессии

Пример регрессионного анализа

Предположим, нас интересует проведение регрессионного анализа с использованием следующих переменных:

Предикторные переменные

Общее количество часов обучения ( непрерывная переменная – от 0 до 20 )
Использовал ли ученик репетитора ( категориальная переменная — «да» или «нет» )

Переменная ответа

Оценка за экзамен ( непрерывная переменная – от 1 до 100 )

Мы заинтересованы в изучении взаимосвязи между переменными-предикторами и переменной-ответом, чтобы выяснить, действительно ли количество часов обучения и использовал ли студент репетитора значимое влияние на его экзаменационную оценку.

Предположим, мы запускаем регрессионный анализ и получаем следующий результат:

| Срок | Коэффициент | Стандартная ошибка | т Стат | P-значение | | --- | --- | --- | --- | --- | | Перехват | 48,56 | 14.32 | 3,39 | 0,002 | | Часы обучения | 2.03 | 0,67 | 3.03 | 0,009 | | Репетитор | 8,34 | 5,68 | 1,47 | 0,138 |

Давайте посмотрим, как интерпретировать каждый коэффициент регрессии.

Интерпретация перехвата

Термин перехвата в таблице регрессии сообщает нам среднее ожидаемое значение для переменной отклика, когда все переменные-предикторы равны нулю.

В этом примере коэффициент регрессии для точки пересечения равен 48,56.Это означает, что для студента, который учился ноль часов ( часы обучения = 0) и не пользовался услугами репетитора ( репетитор = 0), средний ожидаемый экзаменационный балл составляет 48,56.

Важно отметить, что коэффициент регрессии для точки пересечения имеет смысл только в том случае, если разумно предположить, что все переменные-предикторы в модели могут фактически быть равны нулю. В этом примере, безусловно, возможно, что студент учился ноль часов ( Часы обучения = 0) и при этом не использовал репетитора ( Репетитор = 0). Таким образом, интерпретация коэффициента регрессии точки пересечения имеет смысл в этом примере.

Однако в некоторых случаях коэффициент регрессии для точки пересечения не имеет смысла. Например, предположим, что мы провели регрессионный анализ, используя квадратные метры в качестве переменной-предиктора и стоимость дома в качестве переменной-ответа. В выходной таблице регрессии коэффициент регрессии для члена пересечения не будет иметь значимой интерпретации, поскольку квадратные метры дома никогда не могут быть фактически равны нулю. В этом случае коэффициент регрессии для члена пересечения просто закрепляет линию регрессии в нужном месте.

Интерпретация коэффициента непрерывной переменной-предиктора

Для непрерывной переменной-предиктора коэффициент регрессии представляет собой разницу в прогнозируемом значении переменной отклика для каждого изменения переменной-предиктора на одну единицу при условии, что все остальные переменные-предикторы остаются постоянными.

В этом примере изученные часы — это непрерывная предикторная переменная, которая находится в диапазоне от 0 до 20 часов. В некоторых случаях студент учился всего ноль часов, а в других случаях студент учился целых 20 часов.

Из результатов регрессии мы видим, что коэффициент регрессии для изученных часов составляет 2,03.Это означает, что в среднем каждый дополнительный час обучения связан с повышением на 2,03 балла на выпускном экзамене, если предположить, что предикторная переменная Tutor остается постоянной.

Например, рассмотрим студента А, который занимается 10 часов и пользуется услугами репетитора. Также рассмотрим студента Б, который учится 11 часов и также пользуется услугами репетитора. Согласно нашим результатам регрессии, ожидается, что учащийся Б получит экзаменационный балл на 2,03 балла выше, чем учащийся А.

Значение p из таблицы регрессии говорит нам, действительно ли этот коэффициент регрессии является статистически значимым. Мы видим, что p-значение для изученных часов составляет 0,009 , что является статистически значимым при альфа-уровне 0,05.

Примечание.Альфа-уровень следует выбирать до проведения регрессионного анализа. Обычно для альфа-уровня выбирают значения 0,01, 0,05 и 0,10.

Связанный пост: Объяснение P-значений и статистической значимости

Интерпретация коэффициента категориальной переменной-предиктора

Для категориальной переменной-предиктора коэффициент регрессии представляет собой разницу в прогнозируемом значении переменной ответа между категорией, для которой переменная-предиктор = 0, и категорией, для которой переменная-предиктор = 1.

В этом примере Tutor — это категориальная переменная-предиктор, которая может принимать два разных значения:

1 = студент использовал репетитора для подготовки к экзамену
0 = студент не использовал репетитора для подготовки к экзамену

Из вывода регрессии мы видим, что коэффициент регрессии для Tutor равен 8,34.Это означает, что в среднем учащийся, который пользовался услугами репетитора, набрал на экзамене на 8,34 балла больше, чем учащийся, не пользовавшийся услугами репетитора, при условии, что предикторная переменная Количество часов обучения остается постоянной.

Например, рассмотрим студента А, который занимается 10 часов и пользуется услугами репетитора. Также рассмотрим студента Б, который занимается 10 часов и не пользуется услугами репетитора. Согласно нашим результатам регрессии, ожидается, что учащийся А получит экзаменационный балл на 8,34 балла выше, чем учащийся Б.

Значение p из таблицы регрессии говорит нам, действительно ли этот коэффициент регрессии является статистически значимым. Мы видим, что p-значение для Tutor составляет 0,138 , что не является статистически значимым при альфа-уровне 0,05. Это указывает на то, что, хотя студенты, которые использовали репетитора, получили более высокие баллы на экзамене, эта разница могла быть вызвана случайностью.

Интерпретация всех коэффициентов сразу

Мы можем использовать все коэффициенты в таблице регрессии, чтобы создать следующее оценочное уравнение регрессии:

Ожидаемый балл за экзамен = 48,56 + 2,03*(часы обучения) + 8,34*(репетитор)

Примечание . Имейте в виду, что предикторная переменная «Наставник» не была статистически значимой при альфа-уровне 0,05, поэтому вы можете удалить этот предиктор из модели и не использовать его в окончательном оценочном уравнении регрессии.

Используя это оценочное уравнение регрессии, мы можем предсказать окончательную оценку студента на экзамене на основе общего количества часов обучения и того, пользовались ли они репетитором или нет.

Например, студент, проучившийся 10 часов и воспользовавшийся услугами репетитора, должен получить на экзамене следующие баллы:

Ожидаемый балл за экзамен = 48,56 + 2,03*(10) + 8,34*(1) = 77,2

Учет корреляции при интерпретации коэффициентов регрессии

Важно помнить, что переменные-предикторы могут влиять друг на друга в регрессионной модели. Например, большинство переменных-предикторов будут, по крайней мере, в некоторой степени связаны друг с другом (например, возможно, что студент, который учится больше, также с большей вероятностью будет пользоваться услугами репетитора).

Это означает, что коэффициенты регрессии будут изменяться при добавлении или удалении из модели различных переменных прогнозирования.

Хороший способ увидеть, является ли корреляция между переменными-предикторами достаточно серьезной, чтобы серьезно повлиять на регрессионную модель, — это проверить VIF между переменными-предикторами.Это скажет вам, является ли корреляция между переменными-предикторами проблемой, которую следует решить, прежде чем вы решите интерпретировать коэффициенты регрессии.

Если вы используете простую модель линейной регрессии только с одним предиктором, коррелированные переменные предиктора не будут проблемой.