Множественная линейная регрессия — это метод, который мы можем использовать для понимания взаимосвязи между двумя или более переменными-предикторами и переменной- откликом .
В этом руководстве объясняется, как выполнить множественную линейную регрессию в SAS.
Шаг 1: Создайте данные
Предположим, мы хотим подобрать модель множественной линейной регрессии, которая использует количество часов, потраченных на учебу, и количество сданных подготовительных экзаменов, чтобы предсказать окончательный балл студентов за экзамен:
Оценка за экзамен = β 0 + β 1 (часы) + β 2 (подготовительные экзамены)
Во-первых, мы будем использовать следующий код для создания набора данных, содержащего эту информацию для 20 студентов:
/\*create dataset\*/
data exam_data;
input hours prep_exams score;
datalines ;
1 1 76
2 3 78
2 3 85
4 5 88
2 2 72
1 2 69
5 1 94
4 1 94
2 0 88
4 3 92
4 4 90
3 3 75
6 2 96
5 4 90
3 4 82
4 4 85
6 5 99
2 1 83
1 0 62
2 1 76
;
run ;
Шаг 2: выполните множественную линейную регрессию
Далее мы будем использовать proc reg для подбора модели множественной линейной регрессии к данным:
/\*fit multiple linear regression model\*/
proc reg data =exam_data;
model score = hours prep_exams;
run ;

Вот как интерпретировать наиболее релевантные числа в каждой таблице:
Таблица анализа дисперсии:
Общее F-значение регрессионной модели равно 23,46 , а соответствующее p-значение <0,0001 .
Поскольку это p-значение меньше 0,05, мы заключаем, что регрессионная модель в целом является статистически значимой.
Таблица соответствия модели:
Значение R-Square говорит нам о процентной вариации экзаменационных баллов, которую можно объяснить количеством часов обучения и количеством сданных подготовительных экзаменов.
В общем, чем больше значение R-квадрата регрессионной модели, тем лучше переменные-предикторы способны предсказать значение переменной отклика.
В этом случае 73,4% различий в экзаменационных баллах можно объяснить количеством часов обучения и количеством сданных подготовительных экзаменов.
Значение Root MSE также полезно знать. Это представляет собой среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии.
В этой регрессионной модели наблюдаемые значения отклоняются от линии регрессии в среднем на 5,3657 единиц.
Таблица оценок параметров:
Мы можем использовать оценочные значения параметров в этой таблице, чтобы написать подобранное уравнение регрессии:
Экзаменационный балл = 67,674 + 5,556*(часы) – 0,602*(подготовительные_экзамены)
Мы можем использовать это уравнение, чтобы найти приблизительную оценку экзамена для учащегося на основе количества часов, которые он проучился, и количества сданных им подготовительных экзаменов.
Например, студент, который занимается 3 часа и сдает 2 подготовительных экзамена, должен получить экзаменационный балл 83,1 :
Расчетный балл за экзамен = 67,674 + 5,556*(3) – 0,602*(2) = 83,1 .
Значение p для часов (<0,0001) меньше 0,05, что означает, что оно имеет статистически значимую связь с экзаменационной оценкой.
Однако значение p для подготовительных экзаменов (0,5193) не меньше 0,05, что означает, что оно не имеет статистически значимой связи с экзаменационным баллом.
Мы можем решить удалить подготовительные экзамены из модели, поскольку они не являются статистически значимыми, и вместо этого выполнитьпростую линейную регрессию , используя часы обучения в качестве единственной переменной-предиктора.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как рассчитать корреляцию в SAS
Как выполнить простую линейную регрессию в SAS
Как выполнить односторонний ANOVA в SAS