Как выполнить множественную линейную регрессию в SAS

Как выполнить множественную линейную регрессию в SAS

Множественная линейная регрессия — это метод, который мы можем использовать для понимания взаимосвязи между двумя или более переменными-предикторами и переменной- откликом .

В этом руководстве объясняется, как выполнить множественную линейную регрессию в SAS.

Шаг 1: Создайте данные

Предположим, мы хотим подобрать модель множественной линейной регрессии, которая использует количество часов, потраченных на учебу, и количество сданных подготовительных экзаменов, чтобы предсказать окончательный балл студентов за экзамен:

Оценка за экзамен = β 0 + β 1 (часы) + β 2 (подготовительные экзамены)

Во-первых, мы будем использовать следующий код для создания набора данных, содержащего эту информацию для 20 студентов:

/\*create dataset\*/
data exam_data;
 input hours prep_exams score;
 datalines ;
1 1 76
2 3 78
2 3 85
4 5 88
2 2 72
1 2 69
5 1 94
4 1 94
2 0 88
4 3 92
4 4 90
3 3 75
6 2 96
5 4 90
3 4 82
4 4 85
6 5 99
2 1 83
1 0 62
2 1 76
;
run ;

Шаг 2: выполните множественную линейную регрессию

Далее мы будем использовать proc reg для подбора модели множественной линейной регрессии к данным:

/\*fit multiple linear regression model\*/
proc reg data =exam_data;
 model score = hours prep_exams;
run ; 

Вот как интерпретировать наиболее релевантные числа в каждой таблице:

Таблица анализа дисперсии:

Общее F-значение регрессионной модели равно 23,46 , а соответствующее p-значение <0,0001 .

Поскольку это p-значение меньше 0,05, мы заключаем, что регрессионная модель в целом является статистически значимой.

Таблица соответствия модели:

Значение R-Square говорит нам о процентной вариации экзаменационных баллов, которую можно объяснить количеством часов обучения и количеством сданных подготовительных экзаменов.

В общем, чем больше значение R-квадрата регрессионной модели, тем лучше переменные-предикторы способны предсказать значение переменной отклика.

В этом случае 73,4% различий в экзаменационных баллах можно объяснить количеством часов обучения и количеством сданных подготовительных экзаменов.

Значение Root MSE также полезно знать. Это представляет собой среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии.

В этой регрессионной модели наблюдаемые значения отклоняются от линии регрессии в среднем на 5,3657 единиц.

Таблица оценок параметров:

Мы можем использовать оценочные значения параметров в этой таблице, чтобы написать подобранное уравнение регрессии:

Экзаменационный балл = 67,674 + 5,556*(часы) – 0,602*(подготовительные_экзамены)

Мы можем использовать это уравнение, чтобы найти приблизительную оценку экзамена для учащегося на основе количества часов, которые он проучился, и количества сданных им подготовительных экзаменов.

Например, студент, который занимается 3 часа и сдает 2 подготовительных экзамена, должен получить экзаменационный балл 83,1 :

Расчетный балл за экзамен = 67,674 + 5,556*(3) – 0,602*(2) = 83,1 .

Значение p для часов (<0,0001) меньше 0,05, что означает, что оно имеет статистически значимую связь с экзаменационной оценкой.

Однако значение p для подготовительных экзаменов (0,5193) не меньше 0,05, что означает, что оно не имеет статистически значимой связи с экзаменационным баллом.

Мы можем решить удалить подготовительные экзамены из модели, поскольку они не являются статистически значимыми, и вместо этого выполнитьпростую линейную регрессию , используя часы обучения в качестве единственной переменной-предиктора.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:

Как рассчитать корреляцию в SAS
Как выполнить простую линейную регрессию в SAS
Как выполнить односторонний ANOVA в SAS

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.