Как выполнить простую линейную регрессию в SPSS


Простая линейная регрессия — это метод, который мы можем использовать, чтобы понять взаимосвязь между переменной-предиктором и переменной-ответом.

В этом руководстве объясняется, как выполнить простую линейную регрессию в SPSS.

Пример: простая линейная регрессия в SPSS

Предположим, у нас есть следующий набор данных, который показывает количество часов обучения и экзаменационные баллы, полученные 20 студентами:

Используйте следующие шаги, чтобы выполнить простую линейную регрессию в этом наборе данных, чтобы количественно определить взаимосвязь между часами обучения и баллами за экзамен:

Шаг 1: Визуализируйте данные.

Во-первых, мы создадим диаграмму рассеяния, чтобы визуализировать взаимосвязь между часами и счетом, чтобы убедиться, что взаимосвязь между двумя переменными кажется линейной. В противном случае простая линейная регрессия не будет подходящей техникой.

Перейдите на вкладку « Графики », затем нажмите « Построитель диаграмм »:

В меню Choose from нажмите и перетащите Scatter/Dot в главное окно редактирования. Затем перетащите переменные часы на ось X и оцените на ось Y.

После того, как вы нажмете OK , появится следующая диаграмма рассеяния:

Из графика видно, что существует положительная линейная зависимость между часами и счетом. Как правило, студенты, которые занимаются больше часов, как правило, получают более высокие баллы.

Поскольку между двумя переменными существует четкая линейная связь, мы приступим к подгонке простой модели линейной регрессии к набору данных.

Шаг 2: Подберите простую модель линейной регрессии.

Перейдите на вкладку « Анализ », затем « Регрессия », затем « Линейный »:

В новом всплывающем окне перетащите переменную оценку в поле с надписью «Зависимый» и перетащите часы в поле с надписью «Независимый». Затем нажмите ОК .

Шаг 3: Интерпретируйте результаты.

Как только вы нажмете OK , появятся результаты простой линейной регрессии. Первая таблица, которая нас интересует, называется « Сводка модели» :

Вот как интерпретировать наиболее важные числа в этой таблице:

  • Квадрат R: это доля дисперсии переменной отклика, которая может быть объяснена объясняющей переменной. В этом примере 50,6% различий в экзаменационных баллах можно объяснить часами обучения.
  • стандарт Ошибка оценки: стандартная ошибка — это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. В этом примере наблюдаемые значения отклоняются от линии регрессии в среднем на 5,861 единицы.

Следующая интересующая нас таблица называется « Коэффициенты» :

Вот как интерпретировать наиболее важные числа в этой таблице:

  • Нестандартизированный B (константа) : это говорит нам среднее значение переменной ответа, когда переменная-предиктор равна нулю. В этом примере средний экзаменационный балл составляет 73,662 , когда количество часов обучения равно нулю.
  • Нестандартизированный B (часы): это говорит нам о среднем изменении переменной отклика, связанном с увеличением на одну единицу переменной предиктора. В этом примере каждый дополнительный час обучения связан с повышением экзаменационного балла в среднем на 3,342 .
  • Sig (часы): это p-значение, связанное со статистикой теста для часов. В этом случае, поскольку это значение меньше 0,05, мы можем сделать вывод, что предикторная переменная часов является статистически значимой.

Наконец, мы можем составить уравнение регрессии, используя значения констант и часов.В этом случае уравнение будет таким:

Расчетный балл за экзамен = 73,662 + 3,342*(часы)

Мы можем использовать это уравнение, чтобы найти приблизительную оценку экзамена для учащегося на основе количества часов, которые он проучился. Например, студент, который занимается 3 часа, должен получить экзаменационный балл 83,688:

Расчетный балл за экзамен = 73,662 + 3,342*(3) = 83,688.

Шаг 4: Сообщите о результатах.

Наконец, мы хотим обобщить результаты нашей простой линейной регрессии. Вот пример того, как это сделать:

Простая линейная регрессия была проведена для количественной оценки взаимосвязи между часами обучения и полученными баллами на экзаменах. Для анализа использовалась выборка из 20 студентов.
Результаты показали, что существует статистически значимая связь между часами обучения и экзаменационным баллом (t = 4,297, p <0,000), а количество часов обучения составляет 50,6% объясненной вариабельности экзаменационного балла.
Уравнение регрессии оказалось таким:
Расчетный балл за экзамен = 73,662 + 3,342*(часы)
Каждый дополнительный час обучения связан с увеличением экзаменационного балла в среднем на 3,342 .