Линейная регрессия — это метод, который мы можем использовать для понимания взаимосвязи между одной или несколькими независимыми переменными и переменной отклика.
Когда мы выполняем линейную регрессию для набора данных, мы получаем уравнение регрессии, которое можно использовать для прогнозирования значений переменной отклика с учетом значений независимых переменных.
Затем мы можем измерить разницу между прогнозируемыми значениями и фактическими значениями, чтобы получить остатки для каждого прогноза. Это помогает нам понять, насколько хорошо наша регрессионная модель способна предсказывать значения отклика.
В этом руководстве объясняется, как получить прогнозируемые значения и остатки для регрессионной модели в Stata.
Пример. Как получить предсказанные значения и остатки
В этом примере мы будем использовать встроенный набор данных Stata с именем auto.Мы будем использовать мили на галлон и рабочий объем в качестве объясняющих переменных и цену в качестве переменной ответа.
Используйте следующие шаги для выполнения линейной регрессии и последующего получения прогнозируемых значений и остатков для модели регрессии.
Шаг 1: Загрузите и просмотрите данные.
Сначала мы загрузим данные с помощью следующей команды:
сисус авто
Далее мы получим краткую сводку данных, используя следующую команду:
подвести итог
Шаг 2: Подберите регрессионную модель.
Далее мы будем использовать следующую команду, чтобы соответствовать модели регрессии:
регресс цена миль на галлон смещение
Расчетное уравнение регрессии выглядит следующим образом:
расчетная цена = 6672,766 -121,1833*(миль на галлон) + 10,50885*(объем двигателя)
Шаг 3: Получите предсказанные значения.
Мы можем получить прогнозируемые значения, используя команду прогнозирования и сохранив эти значения в переменной с любым именем. В этом случае мы будем использовать имя pred_price :
предсказать пред_цену
Мы можем просматривать фактические цены и прогнозируемые цены рядом, используя команду списка.Всего имеется 74 предсказанных значения, но мы рассмотрим только первые 10 с помощью команды in 1/10 :
прейскурантная цена pred_price в 1/10
Шаг 4: Получите остатки.
Мы можем получить остатки каждого прогноза, используя команду остатка и сохранив эти значения в переменной с любым именем. В этом случае мы будем использовать имя resid_price :
прогнозировать resid_price, остатки
Мы можем просмотреть фактическую цену, прогнозируемую цену и остатки вместе, снова используя команду списка :
прейскурантная цена pred_price resid_price в 1/10
Шаг 5: Создайте график предсказанных значений и остатков.
Наконец, мы можем создать диаграмму рассеяния, чтобы визуализировать взаимосвязь между прогнозируемыми значениями и остатками:
разброс resid_price pred_price
Мы можем видеть, что в среднем остатки имеют тенденцию к увеличению по мере увеличения подогнанных значений. Это может быть признаком гетероскедастичности , когда разброс остатков не является постоянным на каждом уровне отклика.
Мы могли бы формально проверить гетероскедастичность, используя тест Бреуша-Пагана , и мы могли бы решить эту проблему, используя надежные стандартные ошибки .