Как делать прогнозы с помощью линейной регрессии


Линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной- откликом .

Одной из наиболее распространенных причин подбора регрессионной модели является использование модели для прогнозирования значений новых наблюдений.

Мы используем следующие шаги, чтобы делать прогнозы с помощью регрессионной модели:

  • Шаг 1: Соберите данные.
  • Шаг 2: Подберите регрессионную модель к данным.
  • Шаг 3: Убедитесь, что модель хорошо соответствует данным.
  • Шаг 4: Используйте подобранное уравнение регрессии, чтобы предсказать значения новых наблюдений.

В следующих примерах показано, как использовать модели регрессии для прогнозирования.

Пример 1. Делайте прогнозы с помощью простой модели линейной регрессии

Предположим, врач собирает данные о росте (в дюймах) и весе (в фунтах) 50 пациентов.

Затем она подбирает простую модель линейной регрессии, используя «вес» в качестве переменной-предиктора и «рост» в качестве переменной-отклика.

Подобранное уравнение регрессии выглядит следующим образом:

Рост = 32,7830 + 0,2001*(вес)

После проверки того, что предположения модели линейной регрессии выполняются, врач делает вывод, что модель хорошо соответствует данным.

Затем он может использовать модель для прогнозирования роста новых пациентов на основе их веса.

Например, предположим, что новый пациент весит 170 фунтов. Используя модель, мы предсказываем, что этот пациент будет иметь рост 66,8 дюйма:

Высота = 32,7830 + 0,2001 * (170) = 66,8 дюйма .

Пример 2. Делайте прогнозы с помощью модели множественной линейной регрессии

Предположим, экономист собирает данные об общем количестве лет обучения, отработанных часах в неделю и годовом доходе 30 человек.

Затем он подбирает модель множественной линейной регрессии, используя «общее количество лет обучения» и «отработанное количество часов в неделю» в качестве переменной-предиктора и «годовой доход» в качестве переменной-ответа.

Подобранное уравнение регрессии выглядит следующим образом:

Доход = 1 342,29 + 3 324,33*(годы обучения) + 765,88*(отработанные часы в неделю)

После проверки того, что предположения модели линейной регрессии выполняются, экономист приходит к выводу, что модель хорошо соответствует данным.

Затем он может использовать модель для прогнозирования годового дохода нового человека на основе их общего количества лет обучения и отработанных часов в неделю.

Например, предположим, что новый человек имеет 16 лет общего образования и работает в среднем 40 часов в неделю. Используя модель, мы можем предсказать, что этот человек будет иметь годовой доход в размере 85 166,77 долларов США:

Доход = 1 342,29 + 3 324,33 * (16) + 765,88 * (45) = 85 166,77 долларов США.

Об использовании доверительных интервалов

При использовании регрессионной модели для прогнозирования новых наблюдений значение, предсказанное регрессионной моделью, называется точечной оценкой .

Хотя точечная оценка представляет собой наше наилучшее предположение о значении нового наблюдения, маловероятно, что оно будет точно соответствовать значению нового наблюдения.

Итак, чтобы зафиксировать эту неопределенность, мы можем создать доверительный интервал — диапазон значений, который может содержать параметр генеральной совокупности с определенным уровнем достоверности.

Например, вместо того, чтобы предсказывать, что новый человек будет ростом 66,8 дюйма, мы можем создать следующий доверительный интервал:

95% доверительный интервал = [64,8 дюйма, 68,8 дюйма]

Мы бы интерпретировали этот интервал как означающий, что мы на 95% уверены, что истинный рост этого человека составляет от 64,8 до 68,8 дюймов.

Предостережения относительно предсказаний

Имейте в виду следующее при использовании регрессионной модели для прогнозирования:

1. Используйте модель только для прогнозов в пределах диапазона данных, используемых для оценки регрессионной модели.

Например, предположим, что мы подогнали регрессионную модель, используя предикторную переменную «вес» и вес людей в выборке, которую мы использовали для оценки модели, в диапазоне от 120 до 180 фунтов.

Было бы недопустимо использовать модель для оценки роста человека весом 200 фунтов, потому что он выходит за пределы диапазона предикторной переменной, которую мы использовали для оценки модели.

Вполне возможно, что соотношение между весом и ростом отличается за пределами диапазона от 120 до 180 фунтов, поэтому мы не должны использовать модель для оценки роста человека, который весит 200 фунтов.

2. Используйте модель только для прогнозирования выбранной вами совокупности.

Например, предположим, что экономист берет выборку из всех жителей определенного города.

Мы должны использовать подобранную регрессионную модель только для прогнозирования годового дохода людей в этом городе, поскольку вся выборка, которая использовалась для подбора модели, проживала в этом городе.

Дополнительные ресурсы

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Введение в доверительные интервалы
Четыре допущения линейной регрессии

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.