Вывод против предсказания: в чем разница?

Часто в области статистики мы заинтересованы в использовании данных по одной из двух причин:

(1) Вывод: мы хотим понять природу взаимосвязи между переменными-предикторами и переменной- ответом в существующем наборе данных.

(2) Прогноз: мы хотим использовать существующий набор данных для построения модели, которая предсказывает значение переменной отклика нового наблюдения.

Например, предположим, что у нас есть следующий набор данных, содержащий информацию о домах:

Пример вывода:

Предположим, мы строим модель множественной линейной регрессии, используя квадратные футы, количество спален и количество ванных комнат в качестве переменных-предикторов и цену в качестве переменной отклика.

Затем мы могли бы использовать коэффициенты регрессии, чтобы понять среднее изменение цены, связанное с изменением на одну единицу каждой из переменных-предикторов.

Например, мы могли бы понять, насколько меняется цена (в среднем) с каждой дополнительной спальней, каждой дополнительной ванной комнатой и каждым дополнительным квадратным футом.

Пример предсказания:

Мы могли бы построить ту же модель множественной линейной регрессии и использовать ее, чтобы предсказать, сколько будет стоить новый дом, исходя из его площади, количества спален и ванных комнат.

Например, мы можем использовать модель для прогнозирования цены нового дома с 3 спальнями, 3 ванными комнатами и площадью 2000 квадратных футов.

Затем мы могли бы сравнить наш прогноз с фактической ценой листинга и оценить, кажется ли дом недооцененным или переоцененным.

Следующие примеры иллюстрируют разницу между выводом и предсказанием в разных сценариях:

Пример 1. Вывод и предсказание в спорте

Предположим, у нас есть следующий набор данных, содержащий информацию о профессиональных баскетбольных командах:

Пример вывода:

Предположим, мы строим модель множественной линейной регрессии, используя очки, подборы и передачи в качестве переменных-предикторов и победы в качестве переменной отклика.

Затем мы могли бы использовать модель, чтобы понять, насколько количество побед меняется (в среднем) с каждым дополнительным очком, подбором и передачей.

Пример предсказания:

Мы могли бы построить ту же модель множественной линейной регрессии и использовать ее, чтобы предсказать, сколько побед будет у команды, исходя из количества очков, подборов и передач.

Например, мы могли бы использовать модель, чтобы предсказать количество побед, которое будет у команды с 90 очками, 40 подборами и 30 передачами.

Пример 2. Вывод против предсказания в бизнесе

Предположим, у нас есть следующий набор данных, который содержит информацию о годовом доходе (в миллионах) для различных предприятий:

Пример вывода:

Предположим, мы строим модель множественной линейной регрессии, используя расходы на рекламу, количество сотрудников и общее количество приобретений в качестве переменных-предикторов и годовой доход в качестве переменной-ответа.

Затем мы могли бы использовать модель, чтобы понять, насколько общий годовой доход изменяется (в среднем) с каждым дополнительным долларом, потраченным на рекламу, каждым дополнительным сотрудником и каждым дополнительным приобретением.

Пример предсказания:

Мы могли бы построить ту же модель множественной линейной регрессии и использовать ее для прогнозирования годового дохода бизнеса на основе его общих маркетинговых расходов, количества сотрудников и общего количества приобретений.

Например, мы можем использовать модель для прогнозирования годового дохода компании, которая тратит 25 миллионов долларов на рекламу, имеет 40 сотрудников и имеет 2 приобретения.

Дополнительные ресурсы

В следующих руководствах содержится дополнительная информация о важных терминах статистики:

Описательная и логическая статистика: в чем разница?
Уровни измерения: номинальный, порядковый, интервальный и относительный
Качественные и количественные переменные: в чем разница?