Что такое экономная модель?

Экономичная модель — это модель, которая достигает желаемого уровня точности с использованием как можно меньшего количества объясняющих переменных .

Обоснование этого типа модели проистекает из идеи бритвы Оккама (иногда называемой «принципом бережливости»), которая гласит, что самое простое объяснение, скорее всего, является правильным.

Применительно к статистике модель с небольшим количеством параметров, но обеспечивающая удовлетворительный уровень согласия, должна быть предпочтительнее модели, имеющей множество параметров и обеспечивающей лишь немного более высокий уровень качества соответствия.

Этому есть две причины:

1. Экономичные модели легче интерпретировать и понимать. Модели с меньшим количеством параметров легче понять и объяснить.

2. Экономные модели, как правило, обладают большей прогностической способностью. Модели с меньшим количеством параметров, как правило, работают лучше при применении к новым данным.

Рассмотрим следующие два примера, чтобы проиллюстрировать эти идеи.

Пример 1: экономные модели = простая интерпретация

Предположим, мы хотим построить модель, используя набор независимых переменных, связанных с недвижимостью, для прогнозирования цен на жилье. Рассмотрим следующие две модели вместе с их скорректированным R-квадратом:

Модель 1:

Уравнение: Цена дома = 8 830 + 81 * (кв. Футов)
Скорректированный R 2 : 0,7734

Модель 2:

Уравнение: Цена дома = 8 921 + 77*(кв. фут) + 7*(кв. фут) 2 – 9*(возраст) + 600*(комнаты) + 38*(ванные)
Скорректированный R 2 : 0,7823

Первая модель имеет только одну независимую переменную и скорректированное значение R 2 , равное 0,7734, в то время как вторая модель имеет пять независимых переменных с немного более высоким скорректированным значением R 2 .

Основываясь на принципе экономии, мы бы предпочли использовать первую модель, потому что каждая модель имеет примерно одинаковую способность объяснять колебания цен на жилье, но первую модель гораздо легче понять и объяснить.

Например, в первой модели мы знаем, что увеличение площади дома на одну единицу связано с увеличением средней цены дома на 81 доллар. Это просто понять и объяснить.

Однако во втором примере оценки коэффициентов интерпретировать гораздо труднее. Например, одна дополнительная комната в доме связана с увеличением средней цены дома на 600 долларов, если предположить, что площадь, возраст дома и количество ванных комнат остаются постоянными. Это гораздо сложнее понять и объяснить.

Пример 2: экономные модели = лучшие прогнозы

Экономные модели также имеют тенденцию делать более точные прогнозы для новых наборов данных, потому что они с меньшей вероятностью перекроют исходный набор данных.

В общем, модели с большим количеством параметров обеспечивают более точное соответствие и более высокие значения R 2 по сравнению с моделями с меньшим количеством параметров. К сожалению, включение слишком большого количества параметров в модель может привести к тому, что модель будет соответствовать шуму (или «случайности») данных, а не истинной базовой взаимосвязи между независимыми переменными и переменными отклика.

Это означает, что очень сложная модель с большим количеством параметров, скорее всего, будет плохо работать с новым набором данных, которого она раньше не видела, по сравнению с более простой моделью с меньшим количеством параметров.

Как выбрать экономичную модель

Можно было бы посвятить теме выбора модели целый курс, но, по сути, выбор экономичной модели сводится к выбору модели, которая лучше всего работает по некоторым показателям.

Обычно используемые показатели, которые оценивают модели по их производительности в наборе обучающих данных, и их количество параметров включают:

1. Информационный критерий Акаике (AIC)

AIC модели можно рассчитать как:

AIC = -2/n * LL + 2 * k/n

куда:

n: количество наблюдений в обучающем наборе данных.
LL: логарифмическая вероятность модели в наборе обучающих данных.
k: Количество параметров в модели.

Используя этот метод, вы можете рассчитать AIC для каждой модели, а затем выбрать модель с наименьшим значением AIC в качестве лучшей модели.

Этот подход имеет тенденцию отдавать предпочтение более сложным моделям по сравнению со следующим методом, BIC.

2. Байесовский информационный критерий (БИК)

БИК модели можно рассчитать как:

БИК = -2 * LL + log(n) * k

куда:

n: количество наблюдений в обучающем наборе данных.
log: Натуральный логарифм (с основанием e)
LL: логарифмическая вероятность модели в наборе обучающих данных.
k: Количество параметров в модели.

Используя этот метод, вы можете рассчитать BIC каждой модели, а затем выбрать модель с наименьшим значением BIC в качестве лучшей модели.

Этот подход имеет тенденцию отдавать предпочтение моделям с меньшим количеством параметров по сравнению с методом AIC.

3. Минимальная длина описания (MDL)

MDL — это способ оценки моделей, пришедший из области теории информации. Его можно рассчитать как:

MDL = L(h) + L(D | h)

куда:

ч: Модель.
D: Прогнозы, сделанные моделью.
L(h): Количество битов, необходимых для представления модели.
L (D | h): количество битов, необходимых для представления прогнозов модели на обучающих данных.

Используя этот метод, вы можете рассчитать MDL каждой модели, а затем выбрать модель с наименьшим значением MDL в качестве лучшей модели.

В зависимости от типа проблемы, над которой вы работаете, один из этих методов — AIC, BIC или MDL — может быть предпочтительнее других как способ выбора экономичной модели.