В области машинного обучения нас часто интересует построение моделей с использованием набора переменных-предикторов и переменной отклика.Наша цель — построить модель, которая может эффективно использовать переменные-предикторы для предсказания значения переменной отклика.
Учитывая набор из p общих переменных-предикторов, мы потенциально можем построить много моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как лучший выбор подмножества , и он работает следующим образом:
1. Пусть M 0 обозначает нулевую модель, не содержащую переменных-предикторов.
2. Для к = 1, 2, ... р:
- Соответствуйте всем p C k моделям, которые содержат ровно k предикторов.
- Выберите лучшую из этих моделей p C k и назовите ее M k.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.
3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .
Обратите внимание, что для набора p переменных-предикторов существует 2 p возможных моделей.
Пример выбора лучшего подмножества
Предположим, у нас есть набор данных с p = 3 переменными-предикторами и одной переменной ответа, y. Чтобы выполнить лучший выбор подмножества с этим набором данных, мы подогнали бы следующие модели 2 p = 2 3 = 8:
- Модель без предикторов
- Модель с предиктором x 1
- Модель с предиктором x 2
- Модель с предиктором x 3
- Модель с предикторами x 1 , x 2
- Модель с предикторами x 1 , x 3
- Модель с предикторами x 2 , x 3
- Модель с предикторами x 1 , x 2 , x 3
Затем мы выбираем модель с наибольшим значением R 2 среди каждого набора моделей с k предикторами. Например, мы можем выбрать:
- Модель без предикторов
- Модель с предиктором x 2
- Модель с предикторами x 1 , x 2
- Модель с предикторами x 1 , x 2 , x 3
Затем мы проводим перекрестную проверку и выбираем наилучшую модель, которая приводит к наименьшей ошибке предсказания, Cp, BIC, AIC или скорректированному R 2 .
Например, мы могли бы в конечном итоге выбрать следующую модель как «лучшую» модель, потому что она дала наименьшую ошибку прогнозирования с перекрестной проверкой:
- Модель с предикторами x 1 , x 2
Критерии выбора «лучшей» модели
Последний шаг выбора наилучшего подмножества включает в себя выбор модели с наименьшей ошибкой предсказания, наименьшим Cp, наименьшим BIC, наименьшим AIC или самым высоким скорректированным R 2 .
Вот формулы, используемые для расчета каждой из этих метрик:
Cp: (RSS+2dσ̂)/n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
БИК: (RSS+log(n)dσ̂ 2 ) / n
Скорректированный R 2 : 1 – ((RSS/(nd-1))/(TSS/(n-1))
куда:
- d: количество предикторов
- n: Всего наблюдений
- σ̂: оценка дисперсии ошибки, связанной с каждым измерением отклика в регрессионной модели.
- RSS: Остаточная сумма квадратов регрессионной модели
- TSS: общая сумма квадратов регрессионной модели.
Плюсы и минусы выбора лучшего подмножества
Лучший выбор подмножества предлагает следующие плюсы:
- Это простой подход к пониманию и интерпретации.
- Это позволяет нам определить наилучшую возможную модель, поскольку мы рассматриваем все комбинации переменных-предикторов.
Однако этот метод имеет следующие недостатки:
- Это может быть вычислительно интенсивным. Для набора p предикторов существует 2 p возможных моделей. Например, при наличии 10 переменных-предикторов необходимо рассмотреть 2 ·10 = 1000 возможных моделей.
- Поскольку он рассматривает такое большое количество моделей, он потенциально может найти модель, которая хорошо работает на обучающих данных, но не на будущих данных. Это может привести к переоснащению .
Вывод
Хотя выбор наилучшего подмножества прост в реализации и понимании, он может оказаться неосуществимым, если вы работаете с набором данных с большим количеством предикторов, и это потенциально может привести к переоснащению.
Альтернативой этому методу является пошаговый отбор , который более эффективен в вычислительном отношении.