Что такое пошаговый отбор? (Объяснение и примеры)
В области машинного обучения наша цель — построить модель, которая может эффективно использовать набор переменных-предикторов для предсказания значения некоторой переменной отклика .
Учитывая набор из p общих переменных-предикторов, мы потенциально можем построить много моделей. Один метод, который мы можем использовать для выбора наилучшей модели, известен как лучший выбор подмножества , который пытается выбрать лучшую модель из всех возможных моделей, которые могут быть построены с набором предикторов.
К сожалению, этот метод имеет два недостатка:
- Это может быть вычислительно интенсивным. Для набора p предикторов существует 2 p возможных моделей. Например, при наличии 10 переменных-предикторов необходимо рассмотреть 2 ·10 = 1000 возможных моделей.
- Поскольку он рассматривает такое большое количество моделей, он потенциально может найти модель, которая хорошо работает на обучающих данных, но не на будущих данных. Это может привести к переоснащению .
Альтернатива выбору наилучшего подмножества известна как пошаговый отбор , при котором сравнивается гораздо более ограниченный набор моделей.
Существует два типа методов пошагового выбора: пошаговый выбор вперед и пошаговый выбор назад.
Пошаговый выбор вперед
Пошаговый выбор вперед работает следующим образом:
1. Пусть M 0 обозначает нулевую модель, не содержащую переменных-предикторов.
2. Для к = 0, 2, ... р-1:
- Соответствуйте всем моделям pk, которые увеличивают предикторы в M k с одной дополнительной переменной предиктора.
- Выберите лучшую из этих моделей pk и назовите ее M k+1.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.
3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .
Обратный пошаговый выбор
Пошаговое выделение назад работает следующим образом:
1. Пусть M p обозначает полную модель, содержащую все p переменных-предикторов.
2. Для к = р, р-1,... 1:
- Соответствуйте всем k моделям, которые содержат все, кроме одного из предикторов в M k , всего k-1 предикторных переменных.
- Выберите лучшую из этих k моделей и назовите ее M k-1.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.
3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .
Критерии выбора «лучшей» модели
Последний шаг как прямого, так и обратного пошагового выбора включает в себя выбор модели с наименьшей ошибкой предсказания, наименьшим Cp, наименьшим BIC, наименьшим AIC или наибольшим скорректированным R 2 .
Вот формулы, используемые для расчета каждой из этих метрик:
Cp: (RSS+2dσ̂)/n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
БИК: (RSS+log(n)dσ̂ 2 ) / n
Скорректированный R 2 : 1 – ((RSS/(nd-1))/(TSS/(n-1))
куда:
- d: количество предикторов
- n: Всего наблюдений
- σ̂: оценка дисперсии ошибки, связанной с каждым измерением отклика в регрессионной модели.
- RSS: Остаточная сумма квадратов регрессионной модели
- TSS: общая сумма квадратов регрессионной модели.
Плюсы и минусы поэтапного отбора
Пошаговый отбор дает следующие преимущества :
Это более эффективно с вычислительной точки зрения, чем выбор наилучшего подмножества. При заданных предикторных переменных p наилучший выбор подмножества должен соответствовать 2 p -моделям.
И наоборот, пошаговый отбор должен соответствовать только моделям 1+p(p+1)/2. Для p = 10 переменных-предикторов лучший выбор подмножества должен соответствовать 1000 моделям, в то время как пошаговый выбор должен соответствовать только 56 моделям.
Однако поэтапный отбор имеет следующий потенциальный недостаток:
Не гарантируется нахождение наилучшей возможной модели из всех 2 p потенциальных моделей.
Например, предположим, что у нас есть набор данных с p = 3 предикторами. Наилучшая возможная модель с одним предиктором может содержать x 1 , а наилучшая возможная модель с двумя предикторами может вместо этого содержать x 1 и x 2 .
В этом случае прямой пошаговый выбор не сможет выбрать наилучшую возможную модель с двумя предикторами, потому что M 1 будет содержать x 1 , поэтому M 2 также должен содержать x 1 вместе с некоторой другой переменной.