Что такое пошаговый отбор? (Объяснение и примеры)

В области машинного обучения наша цель — построить модель, которая может эффективно использовать набор переменных-предикторов для предсказания значения некоторой переменной отклика .

Учитывая набор из p общих переменных-предикторов, мы потенциально можем построить много моделей. Один метод, который мы можем использовать для выбора наилучшей модели, известен как лучший выбор подмножества , который пытается выбрать лучшую модель из всех возможных моделей, которые могут быть построены с набором предикторов.

К сожалению, этот метод имеет два недостатка:

Это может быть вычислительно интенсивным. Для набора p предикторов существует 2 p возможных моделей. Например, при наличии 10 переменных-предикторов необходимо рассмотреть 2 ·10 = 1000 возможных моделей.
Поскольку он рассматривает такое большое количество моделей, он потенциально может найти модель, которая хорошо работает на обучающих данных, но не на будущих данных. Это может привести к переоснащению .

Альтернатива выбору наилучшего подмножества известна как пошаговый отбор , при котором сравнивается гораздо более ограниченный набор моделей.

Существует два типа методов пошагового выбора: пошаговый выбор вперед и пошаговый выбор назад.

Пошаговый выбор вперед

Пошаговый выбор вперед работает следующим образом:

1. Пусть M 0 обозначает нулевую модель, не содержащую переменных-предикторов.

2. Для к = 0, 2, ... р-1:

Соответствуйте всем моделям pk, которые увеличивают предикторы в M k с одной дополнительной переменной предиктора.
Выберите лучшую из этих моделей pk и назовите ее M k+1.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.

3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .

Обратный пошаговый выбор

Пошаговое выделение назад работает следующим образом:

1. Пусть M p обозначает полную модель, содержащую все p переменных-предикторов.

2. Для к = р, р-1,... 1:

Соответствуйте всем k моделям, которые содержат все, кроме одного из предикторов в M k , всего k-1 предикторных переменных.
Выберите лучшую из этих k моделей и назовите ее M k-1.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.

Критерии выбора «лучшей» модели

Последний шаг как прямого, так и обратного пошагового выбора включает в себя выбор модели с наименьшей ошибкой предсказания, наименьшим Cp, наименьшим BIC, наименьшим AIC или наибольшим скорректированным R 2 .

Вот формулы, используемые для расчета каждой из этих метрик:

Cp: (RSS+2dσ̂)/n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

БИК: (RSS+log(n)dσ̂ 2 ) / n

Скорректированный R 2 : 1 – ((RSS/(nd-1))/(TSS/(n-1))

куда:

d: количество предикторов
n: Всего наблюдений
σ̂: оценка дисперсии ошибки, связанной с каждым измерением отклика в регрессионной модели.
RSS: Остаточная сумма квадратов регрессионной модели
TSS: общая сумма квадратов регрессионной модели.

Плюсы и минусы поэтапного отбора

Пошаговый отбор дает следующие преимущества :

Это более эффективно с вычислительной точки зрения, чем выбор наилучшего подмножества. При заданных предикторных переменных p наилучший выбор подмножества должен соответствовать 2 p -моделям.

И наоборот, пошаговый отбор должен соответствовать только моделям 1+p(p+1)/2. Для p = 10 переменных-предикторов лучший выбор подмножества должен соответствовать 1000 моделям, в то время как пошаговый выбор должен соответствовать только 56 моделям.

Однако поэтапный отбор имеет следующий потенциальный недостаток:

Не гарантируется нахождение наилучшей возможной модели из всех 2 p потенциальных моделей.

Например, предположим, что у нас есть набор данных с p = 3 предикторами. Наилучшая возможная модель с одним предиктором может содержать x 1 , а наилучшая возможная модель с двумя предикторами может вместо этого содержать x 1 и x 2 .

В этом случае прямой пошаговый выбор не сможет выбрать наилучшую возможную модель с двумя предикторами, потому что M 1 будет содержать x 1 , поэтому M 2 также должен содержать x 1 вместе с некоторой другой переменной.