Что такое пошаговый отбор? (Объяснение и примеры)


В области машинного обучения наша цель — построить модель, которая может эффективно использовать набор переменных-предикторов для предсказания значения некоторой переменной отклика .

Учитывая набор из p общих переменных-предикторов, мы потенциально можем построить много моделей. Один метод, который мы можем использовать для выбора наилучшей модели, известен как лучший выбор подмножества , который пытается выбрать лучшую модель из всех возможных моделей, которые могут быть построены с набором предикторов.

К сожалению, этот метод имеет два недостатка:

  • Это может быть вычислительно интенсивным. Для набора p предикторов существует 2 p возможных моделей. Например, при наличии 10 переменных-предикторов необходимо рассмотреть 2 ·10 = 1000 возможных моделей.
  • Поскольку он рассматривает такое большое количество моделей, он потенциально может найти модель, которая хорошо работает на обучающих данных, но не на будущих данных. Это может привести к переоснащению .

Альтернатива выбору наилучшего подмножества известна как пошаговый отбор , при котором сравнивается гораздо более ограниченный набор моделей.

Существует два типа методов пошагового выбора: пошаговый выбор вперед и пошаговый выбор назад.

Пошаговый выбор вперед

Пошаговый выбор вперед работает следующим образом:

1. Пусть M 0 обозначает нулевую модель, не содержащую переменных-предикторов.

2. Для к = 0, 2, ... р-1:

  • Соответствуйте всем моделям pk, которые увеличивают предикторы в M k с одной дополнительной переменной предиктора.
  • Выберите лучшую из этих моделей pk и назовите ее M k+1.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.

3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .

Обратный пошаговый выбор

Пошаговое выделение назад работает следующим образом:

1. Пусть M p обозначает полную модель, содержащую все p переменных-предикторов.

2. Для к = р, р-1,... 1:

  • Соответствуйте всем k моделям, которые содержат все, кроме одного из предикторов в M k , всего k-1 предикторных переменных.
  • Выберите лучшую из этих k моделей и назовите ее M k-1.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.

3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .

Критерии выбора «лучшей» модели

Последний шаг как прямого, так и обратного пошагового выбора включает в себя выбор модели с наименьшей ошибкой предсказания, наименьшим Cp, наименьшим BIC, наименьшим AIC или наибольшим скорректированным R 2 .

Вот формулы, используемые для расчета каждой из этих метрик:

Cp: (RSS+2dσ̂)/n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

БИК: (RSS+log(n)dσ̂ 2 ) / n

Скорректированный R 2 : 1 – ((RSS/(nd-1))/(TSS/(n-1))

куда:

  • d: количество предикторов
  • n: Всего наблюдений
  • σ̂: оценка дисперсии ошибки, связанной с каждым измерением отклика в регрессионной модели.
  • RSS: Остаточная сумма квадратов регрессионной модели
  • TSS: общая сумма квадратов регрессионной модели.

Плюсы и минусы поэтапного отбора

Пошаговый отбор дает следующие преимущества :

Это более эффективно с вычислительной точки зрения, чем выбор наилучшего подмножества. При заданных предикторных переменных p наилучший выбор подмножества должен соответствовать 2 p -моделям.

И наоборот, пошаговый отбор должен соответствовать только моделям 1+p(p+1)/2. Для p = 10 переменных-предикторов лучший выбор подмножества должен соответствовать 1000 моделям, в то время как пошаговый выбор должен соответствовать только 56 моделям.

Однако поэтапный отбор имеет следующий потенциальный недостаток:

Не гарантируется нахождение наилучшей возможной модели из всех 2 p потенциальных моделей.

Например, предположим, что у нас есть набор данных с p = 3 предикторами. Наилучшая возможная модель с одним предиктором может содержать x 1 , а наилучшая возможная модель с двумя предикторами может вместо этого содержать x 1 и x 2 .

В этом случае прямой пошаговый выбор не сможет выбрать наилучшую возможную модель с двумя предикторами, потому что M 1 будет содержать x 1 , поэтому M 2 также должен содержать x 1 вместе с некоторой другой переменной.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.