Лучший выбор подмножества в машинном обучении (объяснение и примеры)


В области машинного обучения нас часто интересует построение моделей с использованием набора переменных-предикторов и переменной отклика.Наша цель — построить модель, которая может эффективно использовать переменные-предикторы для предсказания значения переменной отклика.

Учитывая набор из p общих переменных-предикторов, мы потенциально можем построить много моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как лучший выбор подмножества , и он работает следующим образом:

1. Пусть M 0 обозначает нулевую модель, не содержащую переменных-предикторов.

2. Для к = 1, 2, ... р:

  • Соответствуйте всем p C k моделям, которые содержат ровно k предикторов.
  • Выберите лучшую из этих моделей p C k и назовите ее M k.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.

3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .

Обратите внимание, что для набора p переменных-предикторов существует 2 p возможных моделей.

Пример выбора лучшего подмножества

Предположим, у нас есть набор данных с p = 3 переменными-предикторами и одной переменной ответа, y. Чтобы выполнить лучший выбор подмножества с этим набором данных, мы подогнали бы следующие модели 2 p = 2 3 = 8:

  • Модель без предикторов
  • Модель с предиктором x 1
  • Модель с предиктором x 2
  • Модель с предиктором x 3
  • Модель с предикторами x 1 , x 2
  • Модель с предикторами x 1 , x 3
  • Модель с предикторами x 2 , x 3
  • Модель с предикторами x 1 , x 2 , x 3

Затем мы выбираем модель с наибольшим значением R 2 среди каждого набора моделей с k предикторами. Например, мы можем выбрать:

  • Модель без предикторов
  • Модель с предиктором x 2
  • Модель с предикторами x 1 , x 2
  • Модель с предикторами x 1 , x 2 , x 3

Затем мы проводим перекрестную проверку и выбираем наилучшую модель, которая приводит к наименьшей ошибке предсказания, Cp, BIC, AIC или скорректированному R 2 .

Например, мы могли бы в конечном итоге выбрать следующую модель как «лучшую» модель, потому что она дала наименьшую ошибку прогнозирования с перекрестной проверкой:

  • Модель с предикторами x 1 , x 2

Критерии выбора «лучшей» модели

Последний шаг выбора наилучшего подмножества включает в себя выбор модели с наименьшей ошибкой предсказания, наименьшим Cp, наименьшим BIC, наименьшим AIC или самым высоким скорректированным R 2 .

Вот формулы, используемые для расчета каждой из этих метрик:

Cp: (RSS+2dσ̂)/n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

БИК: (RSS+log(n)dσ̂ 2 ) / n

Скорректированный R 2 : 1 – ((RSS/(nd-1))/(TSS/(n-1))

куда:

  • d: количество предикторов
  • n: Всего наблюдений
  • σ̂: оценка дисперсии ошибки, связанной с каждым измерением отклика в регрессионной модели.
  • RSS: Остаточная сумма квадратов регрессионной модели
  • TSS: общая сумма квадратов регрессионной модели.

Плюсы и минусы выбора лучшего подмножества

Лучший выбор подмножества предлагает следующие плюсы:

  • Это простой подход к пониманию и интерпретации.
  • Это позволяет нам определить наилучшую возможную модель, поскольку мы рассматриваем все комбинации переменных-предикторов.

Однако этот метод имеет следующие недостатки:

  • Это может быть вычислительно интенсивным. Для набора p предикторов существует 2 p возможных моделей. Например, при наличии 10 переменных-предикторов необходимо рассмотреть 2 ·10 = 1000 возможных моделей.
  • Поскольку он рассматривает такое большое количество моделей, он потенциально может найти модель, которая хорошо работает на обучающих данных, но не на будущих данных. Это может привести к переоснащению .

Вывод

Хотя выбор наилучшего подмножества прост в реализации и понимании, он может оказаться неосуществимым, если вы работаете с набором данных с большим количеством предикторов, и это потенциально может привести к переоснащению.

Альтернативой этому методу является пошаговый отбор , который более эффективен в вычислительном отношении.