Лучший выбор подмножества в машинном обучении (объяснение и примеры)


В области машинного обучения нас часто интересует построение моделей с использованием набора переменных-предикторов и переменной отклика.Наша цель — построить модель, которая может эффективно использовать переменные-предикторы для предсказания значения переменной отклика.

Учитывая набор из p общих переменных-предикторов, мы потенциально можем построить много моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как лучший выбор подмножества , и он работает следующим образом:

1. Пусть M 0 обозначает нулевую модель, не содержащую переменных-предикторов.

2. Для к = 1, 2, ... р:

  • Соответствуйте всем p C k моделям, которые содержат ровно k предикторов.
  • Выберите лучшую из этих моделей p C k и назовите ее M k.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.

3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .

Обратите внимание, что для набора p переменных-предикторов существует 2 p возможных моделей.

Пример выбора лучшего подмножества

Предположим, у нас есть набор данных с p = 3 переменными-предикторами и одной переменной ответа, y. Чтобы выполнить лучший выбор подмножества с этим набором данных, мы подогнали бы следующие модели 2 p = 2 3 = 8:

  • Модель без предикторов
  • Модель с предиктором x 1
  • Модель с предиктором x 2
  • Модель с предиктором x 3
  • Модель с предикторами x 1 , x 2
  • Модель с предикторами x 1 , x 3
  • Модель с предикторами x 2 , x 3
  • Модель с предикторами x 1 , x 2 , x 3

Затем мы выбираем модель с наибольшим значением R 2 среди каждого набора моделей с k предикторами. Например, мы можем выбрать:

  • Модель без предикторов
  • Модель с предиктором x 2
  • Модель с предикторами x 1 , x 2
  • Модель с предикторами x 1 , x 2 , x 3

Затем мы проводим перекрестную проверку и выбираем наилучшую модель, которая приводит к наименьшей ошибке предсказания, Cp, BIC, AIC или скорректированному R 2 .

Например, мы могли бы в конечном итоге выбрать следующую модель как «лучшую» модель, потому что она дала наименьшую ошибку прогнозирования с перекрестной проверкой:

  • Модель с предикторами x 1 , x 2

Критерии выбора «лучшей» модели

Последний шаг выбора наилучшего подмножества включает в себя выбор модели с наименьшей ошибкой предсказания, наименьшим Cp, наименьшим BIC, наименьшим AIC или самым высоким скорректированным R 2 .

Вот формулы, используемые для расчета каждой из этих метрик:

Cp: (RSS+2dσ̂)/n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

БИК: (RSS+log(n)dσ̂ 2 ) / n

Скорректированный R 2 : 1 – ((RSS/(nd-1))/(TSS/(n-1))

куда:

  • d: количество предикторов
  • n: Всего наблюдений
  • σ̂: оценка дисперсии ошибки, связанной с каждым измерением отклика в регрессионной модели.
  • RSS: Остаточная сумма квадратов регрессионной модели
  • TSS: общая сумма квадратов регрессионной модели.

Плюсы и минусы выбора лучшего подмножества

Лучший выбор подмножества предлагает следующие плюсы:

  • Это простой подход к пониманию и интерпретации.
  • Это позволяет нам определить наилучшую возможную модель, поскольку мы рассматриваем все комбинации переменных-предикторов.

Однако этот метод имеет следующие недостатки:

  • Это может быть вычислительно интенсивным. Для набора p предикторов существует 2 p возможных моделей. Например, при наличии 10 переменных-предикторов необходимо рассмотреть 2 ·10 = 1000 возможных моделей.
  • Поскольку он рассматривает такое большое количество моделей, он потенциально может найти модель, которая хорошо работает на обучающих данных, но не на будущих данных. Это может привести к переоснащению .

Вывод

Хотя выбор наилучшего подмножества прост в реализации и понимании, он может оказаться неосуществимым, если вы работаете с набором данных с большим количеством предикторов, и это потенциально может привести к переоснащению.

Альтернативой этому методу является пошаговый отбор , который более эффективен в вычислительном отношении.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.