Лучший выбор подмножества в машинном обучении (объяснение и примеры)

В области машинного обучения нас часто интересует построение моделей с использованием набора переменных-предикторов и переменной отклика.Наша цель — построить модель, которая может эффективно использовать переменные-предикторы для предсказания значения переменной отклика.

Учитывая набор из p общих переменных-предикторов, мы потенциально можем построить много моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как лучший выбор подмножества , и он работает следующим образом:

1. Пусть M 0 обозначает нулевую модель, не содержащую переменных-предикторов.

2. Для к = 1, 2, ... р:

Соответствуйте всем p C k моделям, которые содержат ровно k предикторов.
Выберите лучшую из этих моделей p C k и назовите ее M k.Определить «лучшую» как модель с самым высоким R 2 или, что эквивалентно, с самым низким RSS.

3. Выбрать единственную лучшую модель из числа M 0 …M p с использованием ошибки прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированного R 2 .

Обратите внимание, что для набора p переменных-предикторов существует 2 p возможных моделей.

Пример выбора лучшего подмножества

Предположим, у нас есть набор данных с p = 3 переменными-предикторами и одной переменной ответа, y. Чтобы выполнить лучший выбор подмножества с этим набором данных, мы подогнали бы следующие модели 2 p = 2 3 = 8:

Модель без предикторов
Модель с предиктором x 1
Модель с предиктором x 2
Модель с предиктором x 3
Модель с предикторами x 1 , x 2
Модель с предикторами x 1 , x 3
Модель с предикторами x 2 , x 3
Модель с предикторами x 1 , x 2 , x 3

Затем мы выбираем модель с наибольшим значением R 2 среди каждого набора моделей с k предикторами. Например, мы можем выбрать:

Модель без предикторов
Модель с предиктором x 2
Модель с предикторами x 1 , x 2
Модель с предикторами x 1 , x 2 , x 3

Затем мы проводим перекрестную проверку и выбираем наилучшую модель, которая приводит к наименьшей ошибке предсказания, Cp, BIC, AIC или скорректированному R 2 .

Например, мы могли бы в конечном итоге выбрать следующую модель как «лучшую» модель, потому что она дала наименьшую ошибку прогнозирования с перекрестной проверкой:

Модель с предикторами x 1 , x 2

Критерии выбора «лучшей» модели

Последний шаг выбора наилучшего подмножества включает в себя выбор модели с наименьшей ошибкой предсказания, наименьшим Cp, наименьшим BIC, наименьшим AIC или самым высоким скорректированным R 2 .

Вот формулы, используемые для расчета каждой из этих метрик:

Cp: (RSS+2dσ̂)/n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

БИК: (RSS+log(n)dσ̂ 2 ) / n

Скорректированный R 2 : 1 – ((RSS/(nd-1))/(TSS/(n-1))

куда:

d: количество предикторов
n: Всего наблюдений
σ̂: оценка дисперсии ошибки, связанной с каждым измерением отклика в регрессионной модели.
RSS: Остаточная сумма квадратов регрессионной модели
TSS: общая сумма квадратов регрессионной модели.

Плюсы и минусы выбора лучшего подмножества

Лучший выбор подмножества предлагает следующие плюсы:

Это простой подход к пониманию и интерпретации.
Это позволяет нам определить наилучшую возможную модель, поскольку мы рассматриваем все комбинации переменных-предикторов.

Однако этот метод имеет следующие недостатки:

Это может быть вычислительно интенсивным. Для набора p предикторов существует 2 p возможных моделей. Например, при наличии 10 переменных-предикторов необходимо рассмотреть 2 ·10 = 1000 возможных моделей.
Поскольку он рассматривает такое большое количество моделей, он потенциально может найти модель, которая хорошо работает на обучающих данных, но не на будущих данных. Это может привести к переоснащению .

Вывод

Хотя выбор наилучшего подмножества прост в реализации и понимании, он может оказаться неосуществимым, если вы работаете с набором данных с большим количеством предикторов, и это потенциально может привести к переоснащению.

Альтернативой этому методу является пошаговый отбор , который более эффективен в вычислительном отношении.

Лучший выбор подмножества в машинном обучении (объяснение и примеры)

Пример выбора лучшего подмножества

Критерии выбора «лучшей» модели

Плюсы и минусы выбора лучшего подмножества

Вывод

Редакция Кодкампа