Простое введение в бустинг в машинном обучении

Простое введение в бустинг в машинном обучении

Большинство контролируемых алгоритмов машинного обучения основаны на использовании одной прогностической модели, такой как линейная регрессия , логистическая регрессия , гребневая регрессия и т. д.

Однако такие методы, как бэггинг и случайный лес , строят множество различных моделей на основе повторяющихся выборок исходного набора данных с начальной загрузкой. Прогнозы по новым данным делаются путем усреднения прогнозов, сделанных отдельными моделями.

Эти методы, как правило, предлагают более высокую точность прогнозирования по сравнению с методами, которые используют только одну модель прогнозирования, поскольку они используют следующий процесс:

Другой метод, который имеет тенденцию предлагать еще большее улучшение точности прогнозирования, известен как бустинг .

Что такое бустинг?

Повышение — это метод, который можно использовать с любым типом модели, но чаще всего он используется с деревьями решений.

Идея повышения проста:

1. Сначала создайте слабую модель.

  • «Слабая» модель — это модель, частота ошибок которой лишь немного выше, чем у случайного предположения.
  • На практике это обычно дерево решений только с одним или двумя разбиениями.

2. Затем постройте еще одну слабую модель на основе остатков предыдущей модели.

  • На практике мы используем остатки предыдущей модели (т. е. ошибки в наших прогнозах), чтобы подобрать новую модель, которая немного улучшает общую частоту ошибок.

3. Продолжайте этот процесс, пока k-кратная перекрестная проверка не скажет нам остановиться.

Используя этот метод, мы можем начать со слабой модели и продолжать «повышать» ее производительность, последовательно создавая новые деревья, которые улучшают производительность предыдущего дерева, пока мы не получим окончательную модель с высокой точностью прогнозирования.

Ускорение машинного обучения

Почему повышение работает?

Оказывается, бустинг способен создавать одни из самых мощных моделей во всем машинном обучении.

Во многих отраслях форсированные модели используются в качестве серийных моделей, потому что они, как правило, превосходят все остальные модели.

Причина, по которой бустинг-модели работают так хорошо, сводится к пониманию простой идеи:

1. Во-первых, усиленные модели строят слабое дерево решений с низкой прогностической точностью. Говорят, что это дерево решений имеет низкую дисперсию и высокое смещение.

2. По мере того, как усиленные модели проходят через процесс последовательного улучшения предыдущих деревьев решений, общая модель способна медленно уменьшать систематическую ошибку на каждом этапе без значительного увеличения дисперсии.

3. Окончательная подобранная модель, как правило, имеет достаточно низкое смещение и низкую дисперсию, что приводит к модели, способной давать низкие коэффициенты ошибок при тестировании новых данных.

Плюсы и минусы бустинга

Очевидным преимуществом бустинга является то, что он может создавать модели с высокой точностью прогнозирования по сравнению почти со всеми другими типами моделей.

Одним из потенциальных недостатков является то, что подогнанную усиленную модель очень трудно интерпретировать. Хотя он может предложить огромные возможности для прогнозирования значений отклика новых данных, трудно объяснить точный процесс, который он использует для этого.

На практике большинство специалистов по обработке и анализу данных и специалистов по машинному обучению строят форсированные модели, потому что хотят иметь возможность точно предсказывать значения отклика новых данных. Таким образом, тот факт, что усиленные модели трудно интерпретировать, обычно не является проблемой.

Буст на практике

На практике существует много типов алгоритмов, которые используются для бустинга, в том числе:

В зависимости от размера вашего набора данных и вычислительной мощности вашего компьютера один из этих методов может быть предпочтительнее другого.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.