Введение в деревья классификации и регрессии


Когда взаимосвязь между набором переменных-предикторов и переменной отклика является линейной, такие методы, как множественная линейная регрессия , могут создавать точные прогностические модели.

Однако, когда взаимосвязь между набором предикторов и откликом сильно нелинейна и сложна, нелинейные методы могут работать лучше.

Одним из таких примеров нелинейного метода являются деревья классификации и регрессии , часто сокращенно CART .

Как следует из названия, модели CART используют набор переменных-предикторов для построения деревьев решений, которые предсказывают значение переменной отклика.

Например, предположим, что у нас есть набор данных, содержащий переменные-предикторы «Сыгранные годы» и « Среднее количество хоум-ранов » вместе с переменной-ответом « Годовая зарплата » для сотен профессиональных бейсболистов.

Вот как может выглядеть дерево регрессии для этого набора данных:

Способ интерпретации дерева следующий:

  • Прогнозируемая зарплата игроков, играющих менее 4,5 лет, составляет 225,8 тысяч долларов.
  • Прогнозируемая зарплата игроков со стажем игры более или равным 4,5 года и средним показателем хоумранов менее 16,5 имеет прогнозируемую зарплату в размере 577,6 тыс. долларов.
  • Прогнозируемая зарплата игроков с 4,5 годами игры и средним хоум-раном 16,5 или выше имеет прогнозируемую зарплату в размере 975,6 тыс. долларов.

Результаты этой модели интуитивно понятны: игроки с большим стажем и более средними хоум-ранами, как правило, получают более высокие зарплаты.

Затем мы можем использовать эту модель для прогнозирования зарплаты нового игрока.

Например, предположим, что данный игрок играет 8 лет и совершает в среднем 10 хоум-ранов в год. Согласно нашей модели, мы прогнозируем, что годовая зарплата этого игрока составит 577,6 тыс. долларов.

Пара замечаний по дереву:

  • Первая предикторная переменная в верхней части дерева является наиболее важной, т. е. наиболее влиятельной при прогнозировании значения переменной отклика. В этом случае сыгранные годы могут предсказать зарплату лучше, чем средний хоум -ран.
  • Области в нижней части дерева известны как конечные узлы.Это конкретное дерево имеет три конечных узла.

Шаги по созданию моделей CART

Мы можем использовать следующие шаги для построения модели CART для данного набора данных:

Шаг 1: Используйте рекурсивное двоичное разбиение, чтобы вырастить большое дерево на обучающих данных.

Во-первых, мы используем жадный алгоритм, известный как рекурсивное бинарное разбиение, чтобы вырастить дерево регрессии, используя следующий метод:

  • Рассмотрим все переменные-предикторы X 1 , X 2 , …, X p и все возможные значения точек отсечения для каждого из предикторов, затем выберем предиктор и точку отсечения так, чтобы результирующее дерево имело наименьшую RSS (остаточную стандартную ошибку) .
  • Для деревьев классификации мы выбираем предиктор и точку отсечения таким образом, чтобы результирующее дерево имело наименьшую частоту ошибочной классификации.
  • Повторите этот процесс, останавливаясь только тогда, когда каждый конечный узел имеет меньше некоторого минимального количества наблюдений.

Этот алгоритм является жадным , потому что на каждом шаге процесса построения дерева он определяет наилучшее разбиение, основываясь только на этом шаге, вместо того, чтобы заглядывать вперед и выбирать разбиение, которое приведет к лучшему общему дереву на каком-то будущем шаге.

Шаг 2: Примените сокращение сложности стоимости к большому дереву, чтобы получить последовательность лучших деревьев в зависимости от α.

После того, как мы вырастили большое дерево, нам нужно обрезать дерево, используя метод, известный как сокращение сложности стоимости, который работает следующим образом:

  • Для каждого возможного дерева с T концевыми узлами найдите дерево, которое минимизирует RSS + α|T|.
  • Обратите внимание, что по мере увеличения значения α деревья с большим количеством конечных узлов оштрафованы. Это гарантирует, что дерево не станет слишком сложным.

Результатом этого процесса является последовательность лучших деревьев для каждого значения α.

Шаг 3: Используйте k-кратную перекрестную проверку, чтобы выбрать α.

Как только мы нашли лучшее дерево для каждого значения α, мы можем применить k-кратную перекрестную проверку , чтобы выбрать значение α, которое минимизирует ошибку теста.

Шаг 4: Выберите окончательную модель.

Наконец, мы выбираем окончательную модель, соответствующую выбранному значению α.

Плюсы и минусы моделей CART

Модели CART предлагают следующие преимущества :

Однако модели CART имеют следующие недостатки:

  • Они, как правило, не обладают такой высокой точностью прогнозирования, как другие алгоритмы нелинейного машинного обучения. Однако, агрегируя множество деревьев решений с помощью таких методов, как бэггинг, бустинг и случайные леса, можно повысить точность их прогнозирования.

Связанный: Как подобрать деревья классификации и регрессии в R