Регрессия против классификации: в чем разница?

Алгоритмы машинного обучения можно разделить на два различных типа: алгоритмы обучения с учителем и без учителя .

Алгоритмы обучения с учителем можно разделить на два типа:

1. Регрессия: переменная отклика непрерывна.

Масса
Высота
Цена
Время
Всего единиц

В каждом случае регрессионная модель стремится предсказать непрерывную величину.

Пример регрессии:

Предположим, у нас есть набор данных, содержащий три переменные для 100 разных домов: площадь в квадратных метрах, количество ванных комнат и цена продажи.

Мы могли бы подобрать регрессионную модель, в которой в качестве объясняющих переменных используются квадратные метры и количество ванных комнат, а в качестве ответной переменной — цена продажи.

Затем мы могли бы использовать эту модель для прогнозирования продажной цены дома на основе его площади в квадратных футах и количества ванных комнат.

Это пример регрессионной модели, поскольку переменная отклика (цена продажи) непрерывна.

Наиболее распространенным способом измерения точности регрессионной модели является вычисление среднеквадратичной ошибки (RMSE), метрики, которая сообщает нам, насколько в среднем наши прогнозируемые значения отличаются от наших наблюдаемых значений в модели. Он рассчитывается как:

СКО = √ Σ(P i – O i ) 2 / n

куда:

Σ — причудливый символ, означающий «сумма».
P i - прогнозируемое значение для i -го наблюдения
O i - наблюдаемое значение для i -го наблюдения
n - размер выборки

Чем меньше RMSE, тем лучше регрессионная модель может соответствовать данным.

2. Классификация: переменная ответа является категориальной.

Например, переменная ответа может принимать следующие значения:

Мужчина или женщина
Пройдено или не пройдено
Низкий, средний или высокий

В каждом случае модель классификации пытается предсказать некоторую метку класса.

Пример классификации:

Предположим, у нас есть набор данных, содержащий три переменные для 100 разных баскетболистов из колледжа: среднее количество очков за игру, уровень дивизиона и то, попали ли они в НБА.

Мы могли бы подобрать классификационную модель, которая использует среднее количество очков за игру и уровень дивизиона в качестве объясняющих переменных, а «черновик» — в качестве переменной ответа.

Затем мы могли бы использовать эту модель, чтобы предсказать, будет ли данный игрок выбран в НБА, на основе их среднего количества очков за игру и уровня дивизиона.

Это пример модели классификации, поскольку переменная ответа («черновик») является категориальной. То есть он может принимать значения только в двух разных категориях: «Черновик» или «Не черновик».

Самый распространенный способ измерить точность модели классификации — просто вычислить процент правильных классификаций, которые делает модель:

Точность = классификации исправлений / общее количество попыток классификации * 100%

Например, если модель правильно определяет, будет ли игрок выбран в НБА, 88 раз из 100 возможных, то точность модели будет следующей:

Точность = (88/100) * 100% = 88%

Чем выше точность, тем лучше модель классификации способна предсказывать результаты.

Сходства между регрессией и классификацией

Алгоритмы регрессии и классификации схожи в следующем:

Оба являются алгоритмами обучения с учителем, т.е. они оба включают переменную отклика.
Оба используют одну или несколько независимых переменных для построения моделей, чтобы предсказать некоторую реакцию.
И то, и другое можно использовать для понимания того, как изменения значений независимых переменных влияют на значения переменной отклика.

Различия между регрессией и классификацией

Алгоритмы регрессии и классификации различаются по следующим параметрам:

Алгоритмы регрессии стремятся предсказать непрерывную величину, а алгоритмы классификации стремятся предсказать метку класса.
Способы измерения точности регрессионных и классификационных моделей различаются.

Преобразование регрессии в классификацию

Стоит отметить, что проблему регрессии можно преобразовать в проблему классификации, просто разбивая переменную ответа на сегменты.

Например, предположим, что у нас есть набор данных, который содержит три переменные: площадь, количество ванных комнат и цену продажи.

Мы могли бы построить регрессионную модель, используя квадратные метры и количество ванных комнат, чтобы предсказать цену продажи.

Однако мы могли бы разделить цену продажи на три разных класса:

$80 000 – $160 000: "Низкая цена продажи"
$161 000 – $240 000: "Средняя цена продажи"
$241 000 – $320 000: "Высокая цена продажи"

Затем мы могли бы использовать квадратные метры и количество ванных комнат в качестве независимых переменных, чтобы предсказать, к какому классу (низкому, среднему или высокому) попадет данная цена продажи дома.

Это будет пример модели классификации, поскольку мы пытаемся поместить каждый дом в класс.

Резюме

В следующей таблице приведены сходства и различия между алгоритмами регрессии и классификации: