Алгоритмы машинного обучения можно разделить на два различных типа: алгоритмы обучения с учителем и без учителя .

Алгоритмы обучения с учителем можно разделить на два типа:
1. Регрессия: переменная отклика непрерывна.
Например, переменная ответа может быть:
- Масса
- Высота
- Цена
- Время
- Всего единиц
В каждом случае регрессионная модель стремится предсказать непрерывную величину.
Пример регрессии:
Предположим, у нас есть набор данных, содержащий три переменные для 100 разных домов: площадь в квадратных метрах, количество ванных комнат и цена продажи.
Мы могли бы подобрать регрессионную модель, в которой в качестве объясняющих переменных используются квадратные метры и количество ванных комнат, а в качестве ответной переменной — цена продажи.
Затем мы могли бы использовать эту модель для прогнозирования продажной цены дома на основе его площади в квадратных футах и количества ванных комнат.
Это пример регрессионной модели, поскольку переменная отклика (цена продажи) непрерывна.
Наиболее распространенным способом измерения точности регрессионной модели является вычисление среднеквадратичной ошибки (RMSE), метрики, которая сообщает нам, насколько в среднем наши прогнозируемые значения отличаются от наших наблюдаемых значений в модели. Он рассчитывается как:
СКО = √ Σ(P i – O i ) 2 / n
куда:
- Σ — причудливый символ, означающий «сумма».
- P i - прогнозируемое значение для i -го наблюдения
- O i - наблюдаемое значение для i -го наблюдения
- n - размер выборки
Чем меньше RMSE, тем лучше регрессионная модель может соответствовать данным.
2. Классификация: переменная ответа является категориальной.
Например, переменная ответа может принимать следующие значения:
- Мужчина или женщина
- Пройдено или не пройдено
- Низкий, средний или высокий
В каждом случае модель классификации пытается предсказать некоторую метку класса.
Пример классификации:
Предположим, у нас есть набор данных, содержащий три переменные для 100 разных баскетболистов из колледжа: среднее количество очков за игру, уровень дивизиона и то, попали ли они в НБА.
Мы могли бы подобрать классификационную модель, которая использует среднее количество очков за игру и уровень дивизиона в качестве объясняющих переменных, а «черновик» — в качестве переменной ответа.
Затем мы могли бы использовать эту модель, чтобы предсказать, будет ли данный игрок выбран в НБА, на основе их среднего количества очков за игру и уровня дивизиона.
Это пример модели классификации, поскольку переменная ответа («черновик») является категориальной. То есть он может принимать значения только в двух разных категориях: «Черновик» или «Не черновик».
Самый распространенный способ измерить точность модели классификации — просто вычислить процент правильных классификаций, которые делает модель:
Точность = классификации исправлений / общее количество попыток классификации * 100%
Например, если модель правильно определяет, будет ли игрок выбран в НБА, 88 раз из 100 возможных, то точность модели будет следующей:
Точность = (88/100) * 100% = 88%
Чем выше точность, тем лучше модель классификации способна предсказывать результаты.
Сходства между регрессией и классификацией
Алгоритмы регрессии и классификации схожи в следующем:
- Оба являются алгоритмами обучения с учителем, т.е. они оба включают переменную отклика.
- Оба используют одну или несколько независимых переменных для построения моделей, чтобы предсказать некоторую реакцию.
- И то, и другое можно использовать для понимания того, как изменения значений независимых переменных влияют на значения переменной отклика.
Различия между регрессией и классификацией
Алгоритмы регрессии и классификации различаются по следующим параметрам:
- Алгоритмы регрессии стремятся предсказать непрерывную величину, а алгоритмы классификации стремятся предсказать метку класса.
- Способы измерения точности регрессионных и классификационных моделей различаются.
Преобразование регрессии в классификацию
Стоит отметить, что проблему регрессии можно преобразовать в проблему классификации, просто разбивая переменную ответа на сегменты.
Например, предположим, что у нас есть набор данных, который содержит три переменные: площадь, количество ванных комнат и цену продажи.
Мы могли бы построить регрессионную модель, используя квадратные метры и количество ванных комнат, чтобы предсказать цену продажи.
Однако мы могли бы разделить цену продажи на три разных класса:
- $80 000 – $160 000: "Низкая цена продажи"
- $161 000 – $240 000: "Средняя цена продажи"
- $241 000 – $320 000: "Высокая цена продажи"
Затем мы могли бы использовать квадратные метры и количество ванных комнат в качестве независимых переменных, чтобы предсказать, к какому классу (низкому, среднему или высокому) попадет данная цена продажи дома.
Это будет пример модели классификации, поскольку мы пытаемся поместить каждый дом в класс.
Резюме
В следующей таблице приведены сходства и различия между алгоритмами регрессии и классификации:
