Регрессия против классификации: в чем разница?

Регрессия против классификации: в чем разница?

Алгоритмы машинного обучения можно разделить на два различных типа: алгоритмы обучения с учителем и без учителя .

Регрессия против алгоритмов машинного обучения классификации

Алгоритмы обучения с учителем можно разделить на два типа:

1. Регрессия: переменная отклика непрерывна.

Например, переменная ответа может быть:

  • Масса
  • Высота
  • Цена
  • Время
  • Всего единиц

В каждом случае регрессионная модель стремится предсказать непрерывную величину.

Пример регрессии:
Предположим, у нас есть набор данных, содержащий три переменные для 100 разных домов: площадь в квадратных метрах, количество ванных комнат и цена продажи.
Мы могли бы подобрать регрессионную модель, в которой в качестве объясняющих переменных используются квадратные метры и количество ванных комнат, а в качестве ответной переменной — цена продажи.
Затем мы могли бы использовать эту модель для прогнозирования продажной цены дома на основе его площади в квадратных футах и количества ванных комнат.
Это пример регрессионной модели, поскольку переменная отклика (цена продажи) непрерывна.

Наиболее распространенным способом измерения точности регрессионной модели является вычисление среднеквадратичной ошибки (RMSE), метрики, которая сообщает нам, насколько в среднем наши прогнозируемые значения отличаются от наших наблюдаемых значений в модели. Он рассчитывается как:

СКО = √ Σ(P i – O i ) 2 / n

куда:

  • Σ — причудливый символ, означающий «сумма».
  • P i - прогнозируемое значение для i -го наблюдения
  • O i - наблюдаемое значение для i -го наблюдения
  • n - размер выборки

Чем меньше RMSE, тем лучше регрессионная модель может соответствовать данным.

2. Классификация: переменная ответа является категориальной.

Например, переменная ответа может принимать следующие значения:

  • Мужчина или женщина
  • Пройдено или не пройдено
  • Низкий, средний или высокий

В каждом случае модель классификации пытается предсказать некоторую метку класса.

Пример классификации:
Предположим, у нас есть набор данных, содержащий три переменные для 100 разных баскетболистов из колледжа: среднее количество очков за игру, уровень дивизиона и то, попали ли они в НБА.
Мы могли бы подобрать классификационную модель, которая использует среднее количество очков за игру и уровень дивизиона в качестве объясняющих переменных, а «черновик» — в качестве переменной ответа.
Затем мы могли бы использовать эту модель, чтобы предсказать, будет ли данный игрок выбран в НБА, на основе их среднего количества очков за игру и уровня дивизиона.
Это пример модели классификации, поскольку переменная ответа («черновик») является категориальной. То есть он может принимать значения только в двух разных категориях: «Черновик» или «Не черновик».

Самый распространенный способ измерить точность модели классификации — просто вычислить процент правильных классификаций, которые делает модель:

Точность = классификации исправлений / общее количество попыток классификации * 100%

Например, если модель правильно определяет, будет ли игрок выбран в НБА, 88 раз из 100 возможных, то точность модели будет следующей:

Точность = (88/100) * 100% = 88%

Чем выше точность, тем лучше модель классификации способна предсказывать результаты.

Сходства между регрессией и классификацией

Алгоритмы регрессии и классификации схожи в следующем:

  • Оба являются алгоритмами обучения с учителем, т.е. они оба включают переменную отклика.
  • Оба используют одну или несколько независимых переменных для построения моделей, чтобы предсказать некоторую реакцию.
  • И то, и другое можно использовать для понимания того, как изменения значений независимых переменных влияют на значения переменной отклика.

Различия между регрессией и классификацией

Алгоритмы регрессии и классификации различаются по следующим параметрам:

  • Алгоритмы регрессии стремятся предсказать непрерывную величину, а алгоритмы классификации стремятся предсказать метку класса.
  • Способы измерения точности регрессионных и классификационных моделей различаются.

Преобразование регрессии в классификацию

Стоит отметить, что проблему регрессии можно преобразовать в проблему классификации, просто разбивая переменную ответа на сегменты.

Например, предположим, что у нас есть набор данных, который содержит три переменные: площадь, количество ванных комнат и цену продажи.

Мы могли бы построить регрессионную модель, используя квадратные метры и количество ванных комнат, чтобы предсказать цену продажи.

Однако мы могли бы разделить цену продажи на три разных класса:

  • $80 000 – $160 000: "Низкая цена продажи"
  • $161 000 – $240 000: "Средняя цена продажи"
  • $241 000 – $320 000: "Высокая цена продажи"

Затем мы могли бы использовать квадратные метры и количество ванных комнат в качестве независимых переменных, чтобы предсказать, к какому классу (низкому, среднему или высокому) попадет данная цена продажи дома.

Это будет пример модели классификации, поскольку мы пытаемся поместить каждый дом в класс.

Резюме

В следующей таблице приведены сходства и различия между алгоритмами регрессии и классификации:

Различия между регрессией и классификацией
Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.