Уровень ошибочной классификации в машинном обучении: определение и пример

В машинном обучении коэффициент ошибочной классификации — это показатель, который сообщает нам процент наблюдений, которые были неправильно предсказаны некоторой моделью классификации .

Он рассчитывается как:

Коэффициент ошибочной классификации = # неправильных прогнозов / # всего прогнозов

Значение коэффициента ошибочной классификации может варьироваться от 0 до 1, где:

0 представляет модель, у которой не было неправильных прогнозов.
1 представлена модель, которая имела совершенно неверные предсказания.

Чем ниже значение коэффициента неправильной классификации, тем лучше модель классификации способна предсказать результаты переменной ответа .

В следующем примере показано, как на практике рассчитать коэффициент ошибочной классификации для модели логистической регрессии .

Пример: расчет коэффициента ошибочной классификации для модели логистической регрессии

Предположим, мы используем модель логистической регрессии, чтобы предсказать, попадут ли в НБА 400 разных баскетболистов из колледжей.

Следующая матрица путаницы суммирует прогнозы, сделанные моделью:

расчет коэффициента ошибочной классификации модели логистической регрессии

Вот как рассчитать коэффициент ошибочной классификации для модели:

Коэффициент ошибочной классификации = # неправильных прогнозов / # всего прогнозов
Частота ошибочной классификации = (ложноположительные + ложноотрицательные) / (общее количество прогнозов)
Коэффициент ошибочной классификации = (70 + 40) / (400)
Коэффициент ошибочной классификации = 0,275

Коэффициент ошибочной классификации для этой модели составляет 0,275 или 27,5% .

Это означает, что модель неверно предсказала результат для 27,5% игроков.

Противоположностью степени ошибочной классификации будет точность, которая рассчитывается как:

Точность = 1 — уровень ошибочной классификации
Точность = 1 – 0,275
Точность = 0,725

Это означает, что модель правильно предсказала результат для 72,5% игроков.

Плюсы и минусы ошибочной классификации

Коэффициент ошибочной классификации предлагает следующие плюсы :

Это легко интерпретировать.Уровень ошибочной классификации 10% означает, что модель сделала неверный прогноз для 10% всех наблюдений.
Это легко вычислить.Коэффициент ошибочной классификации рассчитывается как общее количество неправильных прогнозов, деленное на общее количество прогнозов.

Тем не менее, коэффициент ошибочной классификации имеет следующие недостатки :

Не учитывается, как распределяются данные.Например, предположим, что 90% всех игроков не попадают в НБА. Если бы у нас была модель, которая просто предсказывает, что каждый игрок не будет выбран на драфте, то уровень ошибочной классификации модели будет составлять всего 10%. Это кажется низким, но на самом деле модель не может правильно предсказать любого игрока, который будет выбран на драфте.

На практике мы часто рассчитываем уровень ошибочной классификации модели вместе с другими показателями, такими как:

Чувствительность : «истинно положительный показатель» — процент положительных результатов, которые модель способна обнаружить.
Специфичность : «истинный отрицательный показатель» — процент отрицательных результатов, которые модель способна обнаружить.
Оценка F1 : метрика , которая говорит нам о точности модели относительно того, как распределяются данные.

Рассчитав значение каждой из этих метрик, мы можем получить полное представление о том, насколько хорошо модель способна делать прогнозы.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация об общих концепциях машинного обучения:

Введение в логистическую регрессию
Что такое сбалансированная точность?
Оценка F1 против точности: что использовать?

Уровень ошибочной классификации в машинном обучении: определение и пример

Пример: расчет коэффициента ошибочной классификации для модели логистической регрессии

Плюсы и минусы ошибочной классификации

Дополнительные ресурсы

Редакция Кодкампа