В машинном обучении коэффициент ошибочной классификации — это показатель, который сообщает нам процент наблюдений, которые были неправильно предсказаны некоторой моделью классификации .
Он рассчитывается как:
Коэффициент ошибочной классификации = # неправильных прогнозов / # всего прогнозов
Значение коэффициента ошибочной классификации может варьироваться от 0 до 1, где:
- 0 представляет модель, у которой не было неправильных прогнозов.
- 1 представлена модель, которая имела совершенно неверные предсказания.
Чем ниже значение коэффициента неправильной классификации, тем лучше модель классификации способна предсказать результаты переменной ответа .
В следующем примере показано, как на практике рассчитать коэффициент ошибочной классификации для модели логистической регрессии .
Пример: расчет коэффициента ошибочной классификации для модели логистической регрессии
Предположим, мы используем модель логистической регрессии, чтобы предсказать, попадут ли в НБА 400 разных баскетболистов из колледжей.
Следующая матрица путаницы суммирует прогнозы, сделанные моделью:
Вот как рассчитать коэффициент ошибочной классификации для модели:
- Коэффициент ошибочной классификации = # неправильных прогнозов / # всего прогнозов
- Частота ошибочной классификации = (ложноположительные + ложноотрицательные) / (общее количество прогнозов)
- Коэффициент ошибочной классификации = (70 + 40) / (400)
- Коэффициент ошибочной классификации = 0,275
Коэффициент ошибочной классификации для этой модели составляет 0,275 или 27,5% .
Это означает, что модель неверно предсказала результат для 27,5% игроков.
Противоположностью степени ошибочной классификации будет точность, которая рассчитывается как:
- Точность = 1 — уровень ошибочной классификации
- Точность = 1 – 0,275
- Точность = 0,725
Это означает, что модель правильно предсказала результат для 72,5% игроков.
Плюсы и минусы ошибочной классификации
Коэффициент ошибочной классификации предлагает следующие плюсы :
- Это легко интерпретировать.Уровень ошибочной классификации 10% означает, что модель сделала неверный прогноз для 10% всех наблюдений.
- Это легко вычислить.Коэффициент ошибочной классификации рассчитывается как общее количество неправильных прогнозов, деленное на общее количество прогнозов.
Тем не менее, коэффициент ошибочной классификации имеет следующие недостатки :
- Не учитывается, как распределяются данные.Например, предположим, что 90% всех игроков не попадают в НБА. Если бы у нас была модель, которая просто предсказывает, что каждый игрок не будет выбран на драфте, то уровень ошибочной классификации модели будет составлять всего 10%. Это кажется низким, но на самом деле модель не может правильно предсказать любого игрока, который будет выбран на драфте.
На практике мы часто рассчитываем уровень ошибочной классификации модели вместе с другими показателями, такими как:
- Чувствительность : «истинно положительный показатель» — процент положительных результатов, которые модель способна обнаружить.
- Специфичность : «истинный отрицательный показатель» — процент отрицательных результатов, которые модель способна обнаружить.
- Оценка F1 : метрика , которая говорит нам о точности модели относительно того, как распределяются данные.
Рассчитав значение каждой из этих метрик, мы можем получить полное представление о том, насколько хорошо модель способна делать прогнозы.
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация об общих концепциях машинного обучения:
Введение в логистическую регрессию
Что такое сбалансированная точность?
Оценка F1 против точности: что использовать?