Что такое сбалансированная точность? (Определение и пример)

Сбалансированная точность — это метрика, которую мы можем использовать для оценки производительности модели классификации .

Он рассчитывается как:

Сбалансированная точность = (Чувствительность + Специфичность) / 2

куда:

Чувствительность : «истинный положительный показатель» — процент положительных случаев, которые модель способна обнаружить.
Специфичность : «истинный отрицательный показатель» — процент отрицательных случаев, которые модель способна обнаружить.

Эта метрика особенно полезна, когда два класса несбалансированы, то есть один класс появляется намного больше, чем другой.

В следующем примере показано, как вычислить сбалансированную точность на практике, и показано, почему это такая полезная метрика.

Пример. Расчет сбалансированной точности

Предположим, спортивный аналитик использует модель логистической регрессии, чтобы предсказать, попадут ли 400 разных баскетболистов из колледжа в НБА.

Следующая матрица путаницы суммирует прогнозы, сделанные моделью:

Чтобы рассчитать сбалансированную точность модели, мы сначала рассчитаем чувствительность и специфичность:

Чувствительность : «истинно положительный показатель» = 15/(15 + 5) = 0,75.
Специфичность : «Истинно отрицательный показатель» = 375 / (375 + 5) = 0,9868.

Затем мы можем рассчитать сбалансированную точность как:

Сбалансированная точность = (Чувствительность + Специфичность) / 2
Сбалансированная точность = (0,75 + 9868) / 2
Сбалансированная точность = 0,8684

Сбалансированная точность модели оказывается равной 0,8684 .

Обратите внимание, что чем ближе сбалансированная точность к 1, тем лучше модель способна правильно классифицировать наблюдения.

В этом примере сбалансированная точность довольно высока, что говорит нам о том, что модель логистической регрессии довольно хорошо предсказывает, попадут ли игроки колледжа в НБА.

В этом сценарии, поскольку классы настолько несбалансированы (20 игроков были выбраны, а 380 игроков не выбраны), сбалансированная точность дает нам более реалистичную картину того, насколько хорошо работает модель, по сравнению с общей метрикой точности.

Например, мы рассчитали бы точность модели как:

Точность = (TP + TN) / (TP + TN + FP + FN)
Точность = (15 + 375) / (15 + 375 + 5 + 5)
Точность = 0,975

Точность модели составляет 0,975 , что звучит очень высоко.

Однако рассмотрим модель, которая просто предсказывает, что каждый игрок не будет выбран на драфте. Это будет иметь точность 380/400 = 0,95.Это лишь немного ниже точности нашей модели.

Сбалансированная оценка точности 0,8684 дает нам лучшее представление о том, насколько хорошо модель способна предсказывать оба класса.

То есть это дает нам лучшее представление о том, насколько хорошо модель способна предсказывать игроков, которые не будут выбраны, и тех, кто будет выбран.

Дополнительные ресурсы

В следующих руководствах объясняется, как создать матрицу путаницы в различных статистических программах:

Как создать матрицу путаницы в Excel
Как создать матрицу путаницы в R
Как создать матрицу путаницы в Python