Что такое сбалансированная точность? (Определение и пример)

Что такое сбалансированная точность? (Определение и пример)

Сбалансированная точность — это метрика, которую мы можем использовать для оценки производительности модели классификации .

Он рассчитывается как:

Сбалансированная точность = (Чувствительность + Специфичность) / 2

куда:

  • Чувствительность : «истинный положительный показатель» — процент положительных случаев, которые модель способна обнаружить.
  • Специфичность : «истинный отрицательный показатель» — процент отрицательных случаев, которые модель способна обнаружить.

Эта метрика особенно полезна, когда два класса несбалансированы, то есть один класс появляется намного больше, чем другой.

В следующем примере показано, как вычислить сбалансированную точность на практике, и показано, почему это такая полезная метрика.

Пример. Расчет сбалансированной точности

Предположим, спортивный аналитик использует модель логистической регрессии, чтобы предсказать, попадут ли 400 разных баскетболистов из колледжа в НБА.

Следующая матрица путаницы суммирует прогнозы, сделанные моделью:

Чтобы рассчитать сбалансированную точность модели, мы сначала рассчитаем чувствительность и специфичность:

  • Чувствительность : «истинно положительный показатель» = 15/(15 + 5) = 0,75.
  • Специфичность : «Истинно отрицательный показатель» = 375 / (375 + 5) = 0,9868.

Затем мы можем рассчитать сбалансированную точность как:

  • Сбалансированная точность = (Чувствительность + Специфичность) / 2
  • Сбалансированная точность = (0,75 + 9868) / 2
  • Сбалансированная точность = 0,8684

Сбалансированная точность модели оказывается равной 0,8684 .

Обратите внимание, что чем ближе сбалансированная точность к 1, тем лучше модель способна правильно классифицировать наблюдения.

В этом примере сбалансированная точность довольно высока, что говорит нам о том, что модель логистической регрессии довольно хорошо предсказывает, попадут ли игроки колледжа в НБА.

В этом сценарии, поскольку классы настолько несбалансированы (20 игроков были выбраны, а 380 игроков не выбраны), сбалансированная точность дает нам более реалистичную картину того, насколько хорошо работает модель, по сравнению с общей метрикой точности.

Например, мы рассчитали бы точность модели как:

  • Точность = (TP + TN) / (TP + TN + FP + FN)
  • Точность = (15 + 375) / (15 + 375 + 5 + 5)
  • Точность = 0,975

Точность модели составляет 0,975 , что звучит очень высоко.

Однако рассмотрим модель, которая просто предсказывает, что каждый игрок не будет выбран на драфте. Это будет иметь точность 380/400 = 0,95.Это лишь немного ниже точности нашей модели.

Сбалансированная оценка точности 0,8684 дает нам лучшее представление о том, насколько хорошо модель способна предсказывать оба класса.

То есть это дает нам лучшее представление о том, насколько хорошо модель способна предсказывать игроков, которые не будут выбраны, и тех, кто будет выбран.

Дополнительные ресурсы

В следующих руководствах объясняется, как создать матрицу путаницы в различных статистических программах:

Как создать матрицу путаницы в Excel
Как создать матрицу путаницы в R
Как создать матрицу путаницы в Python

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.