Что считается хорошей оценкой AUC?


Логистическая регрессия — это метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной.

Чтобы оценить, насколько хорошо модель логистической регрессии соответствует набору данных, мы можем взглянуть на следующие две метрики:

  • Чувствительность: вероятность того, что модель предсказывает положительный результат для наблюдения, когда результат действительно положительный. Это также называется «истинно положительным показателем».
  • Специфичность: вероятность того, что модель предсказывает отрицательный результат для наблюдения, когда результат действительно отрицательный. Это также называется «истинной отрицательной ставкой».

Один из способов визуализировать эти две метрики — создать кривую ROC , которая означает кривую «рабочей характеристики приемника».

Это график, отображающий чувствительность по оси ординат и (1 — специфичность) по оси абсцисс.

Одним из способов количественной оценки того, насколько хорошо модель логистической регрессии справляется с классификацией данных, является вычисление AUC , что означает «площадь под кривой».

Значение AUC находится в диапазоне от 0 до 1. Модель с AUC, равным 1, способна идеально классифицировать наблюдения по классам, в то время как модель с AUC, равным 0,5, работает не лучше, чем модель, которая выполняет случайное угадывание.

Что такое хороший показатель AUC?

Студенты часто задают вопрос о AUC:

Что такое хороший показатель AUC?

Ответ:

Не существует конкретного порога для того, что считается хорошей оценкой AUC.

Очевидно, что чем выше показатель AUC, тем лучше модель способна классифицировать наблюдения по классам.

И мы знаем, что модель с показателем AUC 0,5 не лучше, чем модель, которая выполняет случайное угадывание.

Однако не существует магического числа, определяющего, является ли показатель AUC хорошим или плохим.

Если мы должны обозначить определенные оценки как хорошие или плохие, мы можем сослаться на следующее эмпирическое правило Хосмера и Лемешоу в книге « Прикладная логистическая регрессия » (стр. 177):

  • 0,5 = нет дискриминации
  • 0,5-0,7 = плохая дискриминация
  • 0,7-0,8 = Приемлемая дискриминация
  • 0,8-0,9 = отличная дискриминация
  • >0,9 = Отличная дискриминация

По этим стандартам модель с показателем AUC ниже 0,7 будет считаться плохой, а все, что выше, будет считаться приемлемым или лучшим.

«Хорошая» оценка AUC зависит от отрасли

Важно иметь в виду, что то, что считается «хорошим» показателем AUC, зависит от отрасли.

Например, в медицинских учреждениях исследователи часто добиваются показателей AUC выше 0,95, потому что цена ошибки очень высока.

Например, если у нас есть модель логистической регрессии, которая предсказывает, разовьется ли у пациента рак, цена ошибки (неправильно сказать пациенту, что у него нет рака, когда он есть) настолько высока, что нам нужна модель, которая правильно почти каждый раз.

И наоборот, в других отраслях, таких как маркетинг, для модели может быть приемлемым более низкий показатель AUC.

Например, если у нас есть модель, которая предсказывает, будет ли клиент постоянным клиентом или нет, цена ошибки не изменит жизнь, поэтому модель с AUC всего 0,6 все еще может быть полезной.

Сравните показатели AUC с текущей моделью

В реальных условиях мы часто сравниваем показатели AUC новых моделей логистической регрессии с показателями AUC текущей используемой модели.

Например, предположим, что бизнес использует модель логистической регрессии, чтобы предсказать, будут ли клиенты постоянными клиентами.

Если текущая модель имеет показатель AUC 0,6, а вы разрабатываете новую модель с показателем AUC 0,65, то разработанная вами новая модель будет предпочтительнее, даже если она предлагает лишь небольшое улучшение и будет считаться «плохой» стандарты Хосмера и Лемешова.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о том, как создавать и интерпретировать кривые ROC и показатели AUC:

Как интерпретировать кривую ROC (с примерами)
Как создать кривую ROC в Python
Как создать кривую ROC в R
Как рассчитать AUC в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.