Как интерпретировать кривую ROC (с примерами)

Как интерпретировать кривую ROC (с примерами)

Логистическая регрессия — это статистический метод, который мы используем для подбора модели регрессии, когда переменная отклика является бинарной. Чтобы оценить, насколько хорошо модель логистической регрессии соответствует набору данных, мы можем взглянуть на следующие две метрики:

  • Чувствительность: вероятность того, что модель предсказывает положительный результат для наблюдения, когда результат действительно положительный.
  • Специфичность: вероятность того, что модель предсказывает отрицательный результат для наблюдения, когда результат действительно отрицательный.

Простой способ визуализировать эти две метрики — создать кривую ROC , которая представляет собой график, отображающий чувствительность и специфичность модели логистической регрессии.

В этом руководстве объясняется, как создать и интерпретировать кривую ROC.

Как создать ROC-кривую

После того, как мы подогнали модель логистической регрессии, мы можем использовать модель для классификации наблюдений в одну из двух категорий.

Например, мы можем классифицировать наблюдения как «положительные» или «отрицательные».

Истинная положительная скорость представляет собой долю наблюдений, которые, по прогнозам, будут положительными, когда они действительно положительны.

И наоборот, частота ложных срабатываний представляет собой долю наблюдений, которые прогнозируются как положительные, хотя на самом деле они отрицательные.

Когда мы создаем кривую ROC, мы строим пары истинных положительных результатов и ложных положительных результатов для каждого возможного порога принятия решения модели логистической регрессии.

Как интерпретировать кривую ROC

Чем больше кривая ROC охватывает верхний левый угол графика, тем лучше модель классифицирует данные по категориям.

Чтобы дать количественную оценку, мы можем рассчитать AUC (площадь под кривой), которая говорит нам, какая часть графика расположена под кривой.

Чем ближе AUC к 1, тем лучше модель.

Модель со значением AUC, равным 0,5, представляла бы собой идеально диагональную линию и представляла бы модель, которая ничем не лучше модели, производящей случайные классификации.

Особенно полезно вычислять AUC для нескольких моделей логистической регрессии, потому что это позволяет нам увидеть, какая модель лучше всего делает прогнозы.

Например, предположим, что мы подогнали три разные модели логистической регрессии и построили следующие ROC-кривые для каждой модели:

Предположим, мы вычисляем AUC для каждой модели следующим образом:

  • Модель А: ППК = 0,923
  • Модель B: AUC = 0,794.
  • Модель C: AUC = 0,588.

Модель A имеет самую высокую AUC, что указывает на то, что она имеет наибольшую площадь под кривой и является лучшей моделью для правильной классификации наблюдений по категориям.

Дополнительные ресурсы

В следующих руководствах объясняется, как создавать кривые ROC с помощью различных статистических программ:

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.