Логистическая регрессия — это статистический метод, который мы используем для подбора модели регрессии, когда переменная отклика является бинарной. Чтобы оценить, насколько хорошо модель логистической регрессии соответствует набору данных, мы можем взглянуть на следующие две метрики:
- Чувствительность: вероятность того, что модель предсказывает положительный результат для наблюдения, когда результат действительно положительный. Это также называется «истинно положительным показателем».
- Специфичность: вероятность того, что модель предсказывает отрицательный результат для наблюдения, когда результат действительно отрицательный. Это также называется «истинной отрицательной ставкой».
Один из способов визуализировать эти две метрики — создать кривую ROC , которая означает кривую «рабочей характеристики приемника». Это график, отображающий чувствительность и специфичность модели логистической регрессии.
В следующем пошаговом примере показано, как создать и интерпретировать кривую ROC в Excel.
Шаг 1: введите данные
Во-первых, давайте введем некоторые необработанные данные:
Шаг 2: Рассчитайте совокупные данные
Далее воспользуемся следующей формулой для расчета совокупных значений для категорий Pass и Fail:
- Совокупные значения прохождения: =СУММ($B$3:B3)
- Совокупные значения ошибок: =СУММ($C$3:C3)
Затем мы скопируем и вставим эти формулы в каждую ячейку столбца D и столбца E:
Шаг 3: Рассчитайте процент ложноположительных результатов и показатель истинно положительных результатов
Далее мы рассчитаем частоту ложноположительных результатов (FPR), частоту истинных положительных результатов (TPR) и площадь под кривой AUC, используя следующие формулы:
- FPR: =1-D3/$D$14
- TPR: =1-E3/$E$14
- ППК: =(F3-F4)*G3
Затем мы скопируем и вставим эти формулы в каждую ячейку в столбцах F, G и H:
Шаг 4: Создайте кривую ROC
Чтобы создать кривую ROC, мы выделим каждое значение в диапазоне F3:G14 .
Затем мы щелкнем вкладку « Вставка » на верхней ленте, а затем щелкнем « Вставить разброс (X, Y)», чтобы создать следующий график:
Шаг 5: Рассчитайте AUC
Чем больше кривая охватывает верхний левый угол графика, тем лучше модель классифицирует данные по категориям.
Как видно из графика выше, эта модель логистической регрессии неплохо справляется с классификацией данных по категориям.
Чтобы дать количественную оценку, мы можем рассчитать AUC (площадь под кривой), которая говорит нам, какая часть графика расположена под кривой.
Чем ближе AUC к 1, тем лучше модель. Модель со значением AUC, равным 0,5, ничем не лучше модели со случайными классификациями.
Чтобы рассчитать AUC кривой, мы можем просто взять сумму всех значений в столбце H:
AUC оказывается равным 0,802662.Это значение довольно высокое, что указывает на то, что модель хорошо классифицирует данные по категориям «пройдено» и «не пройдено».
Дополнительные ресурсы
В следующих руководствах объясняется, как создавать другие распространенные графики в Excel:
Как построить CDF в Excel
Как создать кривую выживания в Excel
Как создать статистическую контрольную диаграмму процесса в Excel