Как интерпретировать C-статистику модели логистической регрессии

В этом руководстве дается простое объяснение того, как интерпретировать c-статистику модели логистической регрессии.

Что такое логистическая регрессия?

Логистическая регрессия — это статистический метод, который мы используем для подбора модели регрессии, когда переменная отклика является бинарной. Вот несколько примеров, когда мы можем использовать логистическую регрессию:

Мы хотим знать, как физические упражнения, диета и вес влияют на вероятность сердечного приступа. Переменной отклика является сердечный приступ , и у него есть два возможных исхода: сердечный приступ происходит или не происходит.
Мы хотим знать, как GPA, оценка ACT и количество пройденных классов AP влияют на вероятность поступления в конкретный университет. Переменная отклика — это принятие , и у него есть два возможных результата: принято или не принято.
Мы хотим знать, влияют ли количество слов и заголовок электронной почты на вероятность того, что электронная почта является спамом. Переменная ответа — это спам , и у нее есть два возможных результата: спам или не спам.

Обратите внимание, что переменные-предикторы могут быть числовыми или категориальными; важно то, что переменная ответа является двоичной. В этом случае логистическая регрессия является подходящей моделью для объяснения взаимосвязи между переменными-предикторами и переменной-откликом.

Как оценить качество подгонки модели логистической регрессии

После того, как мы подогнали модель логистической регрессии к набору данных, нас часто интересует , насколько хорошо модель соответствует данным. В частности, нас интересует, насколько хорошо модель способна точно предсказывать положительные и отрицательные результаты.

Чувствительность относится к вероятности того, что модель предсказывает положительный результат для наблюдения, когда результат действительно положительный.

Специфичность относится к вероятности того, что модель предсказывает отрицательный результат для наблюдения, когда результат действительно отрицательный.

Модель логистической регрессии идеально подходит для классификации наблюдений, если она имеет 100% чувствительность и 100% специфичность, но на практике это почти никогда не происходит.

Как только мы подойдем к модели логистической регрессии, ее можно использовать для расчета вероятности того, что данное наблюдение будет иметь положительный результат, на основе значений переменных-предикторов.

Чтобы определить, следует ли классифицировать наблюдение как положительное, мы можем выбрать точку отсечения таким образом, чтобы наблюдения с подобранной вероятностью выше точки отсечения классифицировались как положительные, а любые наблюдения с подобранной вероятностью ниже точки отсечения классифицировались как отрицательные. .

Например, предположим, что мы выбрали точку отсечения равной 0,5. Это означает, что любое наблюдение с подобранной вероятностью больше 0,5 будет иметь положительный результат, в то время как любое наблюдение с подобранной вероятностью меньше или равной 0,5 будет иметь отрицательный результат.

Построение кривой ROC

Одним из наиболее распространенных способов визуализации зависимости чувствительности от специфичности модели является построение кривой ROC (рабочей характеристики приемника) , которая представляет собой график значений чувствительности по сравнению с 1-специфичностью в качестве значения отсечки. точка перемещается от 0 до 1:

Модель с высокой чувствительностью и высокой специфичностью будет иметь кривую ROC, которая охватывает верхний левый угол графика. Модель с низкой чувствительностью и низкой специфичностью будет иметь кривую, близкую к диагональной линии под углом 45 градусов.

AUC (площадь под кривой) дает нам представление о том, насколько хорошо модель способна различать положительные и отрицательные результаты. AUC может варьироваться от 0 до 1. Чем выше AUC, тем лучше модель правильно классифицирует результаты.

Это означает, что модель с ROC-кривой, охватывающей верхний левый угол графика, будет иметь большую площадь под кривой и, таким образом, будет моделью, которая хорошо справляется с правильной классификацией результатов. И наоборот, модель с кривой ROC, которая охватывает диагональную линию под углом 45 градусов, будет иметь небольшую площадь под кривой и, таким образом, будет моделью, которая плохо справляется с классификацией результатов.

Понимание C-статистики

C-статистика , также известная как статистика согласованности , равна AUC (площадь под кривой) и имеет следующие интерпретации:

Значение ниже 0,5 указывает на плохую модель.
Значение 0,5 указывает на то, что модель не лучше классифицирует результаты, чем случайный случай.
Чем ближе значение к 1, тем лучше модель правильно классифицирует результаты.
Значение 1 означает, что модель идеально подходит для классификации результатов.

Таким образом, c-статистика дает нам представление о том, насколько хороша модель при правильной классификации результатов.

В клинических условиях можно рассчитать c-статистику, взяв все возможные пары людей, состоящие из одного человека, у которого был положительный результат, и одного человека, у которого был отрицательный результат. Затем c-статистику можно рассчитать как долю таких пар, в которых человек, получивший положительный результат, имел более высокую прогнозируемую вероятность испытать результат, чем человек, который не испытал положительный результат.

Например, предположим, что мы подогнали модель логистической регрессии, используя предикторные переменные возраст и кровяное давление , чтобы предсказать вероятность сердечного приступа.

Чтобы найти c-статистику модели, мы могли бы идентифицировать все возможные пары людей, состоящие из одного человека, перенесшего сердечный приступ, и одного человека, у которого не было сердечного приступа. Затем можно рассчитать с-статистику как долю таких пар, в которых человек, перенесший сердечный приступ, действительно имел более высокую прогнозируемую вероятность сердечного приступа по сравнению с человеком, который не перенес сердечный приступ.

Вывод

В этой статье мы узнали следующее:

Логистическая регрессия — это статистический метод, который мы используем для подбора модели регрессии, когда переменная отклика является бинарной.
Чтобы оценить качество соответствия модели логистической регрессии, мы можем посмотреть на чувствительность и специфичность , которые говорят нам, насколько хорошо модель способна правильно классифицировать результаты.
Чтобы визуализировать чувствительность и специфичность, мы можем построить кривую ROC .
AUC (площадь под кривой) показывает, насколько хорошо модель способна правильно классифицировать результаты. Когда кривая ROC охватывает верхний левый угол графика, это указывает на то, что модель хорошо классифицирует результаты правильно.
C-статистика равна AUC (площадь под кривой), и ее также можно рассчитать, взяв все возможные пары людей, состоящие из одного человека, у которого был положительный результат, и одного человека, у которого был отрицательный результат. Затем c-статистика представляет собой долю таких пар, в которых человек, получивший положительный результат, имел более высокую прогнозируемую вероятность испытать результат, чем человек, не испытавший положительного результата.
Чем ближе c-статистика к 1, тем лучше модель способна правильно классифицировать результаты.