Как создать матрицу путаницы в Excel


Логистическая регрессия — это тип регрессии, который мы можем использовать, когда переменная ответа является двоичной.

Одним из распространенных способов оценки качества модели логистической регрессии является создание матрицы путаницы , которая представляет собой таблицу 2 × 2, в которой показаны прогнозируемые значения из модели и фактические значения из тестового набора данных.

В следующем пошаговом примере показано, как создать матрицу путаницы в Excel.

Шаг 1: введите данные

Во-первых, давайте введем столбец фактических значений для переменной ответа вместе с прогнозируемыми значениями с помощью модели логистической регрессии:

Шаг 2: Создайте матрицу путаницы

Далее мы будем использовать формулу COUNTIFS() для подсчета количества значений, равных «0» в столбце «Фактическое», а также «0» в столбце «Прогноз»:

Мы будем использовать аналогичную формулу для заполнения каждой второй ячейки матрицы путаницы:

Шаг 3: Рассчитайте точность, точность и полноту

После того, как мы создали матрицу путаницы, мы можем рассчитать следующие показатели:

  • Точность : процент правильных прогнозов
  • Точность : правильные положительные прогнозы по отношению к общему количеству положительных прогнозов.
  • Вспомнить : исправить положительные прогнозы по отношению к общему количеству фактических положительных результатов.

Следующие формулы показывают, как рассчитать каждую из этих метрик в Excel:

Чем выше точность, тем лучше модель способна правильно классифицировать наблюдения.

В этом примере наша модель имеет точность 0,7 , что говорит нам о том, что она правильно классифицировала 70% наблюдений.

При желании мы можем сравнить эту точность с точностью других моделей логистической регрессии, чтобы определить, какая модель лучше всего классифицирует наблюдения по категориям 0 или 1.

Дополнительные ресурсы

Введение в логистическую регрессию
3 типа логистической регрессии
Логистическая регрессия против линейной регрессии