Что такое Cp Маллоуса? (Определение и пример)


Cp Маллоуза — это показатель, который используется для выбора наилучшей модели регрессии среди нескольких различных моделей.

Он рассчитывается как:

Cp = RSS p /S 2 – N + 2(P+1)

куда:

  • RSS p : остаточная сумма квадратов для модели с переменными предикторами p
  • S 2 : остаточный средний квадрат для модели (оценка MSE)
  • N: размер выборки
  • P: количество предикторов

Cp Маллоуза используется, когда у нас есть несколько потенциальных переменных-предикторов, которые мы хотели бы использовать в модели регрессии, и мы хотели бы определить лучшую модель, которая использует подмножество этих переменных-предикторов.

Мы можем определить «лучшую» регрессионную модель, определив модель с наименьшим значением Cp, которое меньше P+1, где P — количество переменных-предикторов в модели.

В следующем примере показано, как использовать Cp Маллоуса для выбора наилучшей модели регрессии среди нескольких потенциальных моделей.

Пример: использование Cp Маллоуса для выбора лучшей модели

Предположим, профессор хотел бы использовать количество часов обучения, сданные подготовительные экзамены и текущий средний балл в качестве переменных-предикторов в регрессионной модели, чтобы предсказать балл, который студент получит на выпускном экзамене.

Он подбирает семь различных регрессионных моделей и вычисляет значение Cp Маллоуза для каждой модели:

Если значение Cp Маллоуза меньше количества коэффициентов в модели (P+1), то модель называется несмещенной.

Мы видим, что есть две беспристрастные модели:

  • Модель с часами и средним баллом в качестве переменных-предикторов (Cp Маллоуза = 2,9, P+1 = 3)
  • Модель с Prep Exams и GPA в качестве переменных-предикторов (Cp Маллоуза = 2,7, P+1 = 3)

Среди этих двух моделей модель, использующая Prep Exams и GPA в качестве переменных-предикторов, имеет наименьшее значение Cp Маллоуза, что говорит нам о том, что это лучшая модель, которая приводит к наименьшему количеству систематических ошибок.

Примечания к Cp Маллоуса

Вот несколько вещей, о которых следует помнить в отношении Cp Маллоуса:

  • Говорят, что модели, у которых значение Cp Маллоу близко к P + 1, имеют низкое смещение.
  • Если каждая потенциальная модель имеет высокое значение Cp Маллоуса, это указывает на то, что в каждой модели, вероятно, отсутствуют некоторые важные переменные-предикторы.
  • Если несколько потенциальных моделей имеют низкие значения Cp Маллоу, выберите модель с наименьшим значением в качестве наилучшей модели для использования.

Также имейте в виду, что Cp Маллоуза — это только один из способов измерения качества подгонки регрессионной модели.

Другой часто используемой метрикой является скорректированный R-квадрат, который сообщает нам долю дисперсии в переменной отклика , которая может быть объяснена переменными-предикторами в модели с поправкой на количество используемых переменных-предикторов.

При принятии решения о том, какая регрессионная модель является лучшей из списка нескольких различных моделей, неплохо было бы взглянуть как на Cp Маллоуза, так и на скорректированный R-квадрат.

Дополнительные ресурсы

Как рассчитать Cp Маллоуса в R
Как рассчитать скорректированный R-квадрат в R