Что такое Cp Маллоуса? (Определение и пример)

Что такое Cp Маллоуса? (Определение и пример)

Cp Маллоуза — это показатель, который используется для выбора наилучшей модели регрессии среди нескольких различных моделей.

Он рассчитывается как:

Cp = RSS p /S 2 – N + 2(P+1)

куда:

  • RSS p : остаточная сумма квадратов для модели с переменными предикторами p
  • S 2 : остаточный средний квадрат для модели (оценка MSE)
  • N: размер выборки
  • P: количество предикторов

Cp Маллоуза используется, когда у нас есть несколько потенциальных переменных-предикторов, которые мы хотели бы использовать в модели регрессии, и мы хотели бы определить лучшую модель, которая использует подмножество этих переменных-предикторов.

Мы можем определить «лучшую» регрессионную модель, определив модель с наименьшим значением Cp, которое меньше P+1, где P — количество переменных-предикторов в модели.

В следующем примере показано, как использовать Cp Маллоуса для выбора наилучшей модели регрессии среди нескольких потенциальных моделей.

Пример: использование Cp Маллоуса для выбора лучшей модели

Предположим, профессор хотел бы использовать количество часов обучения, сданные подготовительные экзамены и текущий средний балл в качестве переменных-предикторов в регрессионной модели, чтобы предсказать балл, который студент получит на выпускном экзамене.

Он подбирает семь различных регрессионных моделей и вычисляет значение Cp Маллоуза для каждой модели:

Использование Cp Маллоуса для выбора лучшей модели регрессии

Если значение Cp Маллоуза меньше количества коэффициентов в модели (P+1), то модель называется несмещенной.

Мы видим, что есть две беспристрастные модели:

  • Модель с часами и средним баллом в качестве переменных-предикторов (Cp Маллоуза = 2,9, P+1 = 3)
  • Модель с Prep Exams и GPA в качестве переменных-предикторов (Cp Маллоуза = 2,7, P+1 = 3)

Среди этих двух моделей модель, использующая Prep Exams и GPA в качестве переменных-предикторов, имеет наименьшее значение Cp Маллоуза, что говорит нам о том, что это лучшая модель, которая приводит к наименьшему количеству систематических ошибок.

Примечания к Cp Маллоуса

Вот несколько вещей, о которых следует помнить в отношении Cp Маллоуса:

  • Говорят, что модели, у которых значение Cp Маллоу близко к P + 1, имеют низкое смещение.
  • Если каждая потенциальная модель имеет высокое значение Cp Маллоуса, это указывает на то, что в каждой модели, вероятно, отсутствуют некоторые важные переменные-предикторы.
  • Если несколько потенциальных моделей имеют низкие значения Cp Маллоу, выберите модель с наименьшим значением в качестве наилучшей модели для использования.

Также имейте в виду, что Cp Маллоуза — это только один из способов измерения качества подгонки регрессионной модели.

Другой часто используемой метрикой является скорректированный R-квадрат, который сообщает нам долю дисперсии в переменной отклика , которая может быть объяснена переменными-предикторами в модели с поправкой на количество используемых переменных-предикторов.

При принятии решения о том, какая регрессионная модель является лучшей из списка нескольких различных моделей, неплохо было бы взглянуть как на Cp Маллоуза, так и на скорректированный R-квадрат.

Дополнительные ресурсы

Как рассчитать Cp Маллоуса в R
Как рассчитать скорректированный R-квадрат в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.