Cp Маллоуза — это показатель, который используется для выбора наилучшей модели регрессии среди нескольких различных моделей.
Он рассчитывается как:
Cp = RSS p /S 2 – N + 2(P+1)
куда:
- RSS p : остаточная сумма квадратов для модели с переменными предикторами p
- S 2 : остаточный средний квадрат для модели (оценка MSE)
- N: размер выборки
- P: количество предикторов
Cp Маллоуза используется, когда у нас есть несколько потенциальных переменных-предикторов, которые мы хотели бы использовать в модели регрессии, и мы хотели бы определить лучшую модель, которая использует подмножество этих переменных-предикторов.
Мы можем определить «лучшую» регрессионную модель, определив модель с наименьшим значением Cp, которое меньше P+1, где P — количество переменных-предикторов в модели.
В следующем примере показано, как использовать Cp Маллоуса для выбора наилучшей модели регрессии среди нескольких потенциальных моделей.
Пример: использование Cp Маллоуса для выбора лучшей модели
Предположим, профессор хотел бы использовать количество часов обучения, сданные подготовительные экзамены и текущий средний балл в качестве переменных-предикторов в регрессионной модели, чтобы предсказать балл, который студент получит на выпускном экзамене.
Он подбирает семь различных регрессионных моделей и вычисляет значение Cp Маллоуза для каждой модели:
Если значение Cp Маллоуза меньше количества коэффициентов в модели (P+1), то модель называется несмещенной.
Мы видим, что есть две беспристрастные модели:
- Модель с часами и средним баллом в качестве переменных-предикторов (Cp Маллоуза = 2,9, P+1 = 3)
- Модель с Prep Exams и GPA в качестве переменных-предикторов (Cp Маллоуза = 2,7, P+1 = 3)
Среди этих двух моделей модель, использующая Prep Exams и GPA в качестве переменных-предикторов, имеет наименьшее значение Cp Маллоуза, что говорит нам о том, что это лучшая модель, которая приводит к наименьшему количеству систематических ошибок.
Примечания к Cp Маллоуса
Вот несколько вещей, о которых следует помнить в отношении Cp Маллоуса:
- Говорят, что модели, у которых значение Cp Маллоу близко к P + 1, имеют низкое смещение.
- Если каждая потенциальная модель имеет высокое значение Cp Маллоуса, это указывает на то, что в каждой модели, вероятно, отсутствуют некоторые важные переменные-предикторы.
- Если несколько потенциальных моделей имеют низкие значения Cp Маллоу, выберите модель с наименьшим значением в качестве наилучшей модели для использования.
Также имейте в виду, что Cp Маллоуза — это только один из способов измерения качества подгонки регрессионной модели.
Другой часто используемой метрикой является скорректированный R-квадрат, который сообщает нам долю дисперсии в переменной отклика , которая может быть объяснена переменными-предикторами в модели с поправкой на количество используемых переменных-предикторов.
При принятии решения о том, какая регрессионная модель является лучшей из списка нескольких различных моделей, неплохо было бы взглянуть как на Cp Маллоуза, так и на скорректированный R-квадрат.
Дополнительные ресурсы
Как рассчитать Cp Маллоуса в R
Как рассчитать скорректированный R-квадрат в R