Одной из наиболее распространенных проблем, с которыми вы столкнетесь при построении моделей, является мультиколлинеарность.Это происходит, когда две или более переменных-предикторов в наборе данных сильно коррелированы.
Когда это происходит, данная модель может хорошо соответствовать обучающему набору данных, но она, вероятно, будет плохо работать с новым набором данных, который она никогда не видела, потому что он превосходит обучающий набор.
Один из способов избежать переобучения — использовать какой-либо метод выбора подмножества , например:
Эти методы пытаются удалить из модели нерелевантные предикторы, чтобы в окончательной модели остались только самые важные предикторы, способные предсказать изменение переменной отклика.
Другой способ избежать переобучения — использовать какой-либо метод регуляризации , например:
Эти методы пытаются ограничить или упорядочить коэффициенты модели, чтобы уменьшить дисперсию и, таким образом, создать модели, которые могут хорошо обобщаться на новые данные.
Совершенно другой подход к работе с мультиколлинеарностью известен как уменьшение размерности .
Распространенный метод уменьшения размерности известен как регрессия основных компонентов , которая работает следующим образом:
1. Предположим, что данный набор данных содержит p предикторов: X 1 , X 2 , …, X p
2. Вычислите Z 1 , …, Z M как M линейных комбинаций исходных p предикторов.
- Z m = ΣΦ jm X j для некоторых констант Φ 1m , Φ 2m , Φ pm , m = 1, …, M.
- Z 1 — это линейная комбинация предикторов, которая фиксирует максимально возможную дисперсию.
- Z 2 является следующей линейной комбинацией предикторов, которая фиксирует наибольшую дисперсию, будучи ортогональной (т.е. некоррелированной) с Z 1 .
- Тогда Z 3 является следующей линейной комбинацией предикторов, которая захватывает наибольшую дисперсию, будучи ортогональной Z 2 .
- И так далее.
3. Используйте метод наименьших квадратов, чтобы подобрать модель линейной регрессии, используя первые M главных компонентов Z 1 , …, Z M в качестве предикторов.
Уменьшение размерности фразы происходит из-за того, что этот метод должен оценивать только коэффициенты M + 1 вместо коэффициентов p + 1, где M < p.
Другими словами, размерность задачи уменьшилась с p+1 до M+1.
Во многих случаях, когда в наборе данных присутствует мультиколлинеарность, регрессия основных компонентов может создать модель, которая может обобщать новые данные лучше, чем обычная множественная линейная регрессия .
Шаги для выполнения регрессии основных компонентов
На практике для выполнения регрессии основных компонентов используются следующие шаги:
1. Стандартизируйте предикторы.
Во-первых, мы обычно стандартизируем данные таким образом, что каждая предикторная переменная имеет среднее значение 0 и стандартное отклонение 1. Это предотвращает чрезмерное влияние одного предиктора, особенно если он измеряется в разных единицах (например, если X 1 измеряется в дюймах). и X 2 измеряется в ярдах).
2. Рассчитайте главные компоненты и выполните линейную регрессию, используя главные компоненты в качестве предикторов.
Затем мы вычисляем главные компоненты и используем метод наименьших квадратов, чтобы подобрать модель линейной регрессии, используя первые M главных компонентов Z 1 , …, Z M в качестве предикторов.
3. Решите, сколько основных компонентов оставить.
Затем мы используем k-кратную перекрестную проверку , чтобы найти оптимальное количество основных компонентов для сохранения в модели. «Оптимальное» количество основных компонентов, которое необходимо сохранить, обычно представляет собой число, которое дает наименьшую среднеквадратичную ошибку теста (MSE).
Плюсы и минусы регрессии основных компонентов
Регрессия основных компонентов (PCR) предлагает следующие плюсы :
- ПЦР, как правило, работает хорошо, когда первые несколько основных компонентов способны уловить большую часть вариаций предикторов вместе с взаимосвязью с переменной отклика.
- ПЦР может работать хорошо, даже когда переменные-предикторы сильно коррелированы, потому что она дает главные компоненты, которые ортогональны (т.е. не коррелированы) друг с другом.
- PCR не требует от вас выбирать, какие переменные-предикторы следует удалить из модели, поскольку каждый главный компонент использует линейную комбинацию всех переменных-предикторов.
- ПЦР можно использовать, когда переменных-предикторов больше, чем наблюдений, в отличие от множественной линейной регрессии.
Однако у ПЦР есть один недостаток:
- PCR не учитывает переменную отклика при принятии решения о том, какие основные компоненты оставить, а какие удалить. Вместо этого он рассматривает только величину дисперсии среди переменных-предикторов, захваченных главными компонентами. Возможно, что в некоторых случаях главные компоненты с наибольшими отклонениями на самом деле не могут хорошо предсказать переменную отклика.
На практике мы подбираем множество различных типов моделей (PCR, Ridge, Lasso, множественная линейная регрессия и т. д.) и используем k-кратную перекрестную проверку для определения модели, которая дает наименьшую тестовую MSE для новых данных.
В случаях, когда в исходном наборе данных присутствует мультиколлинеарность (что бывает часто), ПЦР имеет тенденцию работать лучше, чем обычная регрессия наименьших квадратов. Тем не менее рекомендуется использовать несколько разных моделей, чтобы можно было определить ту, которая лучше всего обобщает невидимые данные.
Регрессия основных компонентов в R & Python
В следующих руководствах показано, как выполнить регрессию основных компонентов в R и Python:
Регрессия основных компонентов в R (шаг за шагом)
Регрессия основных компонентов в Python (шаг за шагом)