Введение в частичные наименьшие квадраты


Одной из наиболее распространенных проблем, с которыми вы столкнетесь в машинном обучении, является мультиколлинеарность.Это происходит, когда две или более переменных-предикторов в наборе данных сильно коррелированы.

Когда это происходит, модель может хорошо соответствовать обучающему набору данных, но она может плохо работать с новым набором данных, который она никогда не видела, потому что он превосходит обучающий набор.

Один из способов обойти проблему мультиколлинеарности — использовать регрессию основных компонентов , которая вычисляет M линейных комбинаций (известных как «главные компоненты») исходных переменных p -предикторов, а затем использует метод наименьших квадратов для подбора модели линейной регрессии с использованием главные компоненты как предикторы.

Недостатком регрессии основных компонентов (PCR) является то, что она не учитывает переменную отклика при расчете основных компонентов.

Вместо этого он рассматривает только величину дисперсии среди переменных-предикторов, захваченных главными компонентами. Из-за этого возможно, что в некоторых случаях главные компоненты с наибольшей дисперсией на самом деле не могут хорошо предсказать переменную отклика.

Метод, связанный с ПЦР, известен как частичный метод наименьших квадратов.Подобно PCR, частичный метод наименьших квадратов вычисляет M линейных комбинаций (известных как «компоненты PLS») исходных переменных-предикторов p и использует метод наименьших квадратов для подбора модели линейной регрессии с использованием компонентов PLS в качестве предикторов.

Но, в отличие от ПЦР, частичный метод наименьших квадратов пытается найти линейные комбинации, которые объясняют изменение как переменной отклика, так и переменных-предикторов.

Шаги для выполнения частичных наименьших квадратов

На практике для выполнения частичного метода наименьших квадратов используются следующие шаги.

1. Стандартизируйте данные таким образом, чтобы все переменные-предикторы и переменная отклика имели среднее значение 0 и стандартное отклонение 1. Это гарантирует, что каждая переменная измеряется по одной и той же шкале.

2. Вычислите Z 1 , …, Z M как M линейных комбинаций исходных p предикторов.

  • Z m = ΣΦ jm X j для некоторых констант Φ 1m , Φ 2m , Φ pm , m = 1, …, M.
  • Чтобы вычислить Z 1 , установите Φ j1 равным коэффициенту простой линейной регрессии Y на X j — это линейная комбинация предикторов, которая фиксирует максимально возможную дисперсию.
  • Чтобы вычислить Z 2 , регрессируйте каждую переменную по Z 1 и возьмите остатки. Затем рассчитайте Z 2 , используя эти ортогональные данные точно так же, как рассчитывали Z 1 .
  • Повторите этот процесс M раз, чтобы получить M компонентов PLS.

3. Используйте метод наименьших квадратов, чтобы подобрать модель линейной регрессии, используя компоненты PLS Z 1 , …, Z M в качестве предикторов.

4. Наконец, используйте k-кратную перекрестную проверку , чтобы найти оптимальное количество компонентов PLS для сохранения в модели. Обычно «оптимальным» количеством сохраняемых компонентов PLS является число, дающее наименьшую среднеквадратичную ошибку теста (MSE).

Вывод

В случаях, когда в наборе данных присутствует мультиколлинеарность, частичный метод наименьших квадратов имеет тенденцию работать лучше, чем обычная регрессия наименьших квадратов. Тем не менее, было бы неплохо подобрать несколько разных моделей, чтобы мы могли определить ту, которая лучше всего обобщает невидимые данные.

На практике мы подбираем множество различных типов моделей (PLS, PCR , Ridge , Lasso , множественная линейная регрессия и т. д.) к набору данных и используем k-кратную перекрестную проверку для определения модели, которая дает наименьшую тестовую MSE для новых данных. .

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.