Когда использовать регрессию гребня и лассо

В обычной множественной линейной регрессии мы используем набор переменных предикторов p и переменную отклика, чтобы соответствовать модели формы:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p X p + ε

Значения β 0 , β 1 , B 2 , … , β p выбираются методом наименьших квадратов, который минимизирует сумму квадратов невязок (RSS):

RSS = Σ(y i – ŷ i ) 2

куда:

Σ : символ, означающий «сумма».
y i : Фактическое значение отклика для i -го наблюдения
ŷ i : прогнозируемое значение отклика для i -го наблюдения.

Проблема мультиколлинеарности в регрессии

Одной из проблем, которая часто возникает на практике с множественной линейной регрессией, является мультиколлинеарность , когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели.

Это может привести к тому, что оценки коэффициентов модели будут ненадежными и будут иметь высокую дисперсию. То есть, когда модель применяется к новому набору данных, которого она раньше не видела, она, скорее всего, будет работать плохо.

Как избежать мультиколлинеарности: регрессия гребня и лассо

Два метода, которые мы можем использовать, чтобы обойти эту проблему мультиколлинеарности, — это гребневая регрессия и лассо-регрессия .

Гребневая регрессия направлена на минимизацию следующего:

RSS + λΣβ j 2

Регрессия Лассо стремится минимизировать следующее:

RSS + λΣ|β j |

В обоих уравнениях второй член известен как штраф за усадку .

Когда λ = 0, этот штрафной член не имеет эффекта, и как регрессия гребня, так и регрессия лассо дают те же оценки коэффициентов, что и метод наименьших квадратов.

Однако по мере того, как λ приближается к бесконечности, штраф за сжатие становится более влиятельным, и переменные-предикторы, которые нельзя импортировать в модель, сжимаются до нуля.

При регрессии Лассо возможно, что некоторые коэффициенты могут полностью обнулиться, когда λ становится достаточно большим.

Плюсы и минусы ридж- и лассо-регрессии

Преимущество регрессии гребня и лассо по сравнению с регрессией методом наименьших квадратов заключается в компромиссе смещения и дисперсии .

Напомним, что среднеквадратическая ошибка (MSE) — это показатель, который мы можем использовать для измерения точности данной модели, и он рассчитывается как:

MSE = Var( f̂( x0)) + [Bias( f̂( x0))] 2 + Var(ε)

MSE = дисперсия + погрешность 2 + неустранимая ошибка

Основная идея как регрессии гребня, так и регрессии лассо состоит в том, чтобы ввести небольшое смещение, чтобы можно было существенно уменьшить дисперсию, что приводит к более низкому общему значению MSE.

Чтобы проиллюстрировать это, рассмотрим следующую диаграмму:

Компромисс смещения-дисперсии гребневой регрессии

Обратите внимание, что по мере увеличения λ дисперсия существенно падает с очень небольшим увеличением смещения. Однако после определенного момента дисперсия уменьшается менее быстро, а сокращение коэффициентов приводит к их значительному недооцениванию, что приводит к значительному увеличению систематической ошибки.

Из диаграммы видно, что тестовая MSE является самой низкой, когда мы выбираем значение для λ, которое обеспечивает оптимальный компромисс между смещением и дисперсией.

Когда λ = 0, штрафной член в регрессии лассо не имеет эффекта и, таким образом, дает те же оценки коэффициентов, что и метод наименьших квадратов. Однако, увеличивая λ до определенной точки, мы можем уменьшить общую тестовую MSE.

Компромисс смещения-дисперсии регрессии Лассо

Это означает, что модель, подобранная с помощью регрессии гребня и лассо, может потенциально давать меньшие ошибки тестирования, чем модель, подобранная с помощью регрессии наименьших квадратов.

Недостаток регрессии гребня и лассо заключается в том, что становится трудно интерпретировать коэффициенты в окончательной модели, поскольку они сжимаются до нуля.

Таким образом, гребенчатую регрессию и регрессию лассо следует использовать, когда вы заинтересованы в оптимизации для прогнозирующей способности, а не для логического вывода.

Ридж против регрессии Лассо: когда использовать каждый

И л -ассо-регрессия, и гребенчатая регрессия известны как методы регуляризации, потому что они оба пытаются минимизировать сумму квадратов остатков (RSS) вместе с некоторым штрафным членом.

Другими словами, они ограничивают или упорядочивают оценки коэффициентов модели.

Это естественно поднимает вопрос: лучше ли регрессия гребня или лассо?

В случаях, когда значимым является лишь небольшое количество переменных-предикторов, регрессия лассо имеет тенденцию работать лучше, потому что она способна полностью сжать незначимые переменные до нуля и удалить их из модели.

Однако, когда в модели значимы многие переменные-предикторы и их коэффициенты примерно равны, гребневая регрессия имеет тенденцию работать лучше, поскольку она сохраняет все предикторы в модели.

Чтобы определить, какая модель лучше делает прогнозы, мы обычно выполняем k-кратную перекрестную проверку и выбираем ту модель, которая дает наименьшую среднеквадратичную ошибку теста.

Дополнительные ресурсы

Следующие учебные пособия представляют собой введение в регрессию Ridge и Lasso:

В следующих руководствах объясняется, как выполнить оба типа регрессии в R и Python: