Руководство по мультиколлинеарности и VIF в регрессии

Мультиколлинеарность в регрессионном анализе возникает, когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели.

Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации регрессионной модели.

Например, предположим, что вы запускаете регрессионный анализ, используя переменную ответа максимального вертикального прыжка и следующие переменные-предикторы:

высота
размер обуви
часов занятий в день

В этом случае рост и размер обуви , вероятно, будут сильно коррелировать друг с другом, поскольку у более высоких людей, как правило, размер обуви больше. Это означает, что мультиколлинеарность, вероятно, будет проблемой в этой регрессии.

В этом руководстве объясняется, почему мультиколлинеарность является проблемой, как ее обнаружить и как решить.

Почему мультиколлинеарность является проблемой

Одна из основных целей регрессионного анализа состоит в том, чтобы изолировать взаимосвязь между каждой переменной-предиктором и переменной-откликом.

В частности, когда мы проводим регрессионный анализ, мы интерпретируем каждый коэффициент регрессии как среднее изменение переменной отклика, предполагая, что все другие переменные-предикторы в модели остаются постоянными.

Это означает, что мы предполагаем, что можем изменить значения данной переменной-предиктора без изменения значений других переменных-предикторов.

Однако, когда две или более переменных-предикторов сильно коррелированы, становится трудно изменить одну переменную, не изменив другую.

Это затрудняет для регрессионной модели независимую оценку взаимосвязи между каждой переменной-предиктором и переменной отклика, поскольку переменные-предикторы имеют тенденцию изменяться в унисон.

В целом, мультиколлинеарность вызывает два типа проблем:

Оценки коэффициентов модели (и даже знаки коэффициентов) могут значительно колебаться в зависимости от того, какие другие предикторы включены в модель.
Точность оценок коэффициентов снижается, что делает p-значения ненадежными. Это затрудняет определение того, какие переменные-предикторы на самом деле являются статистически значимыми.

Как обнаружить мультиколлинеарность

Наиболее распространенным способом обнаружения мультиколлинеарности является использование коэффициента инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели.

Использование коэффициента инфляции дисперсии (VIF)

Большинство статистических программ позволяют вычислять VIF для регрессионной модели. Значение VIF начинается с 1 и не имеет верхнего предела. Общее эмпирическое правило для интерпретации VIF выглядит следующим образом:

Значение 1 указывает на отсутствие корреляции между данной переменной-предиктором и любыми другими переменными-предикторами в модели.
Значение от 1 до 5 указывает на умеренную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели, но часто она недостаточно серьезная, чтобы требовать внимания.
Значение больше 5 указывает на потенциально сильную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели. В этом случае оценки коэффициентов и p-значения в выходных данных регрессии, вероятно, ненадежны.

Например, предположим, что мы запускаем регрессионный анализ, используя переменные-предикторы рост , размер обуви и количество часов, потраченных на тренировки в день , чтобы предсказать максимальный вертикальный прыжок для баскетболистов и получить следующий результат:

Из последнего столбца мы видим, что значения VIF для роста и размера обуви больше 5. Это указывает на то, что они, вероятно, страдают от мультиколлинеарности и что их оценки коэффициентов и p-значения, вероятно, ненадежны.

Если мы посмотрим на оценку коэффициента для размера обуви, модель говорит нам, что для каждой дополнительной единицы увеличения размера обуви среднее увеличение максимального вертикального прыжка составляет -0,67498 дюйма, при условии, что рост и количество часов практики остаются постоянными.

Кажется, это не имеет смысла, учитывая, что мы ожидаем, что игроки с большим размером обуви будут выше и, следовательно, будут иметь более высокий максимальный вертикальный прыжок.

Это классический пример мультиколлинеарности, из-за которого оценки коэффициентов кажутся немного причудливыми и неинтуитивными.

Как разрешить мультиколлинеарность

Если вы обнаружите мультиколлинеарность, следующим шагом будет решить, нужно ли вам каким-то образом разрешить ее. В зависимости от цели вашего регрессионного анализа вам может и не понадобиться разрешать мультиколлинеарность.

А именно:

1. Если имеется только умеренная мультиколлинеарность, вам, вероятно, не нужно ее каким-либо образом разрешать.

2. Мультиколлинеарность влияет только на те переменные-предикторы, которые коррелируют друг с другом. Если вас интересует предикторная переменная в модели, которая не страдает мультиколлинеарностью, то мультиколлинеарность не имеет значения.

3. Мультиколлинеарность влияет на оценки коэффициентов и p-значения, но не влияет на прогнозы или статистику согласия. Это означает, что если ваша основная цель регрессии состоит в том, чтобы делать прогнозы, и вы не заинтересованы в понимании точной взаимосвязи между переменными-предикторами и переменной-ответом, тогда мультиколлинеарность не нужно разрешать.

Если вы решите, что вам нужно исправить мультиколлинеарность, то некоторые общие решения включают в себя:

1. Удалите одну или несколько сильно коррелированных переменных. В большинстве случаев это самое быстрое исправление, и часто оно является приемлемым решением, поскольку удаляемые переменные в любом случае являются избыточными и добавляют мало уникальной или независимой информации в модель.

2. Каким-то образом линейно комбинировать переменные-предикторы, например добавлять или вычитать их одним способом. Таким образом, вы можете создать одну новую переменную, которая включает информацию из обеих переменных, и у вас больше не будет проблемы мультиколлинеарности.

3. Выполните анализ, предназначенный для учета переменных с высокой степенью корреляции, таких как анализ основных компонентов или частичная регрессия методом наименьших квадратов (PLS) . Эти методы специально разработаны для работы с сильно коррелированными предикторными переменными.