Руководство по мультиколлинеарности и VIF в регрессии


Мультиколлинеарность в регрессионном анализе возникает, когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели.

Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации регрессионной модели.

Например, предположим, что вы запускаете регрессионный анализ, используя переменную ответа максимального вертикального прыжка и следующие переменные-предикторы:

  • высота
  • размер обуви
  • часов занятий в день

В этом случае рост и размер обуви , вероятно, будут сильно коррелировать друг с другом, поскольку у более высоких людей, как правило, размер обуви больше. Это означает, что мультиколлинеарность, вероятно, будет проблемой в этой регрессии.

В этом руководстве объясняется, почему мультиколлинеарность является проблемой, как ее обнаружить и как решить.

Почему мультиколлинеарность является проблемой

Одна из основных целей регрессионного анализа состоит в том, чтобы изолировать взаимосвязь между каждой переменной-предиктором и переменной-откликом.

В частности, когда мы проводим регрессионный анализ, мы интерпретируем каждый коэффициент регрессии как среднее изменение переменной отклика, предполагая, что все другие переменные-предикторы в модели остаются постоянными.

Это означает, что мы предполагаем, что можем изменить значения данной переменной-предиктора без изменения значений других переменных-предикторов.

Однако, когда две или более переменных-предикторов сильно коррелированы, становится трудно изменить одну переменную, не изменив другую.

Это затрудняет для регрессионной модели независимую оценку взаимосвязи между каждой переменной-предиктором и переменной отклика, поскольку переменные-предикторы имеют тенденцию изменяться в унисон.

В целом, мультиколлинеарность вызывает два типа проблем:

  • Оценки коэффициентов модели (и даже знаки коэффициентов) могут значительно колебаться в зависимости от того, какие другие предикторы включены в модель.
  • Точность оценок коэффициентов снижается, что делает p-значения ненадежными. Это затрудняет определение того, какие переменные-предикторы на самом деле являются статистически значимыми.

Как обнаружить мультиколлинеарность

Наиболее распространенным способом обнаружения мультиколлинеарности является использование коэффициента инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели.

Использование коэффициента инфляции дисперсии (VIF)

Большинство статистических программ позволяют вычислять VIF для регрессионной модели. Значение VIF начинается с 1 и не имеет верхнего предела. Общее эмпирическое правило для интерпретации VIF выглядит следующим образом:

  • Значение 1 указывает на отсутствие корреляции между данной переменной-предиктором и любыми другими переменными-предикторами в модели.
  • Значение от 1 до 5 указывает на умеренную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели, но часто она недостаточно серьезная, чтобы требовать внимания.
  • Значение больше 5 указывает на потенциально сильную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели. В этом случае оценки коэффициентов и p-значения в выходных данных регрессии, вероятно, ненадежны.

Например, предположим, что мы запускаем регрессионный анализ, используя переменные-предикторы рост , размер обуви и количество часов, потраченных на тренировки в день , чтобы предсказать максимальный вертикальный прыжок для баскетболистов и получить следующий результат:

Из последнего столбца мы видим, что значения VIF для роста и размера обуви больше 5. Это указывает на то, что они, вероятно, страдают от мультиколлинеарности и что их оценки коэффициентов и p-значения, вероятно, ненадежны.

Если мы посмотрим на оценку коэффициента для размера обуви, модель говорит нам, что для каждой дополнительной единицы увеличения размера обуви среднее увеличение максимального вертикального прыжка составляет -0,67498 дюйма, при условии, что рост и количество часов практики остаются постоянными.

Кажется, это не имеет смысла, учитывая, что мы ожидаем, что игроки с большим размером обуви будут выше и, следовательно, будут иметь более высокий максимальный вертикальный прыжок.

Это классический пример мультиколлинеарности, из-за которого оценки коэффициентов кажутся немного причудливыми и неинтуитивными.

Как разрешить мультиколлинеарность

Если вы обнаружите мультиколлинеарность, следующим шагом будет решить, нужно ли вам каким-то образом разрешить ее. В зависимости от цели вашего регрессионного анализа вам может и не понадобиться разрешать мультиколлинеарность.

А именно:

1. Если имеется только умеренная мультиколлинеарность, вам, вероятно, не нужно ее каким-либо образом разрешать.

2. Мультиколлинеарность влияет только на те переменные-предикторы, которые коррелируют друг с другом. Если вас интересует предикторная переменная в модели, которая не страдает мультиколлинеарностью, то мультиколлинеарность не имеет значения.

3. Мультиколлинеарность влияет на оценки коэффициентов и p-значения, но не влияет на прогнозы или статистику согласия. Это означает, что если ваша основная цель регрессии состоит в том, чтобы делать прогнозы, и вы не заинтересованы в понимании точной взаимосвязи между переменными-предикторами и переменной-ответом, тогда мультиколлинеарность не нужно разрешать.

Если вы решите, что вам нужно исправить мультиколлинеарность, то некоторые общие решения включают в себя:

1. Удалите одну или несколько сильно коррелированных переменных. В большинстве случаев это самое быстрое исправление, и часто оно является приемлемым решением, поскольку удаляемые переменные в любом случае являются избыточными и добавляют мало уникальной или независимой информации в модель.

2. Каким-то образом линейно комбинировать переменные-предикторы, например добавлять или вычитать их одним способом. Таким образом, вы можете создать одну новую переменную, которая включает информацию из обеих переменных, и у вас больше не будет проблемы мультиколлинеарности.

3. Выполните анализ, предназначенный для учета переменных с высокой степенью корреляции, таких как анализ основных компонентов или частичная регрессия методом наименьших квадратов (PLS) . Эти методы специально разработаны для работы с сильно коррелированными предикторными переменными.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.