Мультиколлинеарность в регрессионном анализе возникает, когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели.
Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации регрессионной модели.
Например, предположим, что вы запускаете регрессионный анализ, используя переменную ответа максимального вертикального прыжка и следующие переменные-предикторы:
- высота
- размер обуви
- часов занятий в день
В этом случае рост и размер обуви , вероятно, будут сильно коррелировать друг с другом, поскольку у более высоких людей, как правило, размер обуви больше. Это означает, что мультиколлинеарность, вероятно, будет проблемой в этой регрессии.
В этом руководстве объясняется, почему мультиколлинеарность является проблемой, как ее обнаружить и как решить.
Почему мультиколлинеарность является проблемой
Одна из основных целей регрессионного анализа состоит в том, чтобы изолировать взаимосвязь между каждой переменной-предиктором и переменной-откликом.
В частности, когда мы проводим регрессионный анализ, мы интерпретируем каждый коэффициент регрессии как среднее изменение переменной отклика, предполагая, что все другие переменные-предикторы в модели остаются постоянными.
Это означает, что мы предполагаем, что можем изменить значения данной переменной-предиктора без изменения значений других переменных-предикторов.
Однако, когда две или более переменных-предикторов сильно коррелированы, становится трудно изменить одну переменную, не изменив другую.
Это затрудняет для регрессионной модели независимую оценку взаимосвязи между каждой переменной-предиктором и переменной отклика, поскольку переменные-предикторы имеют тенденцию изменяться в унисон.
В целом, мультиколлинеарность вызывает два типа проблем:
- Оценки коэффициентов модели (и даже знаки коэффициентов) могут значительно колебаться в зависимости от того, какие другие предикторы включены в модель.
- Точность оценок коэффициентов снижается, что делает p-значения ненадежными. Это затрудняет определение того, какие переменные-предикторы на самом деле являются статистически значимыми.
Как обнаружить мультиколлинеарность
Наиболее распространенным способом обнаружения мультиколлинеарности является использование коэффициента инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели.
Использование коэффициента инфляции дисперсии (VIF)
Большинство статистических программ позволяют вычислять VIF для регрессионной модели. Значение VIF начинается с 1 и не имеет верхнего предела. Общее эмпирическое правило для интерпретации VIF выглядит следующим образом:
- Значение 1 указывает на отсутствие корреляции между данной переменной-предиктором и любыми другими переменными-предикторами в модели.
- Значение от 1 до 5 указывает на умеренную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели, но часто она недостаточно серьезная, чтобы требовать внимания.
- Значение больше 5 указывает на потенциально сильную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели. В этом случае оценки коэффициентов и p-значения в выходных данных регрессии, вероятно, ненадежны.
Например, предположим, что мы запускаем регрессионный анализ, используя переменные-предикторы рост , размер обуви и количество часов, потраченных на тренировки в день , чтобы предсказать максимальный вертикальный прыжок для баскетболистов и получить следующий результат:
Из последнего столбца мы видим, что значения VIF для роста и размера обуви больше 5. Это указывает на то, что они, вероятно, страдают от мультиколлинеарности и что их оценки коэффициентов и p-значения, вероятно, ненадежны.
Если мы посмотрим на оценку коэффициента для размера обуви, модель говорит нам, что для каждой дополнительной единицы увеличения размера обуви среднее увеличение максимального вертикального прыжка составляет -0,67498 дюйма, при условии, что рост и количество часов практики остаются постоянными.
Кажется, это не имеет смысла, учитывая, что мы ожидаем, что игроки с большим размером обуви будут выше и, следовательно, будут иметь более высокий максимальный вертикальный прыжок.
Это классический пример мультиколлинеарности, из-за которого оценки коэффициентов кажутся немного причудливыми и неинтуитивными.
Как разрешить мультиколлинеарность
Если вы обнаружите мультиколлинеарность, следующим шагом будет решить, нужно ли вам каким-то образом разрешить ее. В зависимости от цели вашего регрессионного анализа вам может и не понадобиться разрешать мультиколлинеарность.
А именно:
1. Если имеется только умеренная мультиколлинеарность, вам, вероятно, не нужно ее каким-либо образом разрешать.
2. Мультиколлинеарность влияет только на те переменные-предикторы, которые коррелируют друг с другом. Если вас интересует предикторная переменная в модели, которая не страдает мультиколлинеарностью, то мультиколлинеарность не имеет значения.
3. Мультиколлинеарность влияет на оценки коэффициентов и p-значения, но не влияет на прогнозы или статистику согласия. Это означает, что если ваша основная цель регрессии состоит в том, чтобы делать прогнозы, и вы не заинтересованы в понимании точной взаимосвязи между переменными-предикторами и переменной-ответом, тогда мультиколлинеарность не нужно разрешать.
Если вы решите, что вам нужно исправить мультиколлинеарность, то некоторые общие решения включают в себя:
1. Удалите одну или несколько сильно коррелированных переменных. В большинстве случаев это самое быстрое исправление, и часто оно является приемлемым решением, поскольку удаляемые переменные в любом случае являются избыточными и добавляют мало уникальной или независимой информации в модель.
2. Каким-то образом линейно комбинировать переменные-предикторы, например добавлять или вычитать их одним способом. Таким образом, вы можете создать одну новую переменную, которая включает информацию из обеих переменных, и у вас больше не будет проблемы мультиколлинеарности.
3. Выполните анализ, предназначенный для учета переменных с высокой степенью корреляции, таких как анализ основных компонентов или частичная регрессия методом наименьших квадратов (PLS) . Эти методы специально разработаны для работы с сильно коррелированными предикторными переменными.