Как рассчитать VIF в Excel


Мультиколлинеарность в регрессионном анализе возникает, когда две или более независимых переменных сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации регрессионной модели.

К счастью, мультиколлинеарность можно обнаружить с помощью метрики, известной как коэффициент инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между независимыми переменными в регрессионной модели.

В этом руководстве объясняется, как рассчитать VIF в Excel.

Пример: расчет VIF в Excel

В этом примере мы выполним множественную линейную регрессию, используя следующий набор данных, описывающий атрибуты 10 баскетболистов. Мы подгоним регрессионную модель, используя рейтинг в качестве переменной отклика и очки, передачи и подборы в качестве объясняющих переменных. Затем мы определим значения VIF для каждой независимой переменной.

Шаг 1: Выполните множественную линейную регрессию.

В верхней ленте перейдите на вкладку «Данные» и нажмите «Анализ данных». Если вы не видите эту опцию, вам необходимо сначала установить бесплатный пакет инструментов анализа .

Как только вы нажмете «Анализ данных», появится новое окно. Выберите «Регрессия» и нажмите «ОК».

Заполните необходимые массивы для переменных ответа и независимых переменных, затем нажмите OK.

Это дает следующий результат:

Шаг 2: Рассчитайте VIF для каждой независимой переменной.

Затем мы можем рассчитать VIF для каждой из трех независимых переменных, выполнив отдельные регрессии, используя одну независимую переменную в качестве переменной отклика, а две другие — в качестве независимых переменных.

Например, мы можем рассчитать VIF для переменных очков , выполнив множественную линейную регрессию, используя очки в качестве переменной отклика, а передачи и подборы в качестве независимых переменных.

Это дает следующий результат:

VIF для очков рассчитывается как 1/(1 – R Square) = 1/(1 – 0,433099) = 1,76 .

Затем мы можем повторить этот процесс для двух других переменных: передач и подборов .

Получается, что VIF для трех объясняющих переменных таковы:

баллы: 1,76
передач: 1,96
подборов: 1,18

Как интерпретировать значения VIF

Значение VIF начинается с 1 и не имеет верхнего предела. Общее эмпирическое правило для интерпретации VIF выглядит следующим образом:

  • Значение 1 указывает на отсутствие корреляции между данной независимой переменной и любыми другими независимыми переменными в модели.
  • Значение от 1 до 5 указывает на умеренную корреляцию между данной объясняющей переменной и другими независимыми переменными в модели, но часто она недостаточно серьезна, чтобы требовать внимания.
  • Значение больше 5 указывает на потенциально сильную корреляцию между данной независимой переменной и другими независимыми переменными в модели. В этом случае оценки коэффициентов и p-значения в выходных данных регрессии, вероятно, ненадежны.

Учитывая, что каждое из значений VIF для независимых переменных в нашей регрессионной модели близко к 1, мультиколлинеарность в нашем примере не является проблемой.