Как рассчитать VIF в Excel

Как рассчитать VIF в Excel

Мультиколлинеарность в регрессионном анализе возникает, когда две или более независимых переменных сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации регрессионной модели.

К счастью, мультиколлинеарность можно обнаружить с помощью метрики, известной как коэффициент инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между независимыми переменными в регрессионной модели.

В этом руководстве объясняется, как рассчитать VIF в Excel.

Пример: расчет VIF в Excel

В этом примере мы выполним множественную линейную регрессию, используя следующий набор данных, описывающий атрибуты 10 баскетболистов. Мы подгоним регрессионную модель, используя рейтинг в качестве переменной отклика и очки, передачи и подборы в качестве объясняющих переменных. Затем мы определим значения VIF для каждой независимой переменной.

Необработанные данные в Excel

Шаг 1: Выполните множественную линейную регрессию.

В верхней ленте перейдите на вкладку «Данные» и нажмите «Анализ данных». Если вы не видите эту опцию, вам необходимо сначала установить бесплатный пакет инструментов анализа .

Пакет инструментов анализа данных в Excel

Как только вы нажмете «Анализ данных», появится новое окно. Выберите «Регрессия» и нажмите «ОК».

Регрессия с помощью пакета инструментов анализа данных в Excel

Заполните необходимые массивы для переменных ответа и независимых переменных, затем нажмите OK.

Множественная регрессия в Excel

Это дает следующий результат:

Вывод регрессии в Excel

Шаг 2: Рассчитайте VIF для каждой независимой переменной.

Затем мы можем рассчитать VIF для каждой из трех независимых переменных, выполнив отдельные регрессии, используя одну независимую переменную в качестве переменной отклика, а две другие — в качестве независимых переменных.

Например, мы можем рассчитать VIF для переменных очков , выполнив множественную линейную регрессию, используя очки в качестве переменной отклика, а передачи и подборы в качестве независимых переменных.

Это дает следующий результат:

Расчет VIF в Excel

VIF для очков рассчитывается как 1/(1 – R Square) = 1/(1 – 0,433099) = 1,76 .

Затем мы можем повторить этот процесс для двух других переменных: передач и подборов .

Получается, что VIF для трех объясняющих переменных таковы:

баллы: 1,76
передач: 1,96
подборов: 1,18

Как интерпретировать значения VIF

Значение VIF начинается с 1 и не имеет верхнего предела. Общее эмпирическое правило для интерпретации VIF выглядит следующим образом:

  • Значение 1 указывает на отсутствие корреляции между данной независимой переменной и любыми другими независимыми переменными в модели.
  • Значение от 1 до 5 указывает на умеренную корреляцию между данной объясняющей переменной и другими независимыми переменными в модели, но часто она недостаточно серьезна, чтобы требовать внимания.
  • Значение больше 5 указывает на потенциально сильную корреляцию между данной независимой переменной и другими независимыми переменными в модели. В этом случае оценки коэффициентов и p-значения в выходных данных регрессии, вероятно, ненадежны.

Учитывая, что каждое из значений VIF для независимых переменных в нашей регрессионной модели близко к 1, мультиколлинеарность в нашем примере не является проблемой.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.