Как проверить мультиколлинеарность в SPSS


Мультиколлинеарность в регрессионном анализе возникает, когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подгонке и интерпретации регрессионной модели.

Одним из способов обнаружения мультиколлинеарности является использование показателя, известного как коэффициент инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели.

В этом руководстве объясняется, как использовать VIF для обнаружения мультиколлинеарности в регрессионном анализе в SPSS.

Пример: Мультиколлинеарность в SPSS

Предположим, у нас есть следующий набор данных, который показывает экзаменационные баллы 10 студентов, а также количество часов, которые они потратили на учебу, количество сданных подготовительных экзаменов и их текущую оценку по курсу:

Мы хотели бы выполнить линейную регрессию, используя score в качестве переменной ответа и hours , prep_exams и current_grade в качестве переменных-предикторов, но мы хотим убедиться, что три переменные-предикторы не сильно коррелированы.

Чтобы определить, является ли мультиколлинеарность проблемой, мы можем получить значения VIF для каждой из переменных-предикторов.

Для этого щелкните вкладку « Анализ », затем « Регрессия », затем « Линейный »:

В появившемся новом окне перетащите оценку в поле с надписью Зависимые и перетащите три предиктора в поле с надписью Независимые(ые). Затем нажмите « Статистика » и убедитесь, что рядом с «Диагностика коллинеарности » установлен флажок. Затем нажмите «Продолжить».Затем нажмите ОК .

После того, как вы нажмете OK , отобразится следующая таблица, в которой показано значение VIF для каждой переменной-предиктора:

Значения VIF для каждой из переменных-предикторов следующие:

  • часов: 1.169
  • prep_exams: 1.403
  • текущий_класс: 1.522

Значение VIF начинается с 1 и не имеет верхнего предела. Общее эмпирическое правило для интерпретации VIF выглядит следующим образом:

  • Значение 1 указывает на отсутствие корреляции между данной переменной-предиктором и любыми другими переменными-предикторами в модели.
  • Значение от 1 до 5 указывает на умеренную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели, но часто она недостаточно серьезная, чтобы требовать внимания.
  • Значение больше 5 указывает на потенциально сильную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели. В этом случае оценки коэффициентов и p-значения в выходных данных регрессии, вероятно, ненадежны.

Мы видим, что ни одно из значений VIF для переменных-предикторов в этом примере не превышает 5, что указывает на то, что мультиколлинеарность не будет проблемой в регрессионной модели.