Что такое ловушка с фиктивной переменной? (Определение и пример)


Линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной- откликом .

Обычно мы используем линейную регрессию с количественными переменными.Иногда называемые «числовыми» переменными, это переменные, которые представляют измеримую величину. Примеры включают:

  • Количество квадратных метров в доме
  • Численность населения города
  • Возраст человека

Однако иногда мы хотим использовать категориальные переменные в качестве переменных-предикторов. Это переменные, которые принимают имена или метки и могут вписываться в категории. Примеры включают:

  • Цвет глаз (например, «голубой», «зеленый», «карий»)
  • Пол (например, «мужской», «женский»)
  • Семейное положение (например, «замужем», «холост», «разведен»)

При использовании категориальных переменных не имеет смысла просто присваивать такие значения, как 1, 2, 3, таким значениям, как «синий», «зеленый» и «коричневый», потому что бессмысленно говорить, что зеленый дважды такой же красочный, как синий, или что коричневый в три раза красочнее синего.

Вместо этого решение состоит в использовании фиктивных переменных.Это переменные, которые мы создаем специально для регрессионного анализа и которые принимают одно из двух значений: ноль или единицу.

Количество фиктивных переменных, которые мы должны создать, равно k -1, где k — это количество различных значений, которые может принимать категориальная переменная.

Например, предположим, что у нас есть следующий набор данных, и мы хотели бы использовать семейное положение и возраст для прогнозирования дохода :

Чтобы использовать семейное положение в качестве предиктора в регрессионной модели, мы должны преобразовать его в фиктивную переменную.

Поскольку в настоящее время это категориальная переменная, которая может принимать три разных значения («Холост», «Женат» или «Разведен»), нам нужно создать k -1 = 3-1 = 2 фиктивных переменных.

Чтобы создать эту фиктивную переменную, мы можем позволить «Single» быть нашим базовым значением, поскольку оно встречается чаще всего. Таким образом, вот как мы можем преобразовать семейное положение в фиктивные переменные:

Затем мы могли бы использовать Age , Married и Divorced в качестве переменных-предикторов в регрессионной модели.

При создании фиктивных переменных может возникнуть проблема, известная как ловушка фиктивных переменных.Это происходит, когда мы создаем k фиктивных переменных вместо k -1 фиктивных переменных.

Когда это произойдет, по крайней мере две фиктивные переменные будут страдать от идеальной мультиколлинеарности.То есть они будут идеально коррелированы. Это приводит к неверным расчетам коэффициентов регрессии и соответствующих им p-значений.

Ловушка фиктивных переменных: когда количество созданных фиктивных переменных равно количеству значений, которые может принимать категориальное значение. Это приводит к мультиколлинеарности, что приводит к неправильным расчетам коэффициентов регрессии и p-значений.

Например, предположим, что мы преобразовали семейное положение в следующие фиктивные переменные:

В этом случае Холостые и Женатые прекрасно коррелируют и имеют коэффициент корреляции -1.

Таким образом, когда мы перейдем к выполнению множественной линейной регрессии, расчеты коэффициентов регрессии будут неверными.

Как избежать ловушки фиктивных переменных

Вам нужно запомнить только одно правило, чтобы избежать ловушки фиктивной переменной:

Если категориальная переменная может принимать k различных значений, вам следует создать только k-1 фиктивных переменных для использования в регрессионной модели.

Например, предположим, что вы хотите преобразовать категориальную переменную «учебный год» в фиктивные переменные. Предположим, что эта переменная принимает следующие значения:

  • Первокурсник
  • второкурсник
  • Джуниор
  • Старший

Поскольку эта переменная может принимать 4 разных значения, мы создадим только 3 фиктивные переменные. Например, наши фиктивные переменные могут быть:

  • Х 1 = 1, если второкурсник; 0 иначе
  • Х 2 = 1, если Младший; 0 иначе
  • Х 3 = 1, если старший; 0 иначе

Поскольку количество фиктивных переменных на единицу меньше, чем количество значений, которые может принимать «учебный год», мы можем избежать ловушки фиктивных переменных и проблемы мультиколлинеарности.

Дополнительные ресурсы

Как использовать фиктивные переменные в регрессионном анализе
Введение в множественную линейную регрессию
Руководство по мультиколлинеарности в регрессии