Что такое ловушка с фиктивной переменной? (Определение и пример)

Линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной- откликом .

Обычно мы используем линейную регрессию с количественными переменными.Иногда называемые «числовыми» переменными, это переменные, которые представляют измеримую величину. Примеры включают:

Количество квадратных метров в доме
Численность населения города
Возраст человека

Однако иногда мы хотим использовать категориальные переменные в качестве переменных-предикторов. Это переменные, которые принимают имена или метки и могут вписываться в категории. Примеры включают:

Цвет глаз (например, «голубой», «зеленый», «карий»)
Пол (например, «мужской», «женский»)
Семейное положение (например, «замужем», «холост», «разведен»)

При использовании категориальных переменных не имеет смысла просто присваивать такие значения, как 1, 2, 3, таким значениям, как «синий», «зеленый» и «коричневый», потому что бессмысленно говорить, что зеленый дважды такой же красочный, как синий, или что коричневый в три раза красочнее синего.

Вместо этого решение состоит в использовании фиктивных переменных.Это переменные, которые мы создаем специально для регрессионного анализа и которые принимают одно из двух значений: ноль или единицу.

Количество фиктивных переменных, которые мы должны создать, равно k -1, где k — это количество различных значений, которые может принимать категориальная переменная.

Например, предположим, что у нас есть следующий набор данных, и мы хотели бы использовать семейное положение и возраст для прогнозирования дохода :

Чтобы использовать семейное положение в качестве предиктора в регрессионной модели, мы должны преобразовать его в фиктивную переменную.

Поскольку в настоящее время это категориальная переменная, которая может принимать три разных значения («Холост», «Женат» или «Разведен»), нам нужно создать k -1 = 3-1 = 2 фиктивных переменных.

Чтобы создать эту фиктивную переменную, мы можем позволить «Single» быть нашим базовым значением, поскольку оно встречается чаще всего. Таким образом, вот как мы можем преобразовать семейное положение в фиктивные переменные:

Затем мы могли бы использовать Age , Married и Divorced в качестве переменных-предикторов в регрессионной модели.

При создании фиктивных переменных может возникнуть проблема, известная как ловушка фиктивных переменных.Это происходит, когда мы создаем k фиктивных переменных вместо k -1 фиктивных переменных.

Когда это произойдет, по крайней мере две фиктивные переменные будут страдать от идеальной мультиколлинеарности.То есть они будут идеально коррелированы. Это приводит к неверным расчетам коэффициентов регрессии и соответствующих им p-значений.

Ловушка фиктивных переменных: когда количество созданных фиктивных переменных равно количеству значений, которые может принимать категориальное значение. Это приводит к мультиколлинеарности, что приводит к неправильным расчетам коэффициентов регрессии и p-значений.

Например, предположим, что мы преобразовали семейное положение в следующие фиктивные переменные:

В этом случае Холостые и Женатые прекрасно коррелируют и имеют коэффициент корреляции -1.

Таким образом, когда мы перейдем к выполнению множественной линейной регрессии, расчеты коэффициентов регрессии будут неверными.

Как избежать ловушки фиктивных переменных

Вам нужно запомнить только одно правило, чтобы избежать ловушки фиктивной переменной:

Если категориальная переменная может принимать k различных значений, вам следует создать только k-1 фиктивных переменных для использования в регрессионной модели.

Например, предположим, что вы хотите преобразовать категориальную переменную «учебный год» в фиктивные переменные. Предположим, что эта переменная принимает следующие значения:

Первокурсник
второкурсник
Джуниор
Старший

Поскольку эта переменная может принимать 4 разных значения, мы создадим только 3 фиктивные переменные. Например, наши фиктивные переменные могут быть:

Х 1 = 1, если второкурсник; 0 иначе
Х 2 = 1, если Младший; 0 иначе
Х 3 = 1, если старший; 0 иначе

Поскольку количество фиктивных переменных на единицу меньше, чем количество значений, которые может принимать «учебный год», мы можем избежать ловушки фиктивных переменных и проблемы мультиколлинеарности.

Дополнительные ресурсы

Как использовать фиктивные переменные в регрессионном анализе
Введение в множественную линейную регрессию
Руководство по мультиколлинеарности в регрессии

Что такое ловушка с фиктивной переменной? (Определение и пример)

Как избежать ловушки фиктивных переменных

Дополнительные ресурсы

Редакция Кодкампа