Как создать фиктивные переменные в Excel (шаг за шагом)


Фиктивная переменная — это тип переменной, которую мы создаем в регрессионном анализе, чтобы мы могли представить категориальную переменную как числовую переменную, которая принимает одно из двух значений: ноль или единицу.

Например, предположим, что у нас есть следующий набор данных, и мы хотели бы использовать возраст и семейное положение для прогнозирования дохода :

Чтобы использовать семейное положение в качестве предиктора в регрессионной модели, мы должны преобразовать его в фиктивную переменную.

Поскольку в настоящее время это категориальная переменная, которая может принимать три разных значения («Холост», «Женат» или «Разведен»), нам нужно создать k -1 = 3-1 = 2 фиктивных переменных.

Чтобы создать эту фиктивную переменную, мы можем позволить «Single» быть нашим базовым значением, поскольку оно встречается чаще всего. Вот как мы можем преобразовать семейное положение в фиктивные переменные:

В этом руководстве представлен пошаговый пример того, как создать фиктивные переменные для этого точного набора данных в Excel, а затем выполнить регрессионный анализ, используя эти фиктивные переменные в качестве предикторов.

Шаг 1: Создайте данные

Сначала создадим набор данных в Excel:

Шаг 2: Создайте фиктивные переменные

Затем мы можем скопировать значения из столбцов A и B в столбцы E и F, а затем использовать функцию IF() в Excel, чтобы определить две новые фиктивные переменные: Married и Divorced.

Вот формула, которую мы использовали в ячейке G2 , которую мы скопировали в остальные ячейки в столбце G:

= IF (C2 = "Married", 1, 0)

А вот формула, которую мы использовали в ячейке H2 , которую мы скопировали в остальные ячейки в столбце H:

= IF (C2 = "Divorced", 1, 0)

Затем мы можем использовать эти фиктивные переменные в регрессионной модели для прогнозирования дохода.

Шаг 3: выполните линейную регрессию

Чтобы выполнить множественную линейную регрессию, нам нужно щелкнуть вкладку « Данные » на верхней ленте, а затем « Анализ данных» в разделе « Анализ »:

Если вы не видите эту опцию доступной, вам нужно сначала загрузить пакет инструментов анализа .

В появившемся окне нажмите « Регрессия », а затем нажмите « ОК ».

Затем заполните следующую информацию и нажмите OK .

Это дает следующий результат:

Из вывода мы видим, что подобранная линия регрессии:

Доход = 14 276,12 + 1 471,67*(возраст) + 2 479,75*(замужем) – 8 397,40*(разведен)

Мы можем использовать это уравнение, чтобы найти предполагаемый доход для человека в зависимости от его возраста и семейного положения. Например, доход 35-летнего человека, состоящего в браке, оценивается в 68 264 доллара США :

Доход = 14 276,12 + 1 471,67 * (35) + 2 479,75 * (1) - 8 397,40 * (0) = 68 264 доллара США.

Вот как интерпретировать коэффициенты регрессии из таблицы:

  • Пересечение: Пересечение представляет собой средний доход одного человека в возрасте 0 лет. Поскольку человеку не может быть ноль лет, в этой конкретной регрессионной модели нет смысла интерпретировать саму точку пересечения.
  • Возраст: каждый год увеличения возраста связан со средним увеличением дохода на 1471,67 доллара. Поскольку p-значение (0,004) меньше 0,05, возраст является статистически значимым предиктором дохода.
  • Женат: женатый человек в среднем зарабатывает на 2479,75 долларов больше, чем одинокий человек. Поскольку p-значение (0,800) не менее 0,05, эта разница не является статистически значимой.
  • Разведен: разведенный человек в среднем зарабатывает на 8 397,40 долларов меньше, чем одинокий человек. Поскольку p-значение (0,532) не менее 0,05, эта разница не является статистически значимой.

Поскольку обе фиктивные переменные не были статистически значимыми, мы могли исключить из модели семейное положение в качестве предиктора, поскольку оно, по-видимому, не добавляет никакой прогностической ценности для дохода.

Дополнительные ресурсы

Как выполнить простую линейную регрессию в Excel
Как рассчитать остаточную сумму квадратов в Excel
Как выполнить полиномиальную регрессию в Excel
Как создать остаточный график в Excel