Как создать фиктивные переменные в Excel (шаг за шагом)

Как создать фиктивные переменные в Excel (шаг за шагом)

Фиктивная переменная — это тип переменной, которую мы создаем в регрессионном анализе, чтобы мы могли представить категориальную переменную как числовую переменную, которая принимает одно из двух значений: ноль или единицу.

Например, предположим, что у нас есть следующий набор данных, и мы хотели бы использовать возраст и семейное положение для прогнозирования дохода :

Чтобы использовать семейное положение в качестве предиктора в регрессионной модели, мы должны преобразовать его в фиктивную переменную.

Поскольку в настоящее время это категориальная переменная, которая может принимать три разных значения («Холост», «Женат» или «Разведен»), нам нужно создать k -1 = 3-1 = 2 фиктивных переменных.

Чтобы создать эту фиктивную переменную, мы можем позволить «Single» быть нашим базовым значением, поскольку оно встречается чаще всего. Вот как мы можем преобразовать семейное положение в фиктивные переменные:

В этом руководстве представлен пошаговый пример того, как создать фиктивные переменные для этого точного набора данных в Excel, а затем выполнить регрессионный анализ, используя эти фиктивные переменные в качестве предикторов.

Шаг 1: Создайте данные

Сначала создадим набор данных в Excel:

Шаг 2: Создайте фиктивные переменные

Затем мы можем скопировать значения из столбцов A и B в столбцы E и F, а затем использовать функцию IF() в Excel, чтобы определить две новые фиктивные переменные: Married и Divorced.

Пустые переменные в Excel

Вот формула, которую мы использовали в ячейке G2 , которую мы скопировали в остальные ячейки в столбце G:

= IF (C2 = "Married", 1, 0)

А вот формула, которую мы использовали в ячейке H2 , которую мы скопировали в остальные ячейки в столбце H:

= IF (C2 = "Divorced", 1, 0)

Затем мы можем использовать эти фиктивные переменные в регрессионной модели для прогнозирования дохода.

Шаг 3: выполните линейную регрессию

Чтобы выполнить множественную линейную регрессию, нам нужно щелкнуть вкладку « Данные » на верхней ленте, а затем « Анализ данных» в разделе « Анализ »:

Если вы не видите эту опцию доступной, вам нужно сначала загрузить пакет инструментов анализа .

В появившемся окне нажмите « Регрессия », а затем нажмите « ОК ».

Затем заполните следующую информацию и нажмите OK .

Фиктивные переменные в регрессии в Excel

Это дает следующий результат:

Регрессия с фиктивными переменными в Excel

Из вывода мы видим, что подобранная линия регрессии:

Доход = 14 276,12 + 1 471,67*(возраст) + 2 479,75*(замужем) – 8 397,40*(разведен)

Мы можем использовать это уравнение, чтобы найти предполагаемый доход для человека в зависимости от его возраста и семейного положения. Например, доход 35-летнего человека, состоящего в браке, оценивается в 68 264 доллара США :

Доход = 14 276,12 + 1 471,67 * (35) + 2 479,75 * (1) - 8 397,40 * (0) = 68 264 доллара США.

Вот как интерпретировать коэффициенты регрессии из таблицы:

  • Пересечение: Пересечение представляет собой средний доход одного человека в возрасте 0 лет. Поскольку человеку не может быть ноль лет, в этой конкретной регрессионной модели нет смысла интерпретировать саму точку пересечения.
  • Возраст: каждый год увеличения возраста связан со средним увеличением дохода на 1471,67 доллара. Поскольку p-значение (0,004) меньше 0,05, возраст является статистически значимым предиктором дохода.
  • Женат: женатый человек в среднем зарабатывает на 2479,75 долларов больше, чем одинокий человек. Поскольку p-значение (0,800) не менее 0,05, эта разница не является статистически значимой.
  • Разведен: разведенный человек в среднем зарабатывает на 8 397,40 долларов меньше, чем одинокий человек. Поскольку p-значение (0,532) не менее 0,05, эта разница не является статистически значимой.

Поскольку обе фиктивные переменные не были статистически значимыми, мы могли исключить из модели семейное положение в качестве предиктора, поскольку оно, по-видимому, не добавляет никакой прогностической ценности для дохода.

Дополнительные ресурсы

Как выполнить простую линейную регрессию в Excel
Как рассчитать остаточную сумму квадратов в Excel
Как выполнить полиномиальную регрессию в Excel
Как создать остаточный график в Excel

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.