Как создать фиктивные переменные в SAS (с примером)

Как создать фиктивные переменные в SAS (с примером)

Фиктивная переменная — это тип переменной, которую мы создаем в регрессионном анализе, чтобы мы могли представить категориальную переменную как числовую переменную, которая принимает одно из двух значений: ноль или единицу.

Например, предположим, что у нас есть следующий набор данных, и мы хотели бы использовать возраст и семейное положение для прогнозирования дохода :

Чтобы использовать семейное положение в качестве предиктора в регрессионной модели, мы должны преобразовать его в фиктивную переменную.

Поскольку в настоящее время это категориальная переменная, которая может принимать три разных значения («Холост», «Женат» или «Разведен»), нам нужно создать k -1 = 3-1 = 2 фиктивных переменных.

Чтобы создать эту фиктивную переменную, мы можем позволить «Single» быть нашим базовым значением, поскольку оно встречается чаще всего. Таким образом, вот как мы можем преобразовать семейное положение в фиктивные переменные:

В следующем примере показано, как создать фиктивные переменные для этого точного набора данных в SAS.

Пример: создание фиктивных переменных в SAS

Во-первых, давайте создадим следующий набор данных в SAS:

/\*create dataset\*/

data original_data;
 input income age status $;
 datalines ;
45 23 single
48 25 single
54 24 single
57 29 single
65 38 married
69 36 single
78 40 married
83 59 divorced
98 56 divorced
104 64 married
107 53 married
;
run ;

/\*view dataset\*/
proc print data =original_data; 

Затем мы можем использовать два оператора IF-THEN-ELSE для создания фиктивных переменных для переменной состояния :

/\*create new dataset with dummy variables\*/
data new_data;
 set original_data;
 if status = "married " then married = 1 ;
 else married = 0 ;
 if status = " divorced " then divorced = 1 ;
 else divorced = 0 ;
run ;

/\*view new dataset\*/
proc print data =new_data;
фиктивные переменные в примере SAS

Обратите внимание, что значения двух фиктивных переменных ( замужем и разведенным ) совпадают со значениями, которые мы рассчитали во вводном примере.

Затем мы могли бы использовать эти фиктивные переменные в модели регрессии, если бы захотели, поскольку они обе являются числовыми.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:

Как использовать сводку процедур в SAS
Как использовать Proc Tabulate в SAS
Как переименовать переменные в SAS
Как создать новые переменные в SAS

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.