Как удалить дубликаты в SAS (с примерами)

Как удалить дубликаты в SAS (с примерами)

Вы можете использовать proc sort в SAS, чтобы быстро удалить повторяющиеся строки из набора данных.

В этой процедуре используется следующий базовый синтаксис:

proc sort data =original_data out =no_dups_data nodupkey ;
 by _all_;
run;

Обратите внимание, что аргумент by указывает, какие столбцы анализировать при удалении дубликатов.

В следующих примерах показано, как удалить дубликаты из следующего набора данных в SAS:

/\*create dataset\*/
data original_data;
 input team $ position $ points;
 datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;

/\*view dataset\*/
proc print data =original_data; 

Пример 1: удаление дубликатов из всех столбцов

Мы можем использовать следующий код для удаления строк с повторяющимися значениями во всех столбцах набора данных:

/\*create dataset with no duplicate rows\*/
proc sort data =original_data out =no_dups_data nodupkey ;
 by _all_;
run ;

/\*view dataset with no duplicate rows\*/
proc print data =no_dups_data; 

Обратите внимание, что из исходного набора данных было удалено всего пять повторяющихся строк.

Пример 2. Удаление дубликатов из определенных столбцов

Мы можем использовать аргумент by, чтобы указать, на какие столбцы следует смотреть при удалении дубликатов.

Например, следующий код удаляет строки с повторяющимися значениями в столбцах « команда» и « позиция »:

/\*create dataset with no duplicate rows in team and position columns\*/
proc sort data =original_data out =no_dups_data nodupkey ;
 by team position;
run ;

/\*view dataset with no duplicate rows in team and position columns\*/
proc print data =no_dups_data; 

После удаления строк с повторяющимися значениями в столбцах команды и позиции в наборе данных остается только четыре строки.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные операции в SAS:

Как нормализовать данные в SAS
Как определить выбросы в SAS
Как использовать сводку процедур в SAS
Как создать частотные таблицы в SAS

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.