Вот два наиболее распространенных способа выбрать простую случайную выборку строк из набора данных в SAS:
Метод 1: выберите случайную выборку, используя размер выборки
proc surveyselect data =original_data
out =random_sample
method =srs /\*specify simple random sampling as sampling method\*/
sampsize =3 /\*select 3 observations randomly\*/
seed =123; /\*set seed to make this example reproducible\*/
run ;
Метод 2: выберите случайную выборку, используя долю от общего числа наблюдений
proc surveyselect data =original_data
out =random_sample
method =srs /\*specify simple random sampling as sampling method\*/
samprate =0.2 /\*select 20% of all observations randomly\*/
seed =123; /\*set seed to make this example reproducible\*/
run ;
В следующих примерах показано, как использовать каждый метод со следующим набором данных в SAS:
/\*create dataset\*/
data original_data;
input team $ points rebounds;
datalines ;
Warriors 25 8
Wizards 18 12
Rockets 22 6
Celtics 24 11
Thunder 27 14
Spurs 33 19
Nets 31 20
Mavericks 34 10
Kings 22 11
Pelicans 39 23
;
run ;
/\*view dataset\*/
proc print data =original_data;
Пример 1: выбор случайной выборки с использованием размера выборки
В следующем коде показано, как выбрать случайную выборку наблюдений из набора данных, используя размер выборки n = 3:
/\*select random sample\*/
proc surveyselect data =original_data
out =random_sample
method =srs
sampsize =3
seed =123;
run ;
/\*view random sample\*/
proc print data =random_sample;
Мы видим, что три строки были выбраны случайным образом из исходного набора данных.
Пример 2: Выбор случайной выборки с использованием доли от общего числа наблюдений
В следующем коде показано, как выбрать случайную выборку наблюдений из набора данных с помощью функции samprate , чтобы указать, что мы хотим, чтобы случайная выборка представляла 20% всех исходных наблюдений:
/\*select random sample\*/
proc surveyselect data =original_data
out =random_sample
method =srs
samprate =0.2
seed =123;
run ;
/\*view random sample\*/
proc print data =random_sample;
Мы видим, что 20% от общего числа наблюдений (20% * 10 наблюдений = 2 ) из исходного набора данных были случайным образом выбраны для включения в нашу выборку.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как использовать сводку процедур в SAS
Как переименовать переменные в SAS
Как создать новые переменные в SAS