Как нормализовать данные в SAS


«Нормализация» набора значений данных означает масштабирование значений таким образом, чтобы среднее значение всех значений равнялось 0, а стандартное отклонение равнялось 1.

В этом руководстве объясняется, как нормализовать данные в SAS.

Пример: как нормализовать данные в SAS

Предположим, у нас есть следующий набор данных:

Выполните следующие шаги, чтобы нормализовать этот набор значений данных в SAS.

Шаг 1: Создайте набор данных

Во-первых, давайте используем следующий код для создания набора данных в SAS:

/\*create dataset\*/
data original_data;
 input values;
 datalines ;
12
14
15
15
16
17
18
20
24
25
26
29
32
34
37
;
run ;

/\*view mean and standard deviation of dataset\*/
proc means data =original_data Mean StdDev ndec= 3 ; 
 var values;
run ; 

Из вывода мы видим, что среднее значение набора данных составляет 22,267 , а стандартное отклонение — 7,968 .

Шаг 2: нормализуйте набор данных

Далее мы будем использовать proc stdize для нормализации набора данных:

/\*normalize the dataset\*/
proc stdize data =original_data out =normalized_data;
 var values;
run ;

/\*print normalized dataset\*/
proc print data =normalized_data;

/\*view mean and standard deviation of normalized dataset\*/
proc means data =normalized_data Mean StdDev ndec= 2 ; 
 var values;
run ; 

Из вывода мы видим, что среднее значение нормализованного набора данных равно 0 , а стандартное отклонение равно 1 .

Шаг 3: Интерпретируйте нормализованные данные

SAS использовала следующую формулу для нормализации значений данных:

Нормализованное значение = (x – x ) / с

куда:

  • х = значение данных
  • x = среднее значение набора данных
  • s = стандартное отклонение набора данных

Каждое нормализованное значение говорит нам, сколько стандартных отклонений исходного значения данных было от среднего.

Например, рассмотрим точку данных «12» в нашем исходном наборе данных. Исходное среднее значение выборки составляло 22,267, а исходное стандартное отклонение выборки составляло 7,968.

Нормализованное значение для «12» оказалось равным -1,288, которое было рассчитано как:

Нормализованное значение = (х – х ) / с = (12 – 22,267) / 7,968 = -1,288

Это говорит нам о том, что значение «12» на 1,288 стандартных отклонения ниже среднего значения в исходном наборе данных.

Каждое из нормализованных значений в наборе данных может помочь нам понять, насколько близко или далеко конкретное значение данных от среднего.

Небольшое нормализованное значение указывает, что значение близко к среднему, в то время как большое нормализованное значение указывает, что значение далеко от среднего.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:

Как использовать сводку процедур в SAS
Как рассчитать корреляцию в SAS
Как создать частотные таблицы в SAS