«Нормализация» набора значений данных означает масштабирование значений таким образом, чтобы среднее значение всех значений равнялось 0, а стандартное отклонение равнялось 1.
В этом руководстве объясняется, как нормализовать данные в SAS.
Пример: как нормализовать данные в SAS
Предположим, у нас есть следующий набор данных:

Выполните следующие шаги, чтобы нормализовать этот набор значений данных в SAS.
Шаг 1: Создайте набор данных
Во-первых, давайте используем следующий код для создания набора данных в SAS:
/\*create dataset\*/
data original_data;
input values;
datalines ;
12
14
15
15
16
17
18
20
24
25
26
29
32
34
37
;
run ;
/\*view mean and standard deviation of dataset\*/
proc means data =original_data Mean StdDev ndec= 3 ;
var values;
run ;

Из вывода мы видим, что среднее значение набора данных составляет 22,267 , а стандартное отклонение — 7,968 .
Шаг 2: нормализуйте набор данных
Далее мы будем использовать proc stdize для нормализации набора данных:
/\*normalize the dataset\*/
proc stdize data =original_data out =normalized_data;
var values;
run ;
/\*print normalized dataset\*/
proc print data =normalized_data;
/\*view mean and standard deviation of normalized dataset\*/
proc means data =normalized_data Mean StdDev ndec= 2 ;
var values;
run ;

Из вывода мы видим, что среднее значение нормализованного набора данных равно 0 , а стандартное отклонение равно 1 .
Шаг 3: Интерпретируйте нормализованные данные
SAS использовала следующую формулу для нормализации значений данных:
Нормализованное значение = (x – x ) / с
куда:
- х = значение данных
- x = среднее значение набора данных
- s = стандартное отклонение набора данных
Каждое нормализованное значение говорит нам, сколько стандартных отклонений исходного значения данных было от среднего.
Например, рассмотрим точку данных «12» в нашем исходном наборе данных. Исходное среднее значение выборки составляло 22,267, а исходное стандартное отклонение выборки составляло 7,968.
Нормализованное значение для «12» оказалось равным -1,288, которое было рассчитано как:
Нормализованное значение = (х – х ) / с = (12 – 22,267) / 7,968 = -1,288
Это говорит нам о том, что значение «12» на 1,288 стандартных отклонения ниже среднего значения в исходном наборе данных.
Каждое из нормализованных значений в наборе данных может помочь нам понять, насколько близко или далеко конкретное значение данных от среднего.
Небольшое нормализованное значение указывает, что значение близко к среднему, в то время как большое нормализованное значение указывает, что значение далеко от среднего.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как использовать сводку процедур в SAS
Как рассчитать корреляцию в SAS
Как создать частотные таблицы в SAS