Стандартизация и нормализация: в чем разница?


Стандартизация и нормализация — это два способа масштабирования данных.

Стандартизация изменяет масштаб набора данных, чтобы иметь среднее значение 0 и стандартное отклонение 1. Для этого используется следующая формула:

х новый = (х я - х ) / с

куда:

  • x i : i -е значение в наборе данных
  • x : Среднее значение выборки
  • s : Стандартное отклонение выборки

Нормализация масштабирует набор данных таким образом, чтобы каждое значение находилось в диапазоне от 0 до 1. Для этого используется следующая формула:

x новый = (x i – x мин ) / (x макс – x мин )

куда:

  • x i : i -е значение в наборе данных
  • x min : минимальное значение в наборе данных
  • x max : максимальное значение в наборе данных

В следующих примерах показано, как стандартизировать и нормализовать набор данных на практике.

Пример: как стандартизировать данные

Предположим, у нас есть следующий набор данных:

Среднее значение в наборе данных составляет 43,15, а стандартное отклонение — 22,13.

Чтобы нормализовать первое значение 13 , мы должны применить формулу, которую использовали ранее:

  • x новый = (x i - x ) / s = (13 - 43,15) / 22,13 = -1,36

Чтобы нормализовать второе значение 16 , мы будем использовать ту же формулу:

  • x новый = (x i - x ) / s = (16 - 43,15) / 22,13 = -1,23

Чтобы нормализовать третье значение 19 , мы будем использовать ту же формулу:

  • x новый = (x i - x ) / s = (19 - 43,15) / 22,13 = -1,09

Мы можем использовать эту же формулу для стандартизации каждого значения в исходном наборе данных:

Пример: как нормализовать данные

Еще раз предположим, что у нас есть следующий набор данных:

Минимальное значение в наборе данных — 13, максимальное — 71.

Чтобы нормализовать первое значение 13 , мы должны применить формулу, которую использовали ранее:

  • x new = (x i – x min ) / (x max – x min ) = (13 – 13) / (71 – 13) = 0

Чтобы нормализовать второе значение 16 , мы будем использовать ту же формулу:

  • x new = (x i – x min ) / (x max – x min ) = (16 – 13) / (71 – 13) = 0,0517

Чтобы нормализовать третье значение 19 , мы будем использовать ту же формулу:

  • x new = (x i – x min ) / (x max – x min ) = (19 – 13) / (71 – 13) = 0,1034

Мы можем использовать эту же формулу, чтобы нормализовать каждое значение в исходном наборе данных между 0 и 1:

Стандартизация против нормализации: когда использовать каждый

Обычно мы нормализуем данные при выполнении некоторого типа анализа, в котором у нас есть несколько переменных, измеряемых в разных масштабах, и мы хотим, чтобы каждая из переменных имела одинаковый диапазон.

Это предотвращает чрезмерное влияние одной переменной, особенно если она измеряется в разных единицах (например, если одна переменная измеряется в дюймах, а другая — в ярдах).

С другой стороны, мы обычно стандартизируем данные, когда хотим знать, на сколько стандартных отклонений каждое значение в наборе данных отличается от среднего.

Например, у нас может быть список результатов экзаменов для 500 учащихся определенной школы, и мы хотели бы знать, на сколько стандартных отклонений каждый результат экзамена отличается от среднего балла.

В этом случае мы могли бы стандартизировать необработанные данные, чтобы узнать эту информацию. Тогда стандартизированный балл 1,26 говорит нам о том, что экзаменационный балл этого конкретного учащегося на 1,26 стандартного отклонения выше среднего экзаменационного балла.

Если вы решите нормализовать или стандартизировать свои данные, имейте в виду следующее:

  • Нормализованный набор данных всегда будет иметь значения в диапазоне от 0 до 1.
  • Стандартизированный набор данных будет иметь среднее значение 0 и стандартное отклонение 1, но нет конкретных верхней или нижней границы для максимального и минимального значений.

В зависимости от вашего конкретного сценария может иметь смысл нормализовать или стандартизировать данные.

Дополнительные ресурсы

В следующих руководствах объясняется, как стандартизировать и нормализовать данные в различных статистических программах:

Как нормализовать данные в R
Как нормализовать данные в Excel
Как нормализовать данные в Python
Как стандартизировать данные в R