Стандартизация и нормализация: в чем разница?

Стандартизация и нормализация: в чем разница?

Стандартизация и нормализация — это два способа масштабирования данных.

Стандартизация изменяет масштаб набора данных, чтобы иметь среднее значение 0 и стандартное отклонение 1. Для этого используется следующая формула:

х новый = (х я - х ) / с

куда:

  • x i : i -е значение в наборе данных
  • x : Среднее значение выборки
  • s : Стандартное отклонение выборки

Нормализация масштабирует набор данных таким образом, чтобы каждое значение находилось в диапазоне от 0 до 1. Для этого используется следующая формула:

x новый = (x i – x мин ) / (x макс – x мин )

куда:

  • x i : i -е значение в наборе данных
  • x min : минимальное значение в наборе данных
  • x max : максимальное значение в наборе данных

В следующих примерах показано, как стандартизировать и нормализовать набор данных на практике.

Пример: как стандартизировать данные

Предположим, у нас есть следующий набор данных:

Среднее значение в наборе данных составляет 43,15, а стандартное отклонение — 22,13.

Чтобы нормализовать первое значение 13 , мы должны применить формулу, которую использовали ранее:

  • x новый = (x i - x ) / s = (13 - 43,15) / 22,13 = -1,36

Чтобы нормализовать второе значение 16 , мы будем использовать ту же формулу:

  • x новый = (x i - x ) / s = (16 - 43,15) / 22,13 = -1,23

Чтобы нормализовать третье значение 19 , мы будем использовать ту же формулу:

  • x новый = (x i - x ) / s = (19 - 43,15) / 22,13 = -1,09

Мы можем использовать эту же формулу для стандартизации каждого значения в исходном наборе данных:

Пример: как нормализовать данные

Еще раз предположим, что у нас есть следующий набор данных:

Минимальное значение в наборе данных — 13, максимальное — 71.

Чтобы нормализовать первое значение 13 , мы должны применить формулу, которую использовали ранее:

  • x new = (x i – x min ) / (x max – x min ) = (13 – 13) / (71 – 13) = 0

Чтобы нормализовать второе значение 16 , мы будем использовать ту же формулу:

  • x new = (x i – x min ) / (x max – x min ) = (16 – 13) / (71 – 13) = 0,0517

Чтобы нормализовать третье значение 19 , мы будем использовать ту же формулу:

  • x new = (x i – x min ) / (x max – x min ) = (19 – 13) / (71 – 13) = 0,1034

Мы можем использовать эту же формулу, чтобы нормализовать каждое значение в исходном наборе данных между 0 и 1:

Нормализация данных между 0 и 1

Стандартизация против нормализации: когда использовать каждый

Обычно мы нормализуем данные при выполнении некоторого типа анализа, в котором у нас есть несколько переменных, измеряемых в разных масштабах, и мы хотим, чтобы каждая из переменных имела одинаковый диапазон.

Это предотвращает чрезмерное влияние одной переменной, особенно если она измеряется в разных единицах (например, если одна переменная измеряется в дюймах, а другая — в ярдах).

С другой стороны, мы обычно стандартизируем данные, когда хотим знать, на сколько стандартных отклонений каждое значение в наборе данных отличается от среднего.

Например, у нас может быть список результатов экзаменов для 500 учащихся определенной школы, и мы хотели бы знать, на сколько стандартных отклонений каждый результат экзамена отличается от среднего балла.

В этом случае мы могли бы стандартизировать необработанные данные, чтобы узнать эту информацию. Тогда стандартизированный балл 1,26 говорит нам о том, что экзаменационный балл этого конкретного учащегося на 1,26 стандартного отклонения выше среднего экзаменационного балла.

Если вы решите нормализовать или стандартизировать свои данные, имейте в виду следующее:

  • Нормализованный набор данных всегда будет иметь значения в диапазоне от 0 до 1.
  • Стандартизированный набор данных будет иметь среднее значение 0 и стандартное отклонение 1, но нет конкретных верхней или нижней границы для максимального и минимального значений.

В зависимости от вашего конкретного сценария может иметь смысл нормализовать или стандартизировать данные.

Дополнительные ресурсы

В следующих руководствах объясняется, как стандартизировать и нормализовать данные в различных статистических программах:

Как нормализовать данные в R
Как нормализовать данные в Excel
Как нормализовать данные в Python
Как стандартизировать данные в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.