Как Winsorize данные: определение и примеры


Выравнивание данных означает установку экстремальных выбросов, равных заданному процентилю данных.

Например, 90-процентная винсоризация приравнивает все наблюдения выше 95-го процентиля к значению 95-го процентиля, а все наблюдения меньше 5-го процентиля приравнивают к значению 5-го процентиля.

По сути, ранжирование данных означает изменение экстремальных значений в наборе данных на менее экстремальные значения.

Пример: как Winsorize данные

Предположим, у нас есть следующий набор данных:

3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Чтобы выполнить 90%-ную винсоризацию этого набора данных, мы сначала найдем 5-й процентиль и 95-й процентиль, которые окажутся:

  • 5-й процентиль: 12,35
  • 95-й процентиль: 92,05

Затем мы установили бы любые значения ниже 12,35 равными 12,35, а любые значения выше 92,05 равными 92,05:

12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

В этом случае значение 3 было изменено на 12,35 , а значение 98 изменено на 92,05 .

Зачем Winsorize данные?

Среднее значение и стандартное отклонение — это два распространенных способа измерения местоположения центра набора данных и разброса наблюдений в наборе данных соответственно.

Однако на эти две метрики могут влиять экстремальные выбросы. Таким образом, винсоризация данных позволяет нам установить экстремальные выбросы равными менее экстремальным значениям.

Это часто позволяет нам получить более точное представление о среднем значении и стандартном отклонении набора данных.

Обрезка против Winsorizing

Еще один распространенный способ борьбы с выбросами — их удаление из набора данных, то есть их полное удаление.

Например, рассмотрим набор данных ранее:

3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Если бы мы хотели обрезать значения, которые находятся ниже 5-го процентиля или выше 95-го процентиля, мы просто удалили бы значения 3 и 98 .

Вот несколько эмпирических правил о том, когда использовать обрезку против выигрыша:

Обрезка: Имеет смысл обрезать значения данных, когда некоторые значения кажутся совершенно необоснованными, т. е. являются результатом ошибки ввода данных.

Winsorizing: Винсоризация данных имеет смысл, когда мы хотим сохранить крайние наблюдения, но не хотим воспринимать их слишком буквально.

Предостережения относительно Winsorizing данных

Вот несколько моментов, о которых следует помнить, принимая решение об винсоризации данных:

1. Если нет экстремальных выбросов, то винсоризация данных лишь незначительно изменит наименьшее и наибольшее значения. Как правило, это не очень хорошая идея, поскольку это означает, что мы просто изменяем значения данных ради модификаций.

2. Выбросы могут представлять интересные пограничные случаи в данных. Таким образом, прежде чем изменять выбросы, рекомендуется внимательно изучить их, чтобы увидеть, что могло их вызвать.

3. Вы должны решить, следует ли проводить винсоризацию данных после сбора данных, а не до. Вы должны увидеть, есть ли на самом деле экстремальные выбросы, прежде чем вы решите выполнить винсоризацию. Если нет экстремальных выбросов, винсоризация может быть ненужной.

Учебное пособие: Winsorize Data в Excel

Обратитесь к этому учебнику за пошаговым примером того, как преобразовать набор данных в Excel.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.