Полное руководство: когда удалять выбросы в данных

Полное руководство: когда удалять выбросы в данных

Выброс — это наблюдение , которое лежит аномально далеко от других значений в наборе данных.

Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

Тем не менее, они также могут быть информативными в отношении данных, которые вы изучаете, потому что они могут выявить аномальные случаи или людей с редкими признаками.

В любом анализе вы должны принять решение об удалении или сохранении выбросов.

К счастью, вы можете использовать следующую блок-схему, чтобы решить:

блок-схема для принятия решения об удалении выбросов в данных

Давайте подробнее рассмотрим каждый вопрос в блок-схеме.

Является ли выброс результатом ошибки ввода данных?

Иногда выбросы в наборе данных являются просто результатом ошибки ввода данных.

Например, предположим, что биолог собирает данные о высоте определенного вида растений и записывает следующие данные:

  • 6,83 дюйма
  • 7,51 дюйма
  • 5,21 дюйма
  • 5,84 дюйма
  • 7,83 дюйма
  • 755 дюймов
  • 6,53 дюйма
  • 6,31 дюйма
  • 5,91 дюйма

Очевидно, что запись для 755 дюймов является выбросом и, вероятно, является результатом ошибки ввода данных. Более чем вероятно, что высота должна была быть 7,55 дюйма, но она просто была введена неправильно.

Если бы биолог сохранил это наблюдение и вычислил описательную статистику , такую как средняя высота растений в образце, это наблюдение сильно исказило бы результаты и дало неточную картину истинной средней высоты растений.

В этом сценарии (и в сценариях, подобных этому) имеет смысл удалить этот выброс из набора данных, потому что это ошибка и недопустимая точка данных для включения в анализ.

Влияет ли выброс значительно на результаты анализа?

Если наблюдение является истинным выбросом, а не просто результатом ошибки ввода данных, то нам необходимо проверить, влияет ли выброс на результаты анализа.

Например, предположим, что биолог изучает взаимосвязь между удобрением и высотой растения. Она хочет подобрать простую модель линейной регрессии , используя удобрения в качестве предиктора и высоту растения в качестве переменной отклика .

Она собирает следующие данные для 12 различных растений:

Ясно, что последнее наблюдение является исключением.

Однако, если мы создадим диаграмму рассеяния для визуализации этого набора данных, мы увидим, что линия регрессии не сильно изменится, вне зависимости от того, включили мы выброс или нет:

В этом сценарии выброс на самом деле не нарушает никаких предположений модели линейной регрессии , поэтому мы можем оставить его в наборе данных.

Однако предположим, что у нас есть следующий выброс в данных:

Ясно, что этот выброс значительно влияет на линию регрессии, поэтому мы могли подобрать одну модель регрессии с выбросом и одну без него, а затем представить результаты обеих моделей регрессии.

Влияет ли выброс на предположения, сделанные в анализе?

Если выброс не является результатом ошибки ввода данных и не оказывает существенного влияния на результаты анализа, то нам необходимо задаться вопросом, влияет ли выброс на допущения, сделанные в ходе анализа.

Если это не влияет на предположения, то мы можем просто оставить это в данных.

Однако, если это влияет на предположения, у нас есть несколько вариантов:

1. Удалите его. Мы можем просто удалить его из данных и отметить это при сообщении результатов.

2. Выполните преобразование данных. Вместо удаления выброса мы могли бы попробовать выполнить преобразование данных, например извлечь квадратный корень или записать журнал всех значений данных. Было показано, что это уменьшает выбросы и часто приводит к более нормальному распределению данных.

Независимо от того, как вы решите обрабатывать выбросы в своих данных, вы должны отметить свое решение в результатах анализа вместе с вашими рассуждениями.

Дополнительные ресурсы

В следующих руководствах объясняется, как находить и удалять выбросы в различных статистических программах:

Как найти выбросы в Excel
Как найти выбросы в Google Sheets
Как найти выбросы в R
Как найти выбросы в Python
Как найти выбросы в SPSS

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.