Выброс — это наблюдение , которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.
Одним из способов выявления выбросов в наборе данных является использование критерия Шовене , в котором используется следующий процесс:
1. Для каждого отдельного значения x i в наборе данных рассчитайте отклонение от среднего как:
Отклонение = |x i – x | / с
где x — выборочное среднее, s — выборочное стандартное отклонение.
2. Сравните отклонения каждого отдельного значения с критическими значениями таблицы критериев Шовене ниже. Для отдельных значений данных с отклонениями, превышающими найденные в таблице, объявляйте эти значения данных выбросами.
Критерий Шовенэ: пример
Предположим, у нас есть следующий набор данных из 15 значений:
Среднее значение выборки для этого набора данных равно x = 17,067, а стандартное отклонение выборки равно s = 10,096.Для каждого отдельного значения данных мы можем вычислить его отклонение как:
Отклонение = |x i – x | / с
Например:
- Первое значение данных будет иметь отклонение |4 – 17,067| / 10,096 = 1,294 .
- Первое значение данных будет иметь отклонение |6 – 17,067| / 10,096 = 1,096 .
И так далее.
Мы можем использовать ту же формулу для расчета отклонения каждого отдельного значения данных:
Затем мы можем обратиться к таблице критериев Шовене и найти, что критическое значение, соответствующее размеру выборки n = 15, равно 2,128.Таким образом, любое значение с отклонением более 2,128 можно считать выбросом.
Получается, что значение 42 имеет отклонение больше 2,128:
Таким образом, значение 42 является единственным выбросом в этом наборе данных.
Предостережения по использованию критерия Шовене
Критерий Шовене предполагает, что значения в наборе данных нормально распределены.Если это предположение не выполняется, то использование критерия Шовене для выявления выбросов, скорее всего, будет недействительным.
Если вы используете этот метод и обнаружите, что значение является выбросом, вы должны сначала убедиться, что значение не является результатом ошибки ввода данных. Иногда данные просто вводятся неправильно.
Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть, что вы удалили выброс, когда сообщаете о своих результатах.
Кроме того, этот метод следует использовать для данного набора данных только один раз. Например, предположим, что мы используем этот критерий, чтобы определить значение 42 как выброс в предыдущем примере и удалить это значение из набора данных.
Затем нам не нужно пересчитывать среднее значение выборки и стандартное отклонение выборки и снова вычислять отклонения, чтобы найти больше выбросов.