Как найти выбросы, используя межквартильный диапазон


Выброс — это наблюдение , которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

Один из распространенных способов найти выбросы в наборе данных — использовать межквартильный диапазон .

Межквартильный диапазон, часто сокращенно IQR, представляет собой разницу между 25-м процентилем (Q1) и 75-м процентилем (Q3) в наборе данных. Он измеряет разброс средних 50% значений.

Один из популярных методов состоит в том, чтобы объявить наблюдение выбросом, если его значение в 1,5 раза больше, чем IQR, или в 1,5 раза меньше, чем IQR.

В этом руководстве представлен пошаговый пример того, как найти выбросы в наборе данных с помощью этого метода.

Шаг 1: Создайте данные

Предположим, у нас есть следующий набор данных:

Шаг 2: Определите первый и третий квартиль

Первая квартиль оказывается равной 5 , а третья квартиль оказывается равной 20,75 .

Таким образом, межквартильный размах оказывается равным 20,75 -5 = 15,75 .

Шаг 3: Найдите нижний и верхний пределы

Нижний предел рассчитывается как:

Нижний предел = Q1 – 1,5*IQR = 5 – 1,5*15,75 = -18,625

И верхний предел рассчитывается как:

Верхний предел = Q3 + 1,5 * IQR = 20,75 + 1,5 * 15,75 = 44,375

Шаг 4: Определите выбросы

Единственное наблюдение в наборе данных со значением меньше нижнего предела или больше верхнего предела — 46.Таким образом, это единственный выброс в этом наборе данных.

Примечание. Вы можете использовать этот калькулятор границ выбросов, чтобы автоматически находить верхнюю и нижнюю границы выбросов в заданном наборе данных.

Как найти выбросы на практике

В следующих руководствах объясняется, как найти выбросы, используя межквартильный диапазон в различных статистических программах:

Как найти выбросы в Excel
Как найти выбросы в R
Как найти выбросы в Python
Как найти выбросы в SPSS