Выброс — это точка данных, которая находится аномально далеко от других значений в наборе данных.
Мы часто определяем точку данных как выброс, если она в 1,5 раза превышает межквартильный размах, превышающий третий квартиль, или в 1,5 раза меньше, чем первый квартиль набора данных.
Примечание.Межквартильный диапазон — это разница между третьим квартилем (75-й процентиль) и первым квартилем (25-й процентиль) в наборе данных.

В следующих сценариях приведены примеры выбросов в реальных жизненных ситуациях.
Пример 1: Выбросы в доходе
Одним из реальных сценариев, в котором часто появляются выбросы, является распределение доходов.
Например, 25-й процентиль (Q1) годового дохода в определенной стране может составлять 15 000 долларов США в год, а 75-й процентиль (Q3) может составлять 120 000 долларов США в год.
Межквартильный диапазон (IQR) будет рассчитываться как 120 000 – 15 000 долларов = 105 000 долларов.
Это означает, что любое лицо с доходом за пределами следующих границ будет считаться исключением:
- Нижняя граница : Q1 — 1,5 * IQR = 15 000 долларов США — 1,5 * 105 000 долларов США = -142 500 долларов США.
- Верхняя граница : Q3 + 1,5 * IQR = 120 000 долларов США + 1,5 * 105 000 долларов США = 277 500 долларов США.
Кто-то вроде Илона Маска, чей собственный капитал исчисляется миллиардами долларов, будет считаться исключением с точки зрения годового дохода.
Примечание.Значение для выбросов за нижнюю границу не всегда имеет смысл, например, невозможно получить отрицательный годовой доход.
Пример 2: Выбросы в задержке дыхания
Другой реальный сценарий, в котором часто появляются выбросы, — это задержка дыхания.
Например, 25-й процентиль (Q1) того, как долго люди могут задерживать дыхание, составляет около 15 секунд, а 75-й процентиль (Q3) — около 75 секунд.
Межквартильный размах (IQR) будет рассчитываться как 75 – 15 = 60.
Это означает, что любой, кто может задержать дыхание за пределами следующих границ, будет считаться исключением:
- Нижняя граница : Q1 – 1,5*IQR = 15 – 1,5*60 = -75 секунд.
- Верхняя граница : Q3 + 1,5 * IQR = 75 + 1,5 * 60 = 165 секунд.
Любые фридайверы , которые могут задерживать дыхание на 10 минут или дольше, будут считаться исключением, потому что они могут задерживать дыхание намного дольше, чем 165 секунд.
Пример 3: Выбросы в росте животного
Еще один реальный сценарий, в котором часто появляются выбросы, — это рост животных.
Например, 25-й процентиль (Q1) роста лошади составляет около 5 футов, а 75-й процентиль (Q3) — около 5,5 футов.
Межквартильный размах (IQR) будет рассчитываться как 5,5 – 5 = 0,5 фута.
Это означает, что любая лошадь с ростом за пределами следующих границ будет считаться выпадающей:
- Нижняя граница : Q1 – 1,5*IQR = 5 – 1,5*0,5 = 4,25 фута.
- Верхняя граница : Q3 + 1,5*IQR = 5 + 1,5*0,5 = 5,75 фута
Согласно Книге рекордов Гиннеса , рекорд самой высокой лошади в истории составляет чуть более 7 футов. Поскольку это выше верхней границы в 5,75 фута, эта лошадь явно считается исключением.
Пример 4. Выбросы в продажах билетов в кино
Еще один реальный сценарий, в котором часто появляются выбросы, — это продажа билетов в кино.
Например, 25-й процентиль (Q1) валовых продаж билетов в кино составляет около 2 миллионов долларов, а 75-й процентиль (Q3) — около 15 миллионов долларов.
Межквартильный диапазон (IQR) будет рассчитан как 15 миллионов долларов — 2 миллиона долларов = 13 миллионов долларов.
Это означает, что любой фильм с валовыми продажами за пределами следующих границ будет считаться выбросом:
- Нижняя граница : 1 квартал — 1,5 * IQR = 2 миллиона долларов — 1,5 * 13 миллионов долларов = -17,5 миллионов долларов.
- Верхняя граница : Q3 + 1,5 * IQR = 15 миллионов долларов + 1,5 * 13 миллионов долларов = 34,5 миллиона долларов.
Большинство фильмов по «Звездным войнам» собрали в прокате более 34,5 миллионов долларов, что делает их исключением с точки зрения продаж билетов.
Пример 5: Выбросы в количестве очков, набранных за игру
Еще одна реальная сфера, в которой часто появляются исключения, — это профессиональный спорт.
Например, 25-й процентиль (Q1) очков, набранных игроками НБА, составляет около 5 очков за игру, а 75-й процентиль (Q3) — около 15 очков за игру.
Межквартильный размах (IQR) будет рассчитываться как 15 – 5 = 10 баллов.
Это означает, что любой игрок, средний результат которого выходит за следующие пределы, будет считаться исключением:
- Нижняя граница : Q1 – 1,5*IQR = 5 – 1,5*10 = -10 баллов
- Верхняя граница : Q3 + 1,5*IQR = 15 + 1,5*10 = 30 баллов
В течение многих сезонов НБА самый результативный игрок обычно набирает в среднем чуть более 30 очков за игру, что делает его исключением.
Дополнительные ресурсы
В следующих руководствах объясняется, как находить выбросы в наборах данных с помощью различных статистических программ:
Как найти выбросы в Excel
Как найти выбросы в R
Как найти выбросы в Python
Как найти выбросы в SPSS