Выброс — это наблюдение, которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.
В этом руководстве объясняется, как идентифицировать и обрабатывать выбросы в SPSS.
Как определить выбросы в SPSS
Предположим, у нас есть следующий набор данных, показывающий годовой доход (в тысячах) для 15 человек:

Один из способов определить, присутствуют ли выбросы, — это создать ящичковую диаграмму для набора данных. Для этого перейдите на вкладку « Анализ », затем « Описательная статистика », затем « Исследование »:

В появившемся новом окне перетащите переменную дохода в поле с надписью Зависимый список. Затем нажмите « Статистика » и убедитесь, что флажок « Процентили » установлен. Затем нажмите «Продолжить».Затем нажмите ОК .

После того, как вы нажмете OK , появится блочная диаграмма:

Если на обоих концах ящичковой диаграммы нет кружков или звездочек, это указывает на отсутствие выбросов.
SPSS считает любое значение данных выбросом, если оно находится за пределами следующих диапазонов:
- 3-й квартиль + 1,5*межквартильный размах
- 1-й квартиль – 1,5*межквартильный размах
Мы можем рассчитать межквартильный диапазон, взяв разницу между 75-м и 25-м процентилями в строке, помеченной как петли Тьюки в выходных данных:

Для этого набора данных межквартильный диапазон составляет 82 – 36 = 46.Таким образом, любые значения за пределами следующих диапазонов будут считаться выбросами:
- 82 + 1,5*46 = 151
- 36 – 1,5*46 = -33
Очевидно, что доход не может быть отрицательным, поэтому нижняя граница в этом примере бесполезна. Однако любой доход выше 151 будет считаться выбросом.
Например, предположим, что наибольшее значение в нашем наборе данных было 152. Вот блок-диаграмма для этого набора данных:

Круг указывает на то, что в данных присутствует выброс. Число 15 указывает, какое наблюдение в наборе данных является выбросом.
SPSS также считает любое значение данных экстремальным выбросом , если оно находится за пределами следующих диапазонов:
- 3-й квартиль + 3*межквартильный размах
- 1-й квартиль – 3*межквартильный размах
Таким образом, любые значения за пределами следующих диапазонов в этом примере будут считаться экстремальными выбросами:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
Например, предположим, что наибольшее значение в нашем наборе данных было 221. Вот блочная диаграмма для этого набора данных:

Звездочка (*) указывает на то, что в данных присутствует экстремальный выброс. Число 15 указывает, какое наблюдение в наборе данных является экстремальным выбросом.
Как обращаться с выбросами
Если в ваших данных присутствует выброс, у вас есть несколько вариантов:
1. Убедитесь, что выброс не является результатом ошибки ввода данных.
Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.
2. Удалите выброс.
Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.
3. Присвойте новое значение выбросу .
Если выброс оказался результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее значение или медиана набора данных.
Дополнительные ресурсы
Если вы работаете с несколькими переменными одновременно, вы можете использовать расстояние Махаланобиса для обнаружения выбросов.