Как определить выбросы в SPSS


Выброс — это наблюдение, которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

В этом руководстве объясняется, как идентифицировать и обрабатывать выбросы в SPSS.

Как определить выбросы в SPSS

Предположим, у нас есть следующий набор данных, показывающий годовой доход (в тысячах) для 15 человек:

Один из способов определить, присутствуют ли выбросы, — это создать ящичковую диаграмму для набора данных. Для этого перейдите на вкладку « Анализ », затем « Описательная статистика », затем « Исследование »:

В появившемся новом окне перетащите переменную дохода в поле с надписью Зависимый список. Затем нажмите « Статистика » и убедитесь, что флажок « Процентили » установлен. Затем нажмите «Продолжить».Затем нажмите ОК .

После того, как вы нажмете OK , появится блочная диаграмма:

Если на обоих концах ящичковой диаграммы нет кружков или звездочек, это указывает на отсутствие выбросов.

SPSS считает любое значение данных выбросом, если оно находится за пределами следующих диапазонов:

  • 3-й квартиль + 1,5*межквартильный размах
  • 1-й квартиль – 1,5*межквартильный размах

Мы можем рассчитать межквартильный диапазон, взяв разницу между 75-м и 25-м процентилями в строке, помеченной как петли Тьюки в выходных данных:

Для этого набора данных межквартильный диапазон составляет 82 – 36 = 46.Таким образом, любые значения за пределами следующих диапазонов будут считаться выбросами:

  • 82 + 1,5*46 = 151
  • 36 – 1,5*46 = -33

Очевидно, что доход не может быть отрицательным, поэтому нижняя граница в этом примере бесполезна. Однако любой доход выше 151 будет считаться выбросом.

Например, предположим, что наибольшее значение в нашем наборе данных было 152. Вот блок-диаграмма для этого набора данных:

Круг указывает на то, что в данных присутствует выброс. Число 15 указывает, какое наблюдение в наборе данных является выбросом.

SPSS также считает любое значение данных экстремальным выбросом , если оно находится за пределами следующих диапазонов:

  • 3-й квартиль + 3*межквартильный размах
  • 1-й квартиль – 3*межквартильный размах

Таким образом, любые значения за пределами следующих диапазонов в этом примере будут считаться экстремальными выбросами:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

Например, предположим, что наибольшее значение в нашем наборе данных было 221. Вот блочная диаграмма для этого набора данных:

Звездочка (*) указывает на то, что в данных присутствует экстремальный выброс. Число 15 указывает, какое наблюдение в наборе данных является экстремальным выбросом.

Как обращаться с выбросами

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.

2. Удалите выброс.

Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.

3. Присвойте новое значение выбросу .

Если выброс оказался результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее значение или медиана набора данных.

Дополнительные ресурсы

Если вы работаете с несколькими переменными одновременно, вы можете использовать расстояние Махаланобиса для обнаружения выбросов.