Как определить выбросы в SPSS

Как определить выбросы в SPSS

Выброс — это наблюдение, которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

В этом руководстве объясняется, как идентифицировать и обрабатывать выбросы в SPSS.

Как определить выбросы в SPSS

Предположим, у нас есть следующий набор данных, показывающий годовой доход (в тысячах) для 15 человек:

Один из способов определить, присутствуют ли выбросы, — это создать ящичковую диаграмму для набора данных. Для этого перейдите на вкладку « Анализ », затем « Описательная статистика », затем « Исследование »:

В появившемся новом окне перетащите переменную дохода в поле с надписью Зависимый список. Затем нажмите « Статистика » и убедитесь, что флажок « Процентили » установлен. Затем нажмите «Продолжить».Затем нажмите ОК .

После того, как вы нажмете OK , появится блочная диаграмма:

Блочная диаграмма в SPSS

Если на обоих концах ящичковой диаграммы нет кружков или звездочек, это указывает на отсутствие выбросов.

SPSS считает любое значение данных выбросом, если оно находится за пределами следующих диапазонов:

  • 3-й квартиль + 1,5*межквартильный размах
  • 1-й квартиль – 1,5*межквартильный размах

Мы можем рассчитать межквартильный диапазон, взяв разницу между 75-м и 25-м процентилями в строке, помеченной как петли Тьюки в выходных данных:

Межквартильный диапазон шарниров Тьюки в SPSS

Для этого набора данных межквартильный диапазон составляет 82 – 36 = 46.Таким образом, любые значения за пределами следующих диапазонов будут считаться выбросами:

  • 82 + 1,5*46 = 151
  • 36 – 1,5*46 = -33

Очевидно, что доход не может быть отрицательным, поэтому нижняя граница в этом примере бесполезна. Однако любой доход выше 151 будет считаться выбросом.

Например, предположим, что наибольшее значение в нашем наборе данных было 152. Вот блок-диаграмма для этого набора данных:

Блочная диаграмма с выбросом в SPSS

Круг указывает на то, что в данных присутствует выброс. Число 15 указывает, какое наблюдение в наборе данных является выбросом.

SPSS также считает любое значение данных экстремальным выбросом , если оно находится за пределами следующих диапазонов:

  • 3-й квартиль + 3*межквартильный размах
  • 1-й квартиль – 3*межквартильный размах

Таким образом, любые значения за пределами следующих диапазонов в этом примере будут считаться экстремальными выбросами:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

Например, предположим, что наибольшее значение в нашем наборе данных было 221. Вот блочная диаграмма для этого набора данных:

Экстремальный выброс в блочной диаграмме в SPSS

Звездочка (*) указывает на то, что в данных присутствует экстремальный выброс. Число 15 указывает, какое наблюдение в наборе данных является экстремальным выбросом.

Как обращаться с выбросами

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.

2. Удалите выброс.

Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.

3. Присвойте новое значение выбросу .

Если выброс оказался результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее значение или медиана набора данных.

Дополнительные ресурсы

Если вы работаете с несколькими переменными одновременно, вы можете использовать расстояние Махаланобиса для обнаружения выбросов.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.