Как легко найти выбросы в Excel

Как легко найти выбросы в Excel

Выброс — это наблюдение, которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

Мы будем использовать следующий набор данных в Excel, чтобы проиллюстрировать два метода поиска выбросов:

Связанный: Как рассчитать среднее значение, исключая выбросы в Excel

Метод 1: используйте межквартильный диапазон

Межквартильный размах (IQR) — это разница между 75-м процентилем (Q3) и 25-м процентилем (Q1) в наборе данных. Он измеряет разброс средних 50% значений.

Мы можем определить наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах, превышающий третий квартиль (Q3), или в 1,5 раза превышает межквартильный размах меньше, чем первый квартиль (Q1).

На следующем изображении показано, как рассчитать межквартильный диапазон в Excel:

Затем мы можем использовать формулу, упомянутую выше, чтобы присвоить «1» любому значению, которое является выбросом в наборе данных:

Поиск выбросов в Excel

Мы видим, что только одно значение — 164 — оказывается выбросом в этом наборе данных.

Способ 2: использовать z-показатели

Z-оценка показывает, сколько стандартных отклонений данного значения от среднего. Мы используем следующую формулу для расчета z-показателя:

z = (X - μ) / σ

куда:

  • X — это одно необработанное значение данных.
  • μ - среднее значение населения
  • σ - стандартное отклонение населения

Мы можем определить наблюдение как выброс, если его z-оценка меньше -3 или больше 3.

На следующем изображении показано, как рассчитать среднее значение и стандартное отклонение для набора данных в Excel:

Затем мы можем использовать среднее значение и стандартное отклонение, чтобы найти z-оценку для каждого отдельного значения в наборе данных:

Затем мы можем присвоить «1» любому значению, которое имеет z-оценку меньше -3 или больше 3:

Поиск выбросов в Excel с использованием z-показателей

Используя этот метод, мы видим, что в наборе данных нет выбросов.

Примечание. Иногда вместо 3 используется z-показатель 2,5. В этом случае отдельное значение 164 будет считаться выбросом, поскольку его z-показатель больше 2,5. При использовании метода z-показателя руководствуйтесь своим здравым смыслом, какое значение z-показателя вы считаете выбросом.

Как обращаться с выбросами

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.

2. Удалите выброс.

Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.

3. Присвойте новое значение выбросу .

Если выброс является результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее или медиана набора данных.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.