Как легко найти выбросы в Google Sheets

Как легко найти выбросы в Google Sheets

Выброс — это наблюдение, которое лежит аномально далеко от других значений в наборе данных.

Мы часто определяем наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах, превышающий третий квартиль, или в 1,5 раза меньше, чем первый квартиль.

Примечание.Межквартильный диапазон — это разница между третьим квартилем (75-й процентиль) и первым квартилем (25-й процентиль) в наборе данных. Он измеряет разброс средних 50% значений.

В следующем пошаговом примере показано, как использовать эту формулу для поиска выбросов в наборе данных в Google Таблицах.

Шаг 1: введите данные

Во-первых, давайте введем значения для следующего набора данных в Google Sheets:

Шаг 2: Рассчитайте межквартильный диапазон

Затем давайте рассчитаем первый квартиль, третий квартиль и межквартильный диапазон набора данных:

Шаг 3. Определите выбросы

Затем мы можем использовать следующую формулу, чтобы присвоить «1» любому значению, которое является выбросом в наборе данных:

= IF ( A2 < $B$18 - $B$20 \* 1.5 , 1 , IF ( A2 > $B$19 + $B$20 \* 1.5 , 1 , 0 ) )

Эта формула проверяет, является ли наблюдение в 1,5 раза больше межквартильного размаха, чем третий квартиль, или в 1,5 раза меньше межквартильный размах, чем первый квартиль.

Если любой из них верен, наблюдению присваивается «1», чтобы обозначить его как выброс.

На следующем снимке экрана показано, как использовать эту формулу на практике:

Поиск выбросов в Google Sheets

Мы видим, что только одно значение в нашем наборе данных оказалось выбросом: 164 .

Как бороться с выбросами

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда простые данные записываются неправильно. Если присутствует выброс, сначала проверьте правильность ввода значения и отсутствие ошибки.

2. Присвойте новое значение выбросу .

Если выброс является результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее или медиана набора данных.

3. Удалите выброс.

Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете, что вы удалили выброс.

Дополнительные ресурсы

В следующих руководствах объясняется, как удалить выбросы в других статистических программах:

Как удалить выбросы в R
Как удалить выбросы в Python
Как удалить выбросы в SPSS

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.