Статистика называется устойчивой , если она не чувствительна к экстремальным значениям.
Два примера устойчивых статистических данных включают:
- медиана
- Межквартильный диапазон
Примеры неустойчивых статистических данных включают:
- Значение
- Стандартное отклонение
- Диапазон
Следующий пример иллюстрирует разницу между устойчивой и неустойчивой статистикой.
Пример: устойчивые и неустойчивые статистические данные
Предположим, у нас есть следующий набор данных:
Набор данных: 2, 5, 6, 7, 8, 13, 15, 18, 22, 24, 29
Используя калькулятор или статистическое программное обеспечение, мы можем вычислить значение следующих устойчивых статистических данных для этого набора данных:
- Медиана: 13
- Межквартильный размах: 13,5
Мы также можем вычислить значение следующей неустойчивой статистики для этого набора данных:
- Среднее: 13,54
- Стандартное отклонение: 8,82
- Диапазон: 27
Теперь подумайте, был ли к этому набору данных добавлен один экстремальный выброс:
Набор данных: 2, 5, 6, 7, 8, 13, 15, 18, 22, 24, 29, 450
Мы можем еще раз вычислить значение следующей статистики устойчивости для этого набора данных:
- Медиана: 14
- Межквартильный размах: 15,75
Мы также можем вычислить значение следующей неустойчивой статистики для этого набора данных:
- Среднее: 49,92
- Стандартное отклонение: 126,27
- Диапазон: 448
Обратите внимание, как резко изменилась статистика неустойчивости, просто добавив одно экстремальное значение в набор данных:
И наоборот, статистика сопротивления почти не изменилась. И медиана, и межквартильный размах изменились незначительно.
Когда использовать резистентную статистику
Наиболее распространенными статистическими данными, используемыми для измерения центра и дисперсии значений в наборе данных, являются среднее значение и стандартное отклонение соответственно.
К сожалению, эти две статистики чувствительны к экстремальным значениям. Таким образом, если в наборе данных присутствуют выбросы, то среднее значение и стандартное отклонение не будут точно описывать распределение значений в наборе данных.
Вместо этого рекомендуется использовать медиану и межквартильный диапазон для измерения центра и дисперсии значений в наборе данных, если присутствуют выбросы, поскольку эти две статистики устойчивы .
Дополнительные ресурсы
Как выбросы влияют на среднее значение?
Когда использовать среднее значение против медианы
Когда использовать межквартильный диапазон против стандартного отклонения