Межквартильный диапазон и стандартное отклонение — это два способа измерения разброса значений в наборе данных.
В этом руководстве представлено краткое объяснение каждой метрики, а также сходства и различия между ними.
Межквартильный диапазон
Межквартильный диапазон (IQR) набора данных — это разница между первым квартилем (25-й процентиль) и третьим квартилем (75-й процентиль). Он измеряет разброс средних 50% значений.
IQR = Q3 – Q1
Например, предположим, что у нас есть следующий набор данных:
Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Согласно калькулятору межквартильного диапазона, межквартильный диапазон (IQR) для этого набора данных рассчитывается как:
- Q1: 12
- Q3: 26,5
- IQR = Q3 – Q1 = 14,5
Это говорит нам о том, что средние 50% значений в наборе данных имеют разброс 14,5 .
Стандартное отклонение
Стандартное отклонение набора данных — это способ измерения типичного отклонения отдельных значений от среднего значения. Он рассчитывается как:
s = √(Σ(x i – x ) 2 / (n-1))
Например, предположим, что у нас есть следующий набор данных:
Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Мы можем использовать калькулятор, чтобы найти, что стандартное отклонение выборки этого набора данных составляет 9,25.Это дает нам представление о том, насколько типичное значение отличается от среднего.
Сходства и различия
Межквартильный размах и стандартное отклонение имеют следующее сходство:
- Обе метрики измеряют разброс значений в наборе данных.
Однако межквартильный размах и стандартное отклонение имеют следующее ключевое отличие:
- На межквартильный размах (IQR) не влияют экстремальные выбросы. Например, очень маленькое или очень большое значение в наборе данных не повлияет на расчет IQR, поскольку IQR использует только значения в 25-м процентиле и 75-м процентиле набора данных.
- На стандартное отклонение влияют экстремальные выбросы. Например, чрезвычайно большое значение в наборе данных приведет к тому, что стандартное отклонение будет намного больше, поскольку стандартное отклонение использует каждое отдельное значение в наборе данных в своей формуле.
Когда использовать каждый
Вы должны использовать межквартильный диапазон для измерения разброса значений в наборе данных, когда присутствуют крайние выбросы.
И наоборот, вы должны использовать стандартное отклонение для измерения разброса значений, когда нет экстремальных выбросов.
Чтобы проиллюстрировать почему, рассмотрим следующий набор данных:
Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Ранее в статье мы рассчитали следующие показатели для этого набора данных:
- ИКР: 14,5
- Стандартное отклонение: 9,25
Однако подумайте, есть ли в наборе данных один экстремальный выброс:
Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378
Мы могли бы использовать калькулятор, чтобы найти следующие показатели для этого набора данных:
- IQR: 15
- Стандартное отклонение: 85,02
Обратите внимание, что межквартильный размах почти не изменяется при наличии выброса, в то время как стандартное отклонение увеличивается с 9,25 до 85,02.
Дополнительные ресурсы
Показатели центральной тенденции: определение и примеры
Меры рассеивания: определение и примеры
Как найти выбросы, используя межквартильный диапазон