Межквартильный диапазон и стандартное отклонение: в чем разница?


Межквартильный диапазон и стандартное отклонение — это два способа измерения разброса значений в наборе данных.

В этом руководстве представлено краткое объяснение каждой метрики, а также сходства и различия между ними.

Межквартильный диапазон

Межквартильный диапазон (IQR) набора данных — это разница между первым квартилем (25-й процентиль) и третьим квартилем (75-й процентиль). Он измеряет разброс средних 50% значений.

IQR = Q3 – Q1

Например, предположим, что у нас есть следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Согласно калькулятору межквартильного диапазона, межквартильный диапазон (IQR) для этого набора данных рассчитывается как:

  • Q1: 12
  • Q3: 26,5
  • IQR = Q3 – Q1 = 14,5

Это говорит нам о том, что средние 50% значений в наборе данных имеют разброс 14,5 .

Стандартное отклонение

Стандартное отклонение набора данных — это способ измерения типичного отклонения отдельных значений от среднего значения. Он рассчитывается как:

s = √(Σ(x i – x ) 2 / (n-1))

Например, предположим, что у нас есть следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Мы можем использовать калькулятор, чтобы найти, что стандартное отклонение выборки этого набора данных составляет 9,25.Это дает нам представление о том, насколько типичное значение отличается от среднего.

Сходства и различия

Межквартильный размах и стандартное отклонение имеют следующее сходство:

  • Обе метрики измеряют разброс значений в наборе данных.

Однако межквартильный размах и стандартное отклонение имеют следующее ключевое отличие:

  • На межквартильный размах (IQR) не влияют экстремальные выбросы. Например, очень маленькое или очень большое значение в наборе данных не повлияет на расчет IQR, поскольку IQR использует только значения в 25-м процентиле и 75-м процентиле набора данных.
  • На стандартное отклонение влияют экстремальные выбросы. Например, чрезвычайно большое значение в наборе данных приведет к тому, что стандартное отклонение будет намного больше, поскольку стандартное отклонение использует каждое отдельное значение в наборе данных в своей формуле.

Когда использовать каждый

Вы должны использовать межквартильный диапазон для измерения разброса значений в наборе данных, когда присутствуют крайние выбросы.

И наоборот, вы должны использовать стандартное отклонение для измерения разброса значений, когда нет экстремальных выбросов.

Чтобы проиллюстрировать почему, рассмотрим следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Ранее в статье мы рассчитали следующие показатели для этого набора данных:

  • ИКР: 14,5
  • Стандартное отклонение: 9,25

Однако подумайте, есть ли в наборе данных один экстремальный выброс:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378

Мы могли бы использовать калькулятор, чтобы найти следующие показатели для этого набора данных:

  • IQR: 15
  • Стандартное отклонение: 85,02

Обратите внимание, что межквартильный размах почти не изменяется при наличии выброса, в то время как стандартное отклонение увеличивается с 9,25 до 85,02.

Дополнительные ресурсы

Показатели центральной тенденции: определение и примеры
Меры рассеивания: определение и примеры
Как найти выбросы, используя межквартильный диапазон