Межквартильный диапазон и стандартное отклонение: в чем разница?


Межквартильный диапазон и стандартное отклонение — это два способа измерения разброса значений в наборе данных.

В этом руководстве представлено краткое объяснение каждой метрики, а также сходства и различия между ними.

Межквартильный диапазон

Межквартильный диапазон (IQR) набора данных — это разница между первым квартилем (25-й процентиль) и третьим квартилем (75-й процентиль). Он измеряет разброс средних 50% значений.

IQR = Q3 – Q1

Например, предположим, что у нас есть следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Согласно калькулятору межквартильного диапазона, межквартильный диапазон (IQR) для этого набора данных рассчитывается как:

  • Q1: 12
  • Q3: 26,5
  • IQR = Q3 – Q1 = 14,5

Это говорит нам о том, что средние 50% значений в наборе данных имеют разброс 14,5 .

Стандартное отклонение

Стандартное отклонение набора данных — это способ измерения типичного отклонения отдельных значений от среднего значения. Он рассчитывается как:

s = √(Σ(x i – x ) 2 / (n-1))

Например, предположим, что у нас есть следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Мы можем использовать калькулятор, чтобы найти, что стандартное отклонение выборки этого набора данных составляет 9,25.Это дает нам представление о том, насколько типичное значение отличается от среднего.

Сходства и различия

Межквартильный размах и стандартное отклонение имеют следующее сходство:

  • Обе метрики измеряют разброс значений в наборе данных.

Однако межквартильный размах и стандартное отклонение имеют следующее ключевое отличие:

  • На межквартильный размах (IQR) не влияют экстремальные выбросы. Например, очень маленькое или очень большое значение в наборе данных не повлияет на расчет IQR, поскольку IQR использует только значения в 25-м процентиле и 75-м процентиле набора данных.
  • На стандартное отклонение влияют экстремальные выбросы. Например, чрезвычайно большое значение в наборе данных приведет к тому, что стандартное отклонение будет намного больше, поскольку стандартное отклонение использует каждое отдельное значение в наборе данных в своей формуле.

Когда использовать каждый

Вы должны использовать межквартильный диапазон для измерения разброса значений в наборе данных, когда присутствуют крайние выбросы.

И наоборот, вы должны использовать стандартное отклонение для измерения разброса значений, когда нет экстремальных выбросов.

Чтобы проиллюстрировать почему, рассмотрим следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Ранее в статье мы рассчитали следующие показатели для этого набора данных:

  • ИКР: 14,5
  • Стандартное отклонение: 9,25

Однако подумайте, есть ли в наборе данных один экстремальный выброс:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378

Мы могли бы использовать калькулятор, чтобы найти следующие показатели для этого набора данных:

  • IQR: 15
  • Стандартное отклонение: 85,02

Обратите внимание, что межквартильный размах почти не изменяется при наличии выброса, в то время как стандартное отклонение увеличивается с 9,25 до 85,02.

Дополнительные ресурсы

Показатели центральной тенденции: определение и примеры
Меры рассеивания: определение и примеры
Как найти выбросы, используя межквартильный диапазон

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.