Диапазон против стандартного отклонения: когда использовать каждый


Диапазон и стандартное отклонение — это два способа измерения разброса значений в наборе данных.

Диапазон представляет собой разницу между минимальным значением и максимальным значением в наборе данных.

Стандартное отклонение измеряет типичное отклонение отдельных значений от среднего значения. Он рассчитывается как:

s = √(Σ(x i – x ) 2 / (n-1))

куда:

  • Σ: символ, означающий «сумма».
  • x i : значение i -го наблюдения в выборке
  • x : среднее значение выборки
  • n: размер выборки

Например, предположим, что у нас есть следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Диапазон рассчитывается как: 31 -1 = 32.

Мы можем использовать калькулятор, чтобы найти, что стандартное отклонение равно 9,25.

Диапазон против стандартного отклонения: сходства и различия

Диапазон и стандартное отклонение имеют следующее сходство:

  • Обе метрики измеряют разброс значений в наборе данных.

Однако диапазон и стандартное отклонение имеют следующую разницу:

  • Диапазон говорит нам о разнице между наибольшим и наименьшим значением во всем наборе данных.
  • Стандартное отклонение говорит нам о типичном отклонении отдельных значений от среднего значения в наборе данных.

Диапазон против стандартного отклонения: когда использовать каждый

Мы должны использовать диапазон , когда нам интересно понять разницу между наибольшим и наименьшим значением в наборе данных.

Например, предположим, что профессор проводит экзамен для 100 студентов. Она может использовать диапазон, чтобы понять разницу между самой высокой и самой низкой оценкой, полученной всеми учениками в классе.

И наоборот, мы должны использовать стандартное отклонение , когда нам интересно понять, насколько типичное значение в наборе данных отклоняется от среднего значения.

Например, если профессор проводит экзамен для 100 студентов, он может использовать стандартное отклонение для количественной оценки того, насколько типичный экзаменационный балл отличается от среднего экзаменационного балла.

Стоит отметить, что нам не нужно выбирать между использованием диапазона или стандартного отклонения для описания разброса значений в наборе данных. Мы можем использовать обе метрики, поскольку они предоставляют нам совершенно разную информацию.

Недостатки диапазона и стандартного отклонения

И диапазон, и стандартное отклонение имеют один недостаток: они оба зависят от выбросов .

Чтобы проиллюстрировать это, рассмотрим следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Мы можем рассчитать следующие значения для диапазона и стандартного отклонения этого набора данных:

  • Диапазон: 31
  • Стандартное отклонение: 9,25

Однако подумайте, есть ли в наборе данных один экстремальный выброс:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378

Мы могли бы использовать калькулятор, чтобы найти следующие показатели для этого набора данных:

  • Диапазон: 377
  • Стандартное отклонение: 85,02

Обратите внимание, как диапазон и стандартное отклонение резко меняются в результате одного выброса.

Хотя диапазон и стандартное отклонение могут быть полезными метриками, чтобы получить представление о том, насколько разбросаны значения в наборе данных, сначала необходимо убедиться, что в наборе данных нет выбросов, влияющих на эти метрики. В противном случае диапазон и стандартное отклонение могут ввести в заблуждение.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.