Стандартное отклонение используется для измерения разброса значений в выборке.
Мы можем использовать следующую формулу для расчета стандартного отклонения данной выборки:
√ Σ(x i – x бар ) 2 / (n-1)
куда:
- Σ: символ, означающий «сумма».
- x i : i -е значение в выборке
- x bar : среднее значение выборки
- n: размер выборки
Чем выше значение стандартного отклонения, тем более разбросаны значения в выборке.И наоборот, чем ниже значение стандартного отклонения, тем более плотно упакованы значения.
У студентов часто возникает вопрос: какое значение стандартного отклонения считается хорошим?
Ответ: стандартное отклонение не может быть «хорошим» или «плохим», потому что оно просто говорит нам, насколько разбросаны значения в выборке.
Также не существует универсального числа, определяющего, является ли стандартное отклонение «высоким» или «низким». Например, рассмотрим следующие сценарии:
Сценарий 1. Агент по продаже недвижимости собирает данные о ценах на 100 домов в своем городе и обнаруживает, что стандартное отклонение цен составляет 12 000 долларов.
Сценарий 2. Экономист измеряет общий подоходный налог, собранный во всех 50 штатах США, и находит, что стандартное отклонение общего подоходного налога составляет 480 000 долларов.
Хотя стандартное отклонение в сценарии 2 намного выше, чем стандартное отклонение в сценарии 1, единицы, измеряемые в сценарии 2, намного выше, поскольку общие налоги, собираемые штатами, очевидно, намного выше, чем цены на жилье.
Это означает, что нет единого числа, которое мы можем использовать, чтобы сказать, является ли стандартное отклонение «хорошим» или «плохим» или даже «высоким» или «низким», потому что это зависит от ситуации.
Использование коэффициента вариации
Один из способов определить, является ли стандартное отклонение высоким, — сравнить его со средним значением набора данных.
Коэффициент вариации , часто обозначаемый аббревиатурой CV , представляет собой способ измерения степени разброса значений в наборе данных по отношению к среднему значению. Он рассчитывается как:
CV = с / х
куда:
- s: стандартное отклонение набора данных
- x : среднее значение набора данных
Проще говоря, CV — это отношение между стандартным отклонением и средним значением.
Чем выше CV, тем выше стандартное отклонение относительно среднего значения. Как правило, значение CV больше 1 часто считается высоким.
Например, предположим, что риелтор собирает данные о цене 100 домов в своем городе и обнаруживает, что средняя цена составляет 150 000 долларов, а стандартное отклонение цен составляет 12 000 долларов. CV будет рассчитываться как:
- CV: 12 000 долл. США / 150 000 долл. США = 0,08
Поскольку это значение CV значительно ниже 1, это говорит нам о том, что стандартное отклонение данных довольно низкое.
И наоборот, предположим, что экономист измеряет общий подоходный налог, собираемый во всех 50 штатах США, и обнаруживает, что среднее значение выборки составляет 400 000 долларов, а стандартное отклонение — 480 000 долларов. CV будет рассчитываться как:
- CV: 480 000 долл. США / 400 000 долл. США = 1,2
Поскольку это значение CV больше 1, это говорит нам о том, что стандартное отклонение значений данных довольно велико.
Сравнение стандартных отклонений в наборах данных
Часто мы используем стандартное отклонение для измерения разброса значений между различными наборами данных.
Например, предположим, что профессор сдает своим студентам три экзамена в течение одного семестра. Затем он вычисляет выборочное стандартное отклонение баллов для каждого экзамена:
- Стандартное отклонение выборки для экзамена 1. Баллы: 4,6 .
- Стандартное отклонение выборки по результатам экзамена 2: 12,4 .
- Стандартное отклонение выборки экзамена 3. Баллы: 2,3 .
Это говорит профессору о том, что экзаменационные баллы были наиболее разбросаны по Экзамену 2, в то время как баллы были наиболее плотно сгруппированы по Экзамену 3.
Дополнительные ресурсы
Стандартное отклонение и стандартная ошибка: в чем разница?
Стандартное отклонение и межквартильный диапазон: в чем разница?