В статистике нам часто интересно понять, как «разбросаны» значения в наборе данных. Чтобы измерить это, мы часто используем следующие меры дисперсии :
- Диапазон: разница между наибольшим и наименьшим значением в наборе данных.
- Межквартильный диапазон: разница между первым квартилем и третьим квартилем в наборе данных (квартиль — это просто значения, которые делят набор данных на четыре равные части).
- Стандартное отклонение: способ измерения типичного расстояния, на котором значения находятся от среднего значения.
- Дисперсия: квадрат стандартного отклонения.
Из этих четырех показателей дисперсию , как правило, труднее всего понять интуитивно. Этот пост призван дать простое объяснение дисперсии.
Стандартное отклонение
Прежде чем мы сможем понять дисперсию, нам сначала нужно понять стандартное отклонение , обычно обозначаемое как σ .
Формула для расчета стандартного отклонения:
σ = √(Σ (x i – μ) 2 / N)
где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».
На практике вам редко придется вычислять стандартное отклонение вручную; вместо этого вы можете использовать статистическое программное обеспечение или калькулятор.
На самом базовом уровне стандартное отклонение говорит нам, насколько разбросаны значения данных в наборе данных. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими стандартными отклонениями:
[5, 5, 5] стандартное отклонение = 0 (совсем нет разброса)
[3, 5, 7] стандартное отклонение = 1,63 (некоторый разброс)
[1, 5, 99] стандартное отклонение = 45,28 (большой разброс)
Термин «стандартное отклонение» можно понять, взглянув на два слова, которые его составляют:
- «отклонение» — это относится к расстоянию от среднего значения.
- «Стандарт» — это относится к «стандартному» или «типичному» расстоянию, на котором значение находится от среднего значения.
Как только вы поймете стандартное отклонение, вам будет намного легче понять дисперсию.
Понимание дисперсии
Дисперсия, обычно обозначаемая как σ 2 , представляет собой просто квадрат стандартного отклонения. Формула для нахождения дисперсии набора данных:
σ 2 = Σ (xi – μ) 2 / N
где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».
Итак, если стандартное отклонение набора данных равно 8, то вариация будет 8 2 = 64.
Или, если стандартное отклонение набора данных равно 10, тогда вариация будет 10 2 = 100.
Или, если стандартное отклонение набора данных равно 3,7, тогда вариация будет 3,7 2 = 13,69.
Чем более разбросаны значения в наборе данных, тем выше дисперсия. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими им отклонениями:
[5, 5, 5] дисперсия = 0 (совсем нет разброса)
[3, 5, 7] дисперсия = 2,67 (некоторый разброс)
[1, 5, 99] дисперсия = 2050,67 (большой разброс)
Когда бы вы использовали дисперсию вместо стандартного отклонения?
После прочтения приведенных выше объяснений стандартного отклонения и дисперсии вам может быть интересно, когда вы когда-либо использовали дисперсию вместо стандартного отклонения для описания набора данных.
В конце концов, стандартное отклонение говорит нам о среднем расстоянии, на котором значение находится от среднего, а дисперсия говорит нам о квадрате этого значения. Казалось бы, стандартное отклонение гораздо проще понять и интерпретировать.
На самом деле вы почти всегда будете использовать стандартное отклонение, чтобы описать, насколько разбросаны значения в наборе данных.
Однако дисперсия может быть полезна, когда вы используете такой метод, как дисперсионный анализ или регрессия , и пытаетесь объяснить общую дисперсию в модели из-за определенных факторов.
Например, вы можете захотеть понять, в какой степени дисперсия результатов тестов может быть объяснена коэффициентом интеллекта, а в какой степени дисперсия может быть объяснена часами обучения.
Если 36 % вариаций связано с IQ, а 64 % — с часами обучения, это легко понять. Но если мы используем стандартные отклонения 6 и 8, это гораздо менее интуитивно понятно и не имеет особого смысла в контексте проблемы.
Другой случай, когда лучше использовать дисперсию, чем стандартное отклонение, — это когда вы выполняете теоретическую статистическую работу.
В этом случае намного проще использовать дисперсию при вычислениях, поскольку вам не нужно использовать знак квадратного корня.
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация о дисперсии:
Дисперсия выборки и дисперсия населения: в чем разница?
Как рассчитать выборку и дисперсию населения в Excel