Простое объяснение того, как интерпретировать дисперсию


В статистике нам часто интересно понять, как «разбросаны» значения в наборе данных. Чтобы измерить это, мы часто используем следующие меры дисперсии :

  • Диапазон: разница между наибольшим и наименьшим значением в наборе данных.
  • Межквартильный диапазон: разница между первым квартилем и третьим квартилем в наборе данных (квартиль — это просто значения, которые делят набор данных на четыре равные части).
  • Стандартное отклонение: способ измерения типичного расстояния, на котором значения находятся от среднего значения.
  • Дисперсия: квадрат стандартного отклонения.

Из этих четырех показателей дисперсию , как правило, труднее всего понять интуитивно. Этот пост призван дать простое объяснение дисперсии.

Стандартное отклонение

Прежде чем мы сможем понять дисперсию, нам сначала нужно понять стандартное отклонение , обычно обозначаемое как σ .

Формула для расчета стандартного отклонения:

σ = √(Σ (x i – μ) 2 / N)

где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».

На практике вам редко придется вычислять стандартное отклонение вручную; вместо этого вы можете использовать статистическое программное обеспечение или калькулятор.

На самом базовом уровне стандартное отклонение говорит нам, насколько разбросаны значения данных в наборе данных. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими стандартными отклонениями:

[5, 5, 5] стандартное отклонение = 0 (совсем нет разброса)

[3, 5, 7] стандартное отклонение = 1,63 (некоторый разброс)

[1, 5, 99] стандартное отклонение = 45,28 (большой разброс)

Термин «стандартное отклонение» можно понять, взглянув на два слова, которые его составляют:

  • «отклонение» — это относится к расстоянию от среднего значения.
  • «Стандарт» — это относится к «стандартному» или «типичному» расстоянию, на котором значение находится от среднего значения.

Как только вы поймете стандартное отклонение, вам будет намного легче понять дисперсию.

Понимание дисперсии

Дисперсия, обычно обозначаемая как σ 2 , представляет собой просто квадрат стандартного отклонения. Формула для нахождения дисперсии набора данных:

σ 2 = Σ (xi – μ) 2 / N

где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».

Итак, если стандартное отклонение набора данных равно 8, то вариация будет 8 2 = 64.

Или, если стандартное отклонение набора данных равно 10, тогда вариация будет 10 2 = 100.

Или, если стандартное отклонение набора данных равно 3,7, тогда вариация будет 3,7 2 = 13,69.

Чем более разбросаны значения в наборе данных, тем выше дисперсия. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими им отклонениями:

[5, 5, 5] дисперсия = 0 (совсем нет разброса)

[3, 5, 7] дисперсия = 2,67 (некоторый разброс)

[1, 5, 99] дисперсия = 2050,67 (большой разброс)

Когда бы вы использовали дисперсию вместо стандартного отклонения?

После прочтения приведенных выше объяснений стандартного отклонения и дисперсии вам может быть интересно, когда вы когда-либо использовали дисперсию вместо стандартного отклонения для описания набора данных.

В конце концов, стандартное отклонение говорит нам о среднем расстоянии, на котором значение находится от среднего, а дисперсия говорит нам о квадрате этого значения. Казалось бы, стандартное отклонение гораздо проще понять и интерпретировать.

На самом деле вы почти всегда будете использовать стандартное отклонение, чтобы описать, насколько разбросаны значения в наборе данных.

Однако дисперсия может быть полезна, когда вы используете такой метод, как дисперсионный анализ или регрессия , и пытаетесь объяснить общую дисперсию в модели из-за определенных факторов.

Например, вы можете захотеть понять, в какой степени дисперсия результатов тестов может быть объяснена коэффициентом интеллекта, а в какой степени дисперсия может быть объяснена часами обучения.

Если 36 % вариаций связано с IQ, а 64 % — с часами обучения, это легко понять. Но если мы используем стандартные отклонения 6 и 8, это гораздо менее интуитивно понятно и не имеет особого смысла в контексте проблемы.

Другой случай, когда лучше использовать дисперсию, чем стандартное отклонение, — это когда вы выполняете теоретическую статистическую работу.

В этом случае намного проще использовать дисперсию при вычислениях, поскольку вам не нужно использовать знак квадратного корня.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о дисперсии:

Дисперсия выборки и дисперсия населения: в чем разница?
Как рассчитать выборку и дисперсию населения в Excel