Простое объяснение того, как интерпретировать дисперсию


В статистике нам часто интересно понять, как «разбросаны» значения в наборе данных. Чтобы измерить это, мы часто используем следующие меры дисперсии :

  • Диапазон: разница между наибольшим и наименьшим значением в наборе данных.
  • Межквартильный диапазон: разница между первым квартилем и третьим квартилем в наборе данных (квартиль — это просто значения, которые делят набор данных на четыре равные части).
  • Стандартное отклонение: способ измерения типичного расстояния, на котором значения находятся от среднего значения.
  • Дисперсия: квадрат стандартного отклонения.

Из этих четырех показателей дисперсию , как правило, труднее всего понять интуитивно. Этот пост призван дать простое объяснение дисперсии.

Стандартное отклонение

Прежде чем мы сможем понять дисперсию, нам сначала нужно понять стандартное отклонение , обычно обозначаемое как σ .

Формула для расчета стандартного отклонения:

σ = √(Σ (x i – μ) 2 / N)

где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».

На практике вам редко придется вычислять стандартное отклонение вручную; вместо этого вы можете использовать статистическое программное обеспечение или калькулятор.

На самом базовом уровне стандартное отклонение говорит нам, насколько разбросаны значения данных в наборе данных. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими стандартными отклонениями:

[5, 5, 5] стандартное отклонение = 0 (совсем нет разброса)

[3, 5, 7] стандартное отклонение = 1,63 (некоторый разброс)

[1, 5, 99] стандартное отклонение = 45,28 (большой разброс)

Термин «стандартное отклонение» можно понять, взглянув на два слова, которые его составляют:

  • «отклонение» — это относится к расстоянию от среднего значения.
  • «Стандарт» — это относится к «стандартному» или «типичному» расстоянию, на котором значение находится от среднего значения.

Как только вы поймете стандартное отклонение, вам будет намного легче понять дисперсию.

Понимание дисперсии

Дисперсия, обычно обозначаемая как σ 2 , представляет собой просто квадрат стандартного отклонения. Формула для нахождения дисперсии набора данных:

σ 2 = Σ (xi – μ) 2 / N

где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».

Итак, если стандартное отклонение набора данных равно 8, то вариация будет 8 2 = 64.

Или, если стандартное отклонение набора данных равно 10, тогда вариация будет 10 2 = 100.

Или, если стандартное отклонение набора данных равно 3,7, тогда вариация будет 3,7 2 = 13,69.

Чем более разбросаны значения в наборе данных, тем выше дисперсия. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими им отклонениями:

[5, 5, 5] дисперсия = 0 (совсем нет разброса)

[3, 5, 7] дисперсия = 2,67 (некоторый разброс)

[1, 5, 99] дисперсия = 2050,67 (большой разброс)

Когда бы вы использовали дисперсию вместо стандартного отклонения?

После прочтения приведенных выше объяснений стандартного отклонения и дисперсии вам может быть интересно, когда вы когда-либо использовали дисперсию вместо стандартного отклонения для описания набора данных.

В конце концов, стандартное отклонение говорит нам о среднем расстоянии, на котором значение находится от среднего, а дисперсия говорит нам о квадрате этого значения. Казалось бы, стандартное отклонение гораздо проще понять и интерпретировать.

На самом деле вы почти всегда будете использовать стандартное отклонение, чтобы описать, насколько разбросаны значения в наборе данных.

Однако дисперсия может быть полезна, когда вы используете такой метод, как дисперсионный анализ или регрессия , и пытаетесь объяснить общую дисперсию в модели из-за определенных факторов.

Например, вы можете захотеть понять, в какой степени дисперсия результатов тестов может быть объяснена коэффициентом интеллекта, а в какой степени дисперсия может быть объяснена часами обучения.

Если 36 % вариаций связано с IQ, а 64 % — с часами обучения, это легко понять. Но если мы используем стандартные отклонения 6 и 8, это гораздо менее интуитивно понятно и не имеет особого смысла в контексте проблемы.

Другой случай, когда лучше использовать дисперсию, чем стандартное отклонение, — это когда вы выполняете теоретическую статистическую работу.

В этом случае намного проще использовать дисперсию при вычислениях, поскольку вам не нужно использовать знак квадратного корня.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о дисперсии:

Дисперсия выборки и дисперсия населения: в чем разница?
Как рассчитать выборку и дисперсию населения в Excel

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.