SOCS: полезная аббревиатура для описания дистрибутивов

SOCS: полезная аббревиатура для описания дистрибутивов

В статистике нам часто интересно понять, как распространяется набор данных. В частности, есть четыре вещи, которые полезно знать о дистрибутиве:

1 . Форма

  • Распределение симметрично или смещено в одну сторону?
  • Является ли распределение одномодальным (один пик) илибимодальным (два пика)?

2. Выбросы

  • Присутствуют ли какие-либо выбросы в распределении?

3. Центр

  • Что такое среднее значение, медиана и способ распределения?

4. Распространение

  • Что такое размах, межквартильный размах, стандартное отклонение и дисперсия распределения?

SOCS — полезная аббревиатура, которую мы можем использовать, чтобы запомнить эти четыре вещи. Это означает «форма, выбросы, центр, распространение».

Давайте рассмотрим простой пример того, как использовать SOCS для описания дистрибутива.

Пример: как использовать SOCS для описания дистрибутива

Предположим, у нас есть следующий набор данных, который показывает высоту выборки из 20 разных растений.

Вот как мы можем использовать SOCS для описания этого распределения значений данных.

Форма

Во-первых, мы хотим описать форму распределения.

Одним из полезных способов визуализации формы распределения является создание гистограммы, которая отображает частоты каждого значения в наборе данных:

Распределение симметрично или смещено в одну сторону? Из гистограммы видно, что распределение примерно симметрично. То есть значения не перекошены в ту или иную сторону.

Является ли распределение одномодальным (один пик) или бимодальным (два пика)? Распространение унимодальное. Он имеет один пик при значении «7».

Выбросы

Затем мы хотим определить, есть ли какие-либо выбросы в наборе данных. Из гистограммы мы можем визуально проверить распределение и увидеть, что 22 потенциально является выбросом:

Пример гистограммы с использованием SOCS в статистике

Одним из распространенных способов формального определения выброса является любое значение, которое в 1,5 раза превышает межквартильный диапазон выше третьего квартиля или ниже первого квартиля.

Используя калькулятор межквартильного диапазона, мы можем ввести 20 необработанных значений данных и обнаружить, что третий квартиль равен 9 , межквартильный диапазон равен 3 , и, таким образом, любое значение выше 9 + (1,5 * 3) = 13,5 является выбросом по определению.

Поскольку 22 больше 13,5, мы можем объявить 22 выбросом.

Центр

Далее мы хотим описать, где находится центр распределения. Три общих показателя центральной тенденции , которые мы можем использовать, — это среднее значение, медиана и мода.

Среднее: это среднее значение в распределении. Мы находим это путем сложения всех отдельных значений, а затем деления на общее количество значений:

Среднее = (8+4+6+7+7+6+7+8+6+11+8+22+10+9+9+7+5+7+6+4) / 20 = 7,85

Медиана: это «среднее» значение в распределении. Мы находим это, упорядочивая все значения от наименьшего к наибольшему, а затем определяя среднее значение. Получается 7 .

4, 4, 5, 6, 6, 6, 6, 7, 7, 7 , 7 , 7, 8, 8, 8, 9, 9, 10, 11, 22

Режим: это значение, которое встречается чаще всего. Получается 7 .

Распространять

Далее мы хотим описать, насколько разбросаны значения в распределении. Четыре общих показателя дисперсии , которые мы можем использовать, — это размах, межкварильный размах, стандартное отклонение и дисперсия.

Диапазон: это разница между наибольшим и наименьшим значением в наборе данных. Получается 22 – 4 = 18 .

Межквартильный диапазон: измеряет ширину средних 50% значений данных. Введя 20 необработанных значений данных в калькулятор межквартильного диапазона , мы видим, что это равно 3 .

Стандартное отклонение: это мера того, насколько разбросаны значения данных в среднем. Введя 20 необработанных значений данных в калькулятор дисперсии и стандартного отклонения, мы видим, что стандартное отклонение равно 3,69 .

Дисперсия: это просто стандартное отклонение, возведенное в квадрат. Это равно 3,69 2 = 13,63 .

Вывод

Используя SOCS в качестве ориентира, мы смогли описать распределение высоты растений следующим образом:

  • Распределение было унимодальным и симметричным, то есть имело только один пик и не было смещено в ту или иную сторону.
  • В распределении был один выброс: 22.
  • Распределение имело среднее значение 7,85, медиану 7 и моду 7.
  • Распределение имело диапазон 18, межквартильный диапазон 3, стандартное отклонение 3,69 и дисперсию 13,63.

Обратите внимание, что мы можем использовать SOCS для описания любого распределения, что является полезным способом получить хорошее представление о форме распределения, есть ли в нем какие-либо выбросы, где примерно расположен центр и как распределены значения данных. находятся.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.