Как оценить стандартное отклонение любой гистограммы


Гистограмма предлагает полезный способ визуализации распределения значений в наборе данных.

По оси X гистограммы отображаются интервалы значений данных, а по оси Y указано, сколько наблюдений в наборе данных приходится на каждый интервал.

Поскольку гистограмма размещает наблюдения в бинах, невозможно вычислить точное стандартное отклонение набора данных, представленного гистограммой, но можно оценить стандартное отклонение.

В следующем примере показано, как это сделать.

Связанный: Как оценить среднее значение и медиану любой гистограммы

Как оценить стандартное отклонение гистограммы

Чтобы оценить стандартное отклонение гистограммы, мы должны сначала оценить среднее значение.

Мы можем использовать следующую формулу для оценки среднего:

Среднее значение: Σm i n i / N

куда:

  • m i : середина i -го бина
  • n i : частота i -го бина
  • N: общий размер выборки

Например, предположим, что у нас есть следующая гистограмма:

Вот как мы можем оценить среднее значение этой гистограммы:

Мы оцениваем среднее значение как 22,89 .

Примечание. Среднюю точку для каждой группы можно найти, взяв среднее значение нижнего и верхнего значения диапазона. Например, средняя точка для первой группы рассчитывается как: (1+10)/2 = 5,5.

Теперь, когда у нас есть оценка среднего значения, мы можем использовать следующую формулу для оценки стандартного отклонения:

Стандартное отклонение: √ Σn i (m i -μ) 2 / (N-1)

куда:

  • n i : частота i -го бина
  • m i : середина i -го бина
  • μ : среднее значение
  • N: общий размер выборки

Вот как мы применим эту формулу к нашему набору данных:

По нашим оценкам, стандартное отклонение набора данных составляет 9,6377 .

Хотя это не гарантирует точное соответствие стандартному отклонению набора данных (поскольку мы не знаем необработанных значений данных набора данных), оно представляет нашу наилучшую оценку стандартного отклонения.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи, связанные с данными, сгруппированными в ячейки:

Как найти дисперсию сгруппированных данных
Как найти медиану сгруппированных данных
Как найти режим сгруппированных данных