Что такое правило Стерджеса? (Определение и пример)


Гистограмма — это диаграмма, которая помогает нам визуализировать распределение значений в наборе данных.

Оказывается, количество бинов, используемых в гистограмме, может иметь огромное влияние на то, как мы интерпретируем данные.

Если мы используем слишком мало бинов, истинный базовый шаблон в данных может быть скрыт:

И если мы используем слишком много бинов, мы можем просто визуализировать шум в наборе данных:

К счастью, мы можем использовать метод, известный как правило Стерджеса, чтобы определить оптимальное количество бинов для использования в гистограмме.

Правило Стерджеса использует следующую формулу для определения оптимального количества интервалов для использования в гистограмме:

Оптимальные интервалы = ⌈log 2 n + 1⌉

куда:

  • n: общее количество наблюдений в наборе данных.
  • ⌈ ⌉: Символы, означающие «потолок» — т. е. округлить ответ до ближайшего целого числа.

Пример: правило Стерджеса

Предположим, у нас есть следующий набор данных с общим количеством наблюдений n = 31:

Мы можем использовать правило Стерджеса, чтобы определить оптимальное количество бинов для визуализации этих значений на гистограмме:

Оптимальные интервалы = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .

Согласно правилу Стерджеса, мы должны использовать 6 бинов в гистограмме, которую мы используем для визуализации этого распределения значений.

Вот как будет выглядеть гистограмма с 6 интервалами для этого набора данных:

Обратите внимание, что бинов кажется достаточно, чтобы получить хорошее представление о лежащем в основе распределении значений, но их не слишком много, чтобы мы просто визуализировали шум в данных.

Общие значения правила Стерджеса

В следующей таблице показано оптимальное количество бинов для использования в гистограмме на основе общего количества наблюдений в наборе данных в соответствии с правилом Стерджеса:

Альтернативы правилу Стерджеса

Правило Стерджеса является наиболее распространенным методом определения оптимального количества бинов для использования в гистограмме, но есть несколько альтернативных методов, в том числе:

Правило квадратного корня : количество ячеек = ⌈√ n ⌉

Правило Райса: количество контейнеров = ⌈2 * 3 √ n ⌉

Правило Фридмана-Диакониса: количество интервалов = (2*IQR) / 3 √ n , где IQR — межквартильный размах.

Бонус: Калькулятор правила Стерджеса

Используйте этот бесплатный онлайн-калькулятор , чтобы автоматически применять правило Стерджеса для определения оптимального количества бинов для гистограммы в зависимости от размера набора данных.