Гистограмма — это диаграмма, которая помогает нам визуализировать распределение значений в наборе данных.
Оказывается, количество бинов, используемых в гистограмме, может иметь огромное влияние на то, как мы интерпретируем данные.
Если мы используем слишком мало бинов, истинный базовый шаблон в данных может быть скрыт:

И если мы используем слишком много бинов, мы можем просто визуализировать шум в наборе данных:

К счастью, мы можем использовать метод, известный как правило Стерджеса, чтобы определить оптимальное количество бинов для использования в гистограмме.
Правило Стерджеса использует следующую формулу для определения оптимального количества интервалов для использования в гистограмме:
Оптимальные интервалы = ⌈log 2 n + 1⌉
куда:
- n: общее количество наблюдений в наборе данных.
- ⌈ ⌉: Символы, означающие «потолок» — т. е. округлить ответ до ближайшего целого числа.
Пример: правило Стерджеса
Предположим, у нас есть следующий набор данных с общим количеством наблюдений n = 31:

Мы можем использовать правило Стерджеса, чтобы определить оптимальное количество бинов для визуализации этих значений на гистограмме:
Оптимальные интервалы = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .
Согласно правилу Стерджеса, мы должны использовать 6 бинов в гистограмме, которую мы используем для визуализации этого распределения значений.
Вот как будет выглядеть гистограмма с 6 интервалами для этого набора данных:

Обратите внимание, что бинов кажется достаточно, чтобы получить хорошее представление о лежащем в основе распределении значений, но их не слишком много, чтобы мы просто визуализировали шум в данных.
Общие значения правила Стерджеса
В следующей таблице показано оптимальное количество бинов для использования в гистограмме на основе общего количества наблюдений в наборе данных в соответствии с правилом Стерджеса:

Альтернативы правилу Стерджеса
Правило Стерджеса является наиболее распространенным методом определения оптимального количества бинов для использования в гистограмме, но есть несколько альтернативных методов, в том числе:
Правило квадратного корня : количество ячеек = ⌈√ n ⌉
Правило Райса: количество контейнеров = ⌈2 * 3 √ n ⌉
Правило Фридмана-Диакониса: количество интервалов = (2*IQR) / 3 √ n , где IQR — межквартильный размах.
Бонус: Калькулятор правила Стерджеса
Используйте этот бесплатный онлайн-калькулятор , чтобы автоматически применять правило Стерджеса для определения оптимального количества бинов для гистограммы в зависимости от размера набора данных.