Что такое правило Стерджеса? (Определение и пример)

Что такое правило Стерджеса? (Определение и пример)

Гистограмма — это диаграмма, которая помогает нам визуализировать распределение значений в наборе данных.

Оказывается, количество бинов, используемых в гистограмме, может иметь огромное влияние на то, как мы интерпретируем данные.

Если мы используем слишком мало бинов, истинный базовый шаблон в данных может быть скрыт:

И если мы используем слишком много бинов, мы можем просто визуализировать шум в наборе данных:

К счастью, мы можем использовать метод, известный как правило Стерджеса, чтобы определить оптимальное количество бинов для использования в гистограмме.

Правило Стерджеса использует следующую формулу для определения оптимального количества интервалов для использования в гистограмме:

Оптимальные интервалы = ⌈log 2 n + 1⌉

куда:

  • n: общее количество наблюдений в наборе данных.
  • ⌈ ⌉: Символы, означающие «потолок» — т. е. округлить ответ до ближайшего целого числа.

Пример: правило Стерджеса

Предположим, у нас есть следующий набор данных с общим количеством наблюдений n = 31:

Мы можем использовать правило Стерджеса, чтобы определить оптимальное количество бинов для визуализации этих значений на гистограмме:

Оптимальные интервалы = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .

Согласно правилу Стерджеса, мы должны использовать 6 бинов в гистограмме, которую мы используем для визуализации этого распределения значений.

Вот как будет выглядеть гистограмма с 6 интервалами для этого набора данных:

Использование правила Стерджеса для определения количества бинов для использования в гистограмме

Обратите внимание, что бинов кажется достаточно, чтобы получить хорошее представление о лежащем в основе распределении значений, но их не слишком много, чтобы мы просто визуализировали шум в данных.

Общие значения правила Стерджеса

В следующей таблице показано оптимальное количество бинов для использования в гистограмме на основе общего количества наблюдений в наборе данных в соответствии с правилом Стерджеса:

Правило Стерджеса для различных размеров выборки

Альтернативы правилу Стерджеса

Правило Стерджеса является наиболее распространенным методом определения оптимального количества бинов для использования в гистограмме, но есть несколько альтернативных методов, в том числе:

Правило квадратного корня : количество ячеек = ⌈√ n ⌉

Правило Райса: количество контейнеров = ⌈2 * 3 √ n ⌉

Правило Фридмана-Диакониса: количество интервалов = (2*IQR) / 3 √ n , где IQR — межквартильный размах.

Бонус: Калькулятор правила Стерджеса

Используйте этот бесплатный онлайн-калькулятор , чтобы автоматически применять правило Стерджеса для определения оптимального количества бинов для гистограммы в зависимости от размера набора данных.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.