Как установить количество интервалов для гистограммы в ggplot2

Как установить количество интервалов для гистограммы в ggplot2

Вы можете использовать аргумент bins , чтобы указать количество бинов для использования в гистограмме в ggplot2 :

library (ggplot2)

ggplot(df, aes (x=x)) +
 geom_histogram(bins= 10 )

В следующих примерах показано, как использовать этот аргумент на практике.

Пример: установка количества бинов для гистограммы в ggplot2

В следующем коде показано, как создать набор данных в R, содержащий 10 000 случайных значений, следующих распределению Пуассона со средним значением 2:

#make this example reproducible
set. seed (0)

#create data frame with 10,000 random values that follow Poisson distribution
df <- data.frame(values=rpois(n= 10000 , lambda= 2 ))

#view first five rows of data frame
head(df)

 values
1 4
2 1
3 1
4 2
5 4
6 1

Мы можем использовать следующий код для создания гистограммы в ggplot2, чтобы визуализировать распределение значений во фрейме данных:

library (ggplot2)

ggplot(df, aes (x=values)) +
 geom_histogram(fill='steelblue', col='black') 

По умолчанию ggplot2 автоматически выбирает определенное количество интервалов для использования в гистограмме.

Однако мы можем использовать следующий синтаксис, чтобы указать, что мы хотим, чтобы гистограмма использовала 10 интервалов:

library (ggplot2)

ggplot(df, aes (x=values)) +
 geom_histogram(fill='steelblue', col='black', bins= 10 ) 

Обратите внимание, что гистограмма теперь имеет ровно 10 бинов.

Или мы могли бы использовать следующий синтаксис, чтобы указать, что мы хотим, чтобы гистограмма использовала 5 бинов:

library (ggplot2)

ggplot(df, aes (x=values)) +
 geom_histogram(fill='steelblue', col='black', bins= 5 ) 

Обратите внимание, что гистограмма теперь имеет ровно 5 бинов.

Вы обнаружите, что чем меньше ящиков вы используете, тем шире будет каждый ящик.

В общем, если вы используете слишком мало бинов, истинное базовое распределение значений будет скрыто.

Однако, если вы используете слишком много бинов, вы можете просто визуализировать шум в данных.

Один из способов найти оптимальное количество интервалов для использования в гистограмме — использовать правило Стерджеса.Подробнее об этом правиле читайте здесь .

Примечание.Полную документацию по функции geom_histogram можно найти здесь .

Дополнительные ресурсы

В следующих руководствах объясняется, как создавать другие распространенные диаграммы в R:

Как создать гистограмму относительной частоты в R
Как построить несколько блочных диаграмм на одной диаграмме в R
Как построить несколько линий на одном графике в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.