Вы можете использовать аргумент bins , чтобы указать количество бинов для использования в гистограмме в ggplot2 :
library (ggplot2)
ggplot(df, aes (x=x)) +
geom_histogram(bins= 10 )
В следующих примерах показано, как использовать этот аргумент на практике.
Пример: установка количества бинов для гистограммы в ggplot2
В следующем коде показано, как создать набор данных в R, содержащий 10 000 случайных значений, следующих распределению Пуассона со средним значением 2:
#make this example reproducible
set. seed (0)
#create data frame with 10,000 random values that follow Poisson distribution
df <- data.frame(values=rpois(n= 10000 , lambda= 2 ))
#view first five rows of data frame
head(df)
values
1 4
2 1
3 1
4 2
5 4
6 1
Мы можем использовать следующий код для создания гистограммы в ggplot2, чтобы визуализировать распределение значений во фрейме данных:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill='steelblue', col='black')
По умолчанию ggplot2 автоматически выбирает определенное количество интервалов для использования в гистограмме.
Однако мы можем использовать следующий синтаксис, чтобы указать, что мы хотим, чтобы гистограмма использовала 10 интервалов:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill='steelblue', col='black', bins= 10 )
Обратите внимание, что гистограмма теперь имеет ровно 10 бинов.
Или мы могли бы использовать следующий синтаксис, чтобы указать, что мы хотим, чтобы гистограмма использовала 5 бинов:
library (ggplot2)
ggplot(df, aes (x=values)) +
geom_histogram(fill='steelblue', col='black', bins= 5 )
Обратите внимание, что гистограмма теперь имеет ровно 5 бинов.
Вы обнаружите, что чем меньше ящиков вы используете, тем шире будет каждый ящик.
В общем, если вы используете слишком мало бинов, истинное базовое распределение значений будет скрыто.
Однако, если вы используете слишком много бинов, вы можете просто визуализировать шум в данных.
Один из способов найти оптимальное количество интервалов для использования в гистограмме — использовать правило Стерджеса.Подробнее об этом правиле читайте здесь .
Примечание.Полную документацию по функции geom_histogram можно найти здесь .
Дополнительные ресурсы
В следующих руководствах объясняется, как создавать другие распространенные диаграммы в R:
Как создать гистограмму относительной частоты в R
Как построить несколько блочных диаграмм на одной диаграмме в R
Как построить несколько линий на одном графике в R