Точечный график и гистограмма: в чем разница?

Точечный график и гистограмма: в чем разница?

Два графика, которые обычно используются для визуализации распределения значений в наборе данных, — это точечные графики и гистограммы .

Точечный график отображает отдельные значения данных вдоль оси x и использует точки для представления частот каждого отдельного значения.

Гистограмма отображает диапазоны данных по оси x и использует прямоугольные столбцы для представления частоты значений, попадающих в каждый диапазон.

В следующем примере показано, как создать точечный график и гистограмму для одного и того же набора данных.

Пример: создание точечной диаграммы и гистограммы для одного и того же набора данных

Предположим, у нас есть следующий набор данных с 18 значениями:

Данные: 1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10

Вот как будет выглядеть точечный график для этого набора данных:

По оси X показаны отдельные значения данных, а по оси Y — частота каждого значения.

Например, мы можем видеть, что значение «2» встречается в наборе данных три раза, потому что над ним есть три точки. Точно так же мы можем видеть, что значение «3» встречается только один раз, потому что над ним есть только одна точка.

А вот как будет выглядеть гистограмма для этого набора данных:

На оси X показаны диапазоны значений (0-2, 2-4, 4-6, 6-8, 8-10), а на оси Y используются прямоугольные столбцы для представления частоты отдельных значений в наборе данных, которые попадают в каждый диапазон.

Например, мы видим, что семь значений находятся в диапазоне от 0 до 2, два значения находятся в диапазоне от 2 до 4 и так далее.

Бонус : для тех, кому любопытно, мы использовали следующий код R для создания точечного графика и гистограммы, показанных выше:

#define dataset
data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10)

#create dot plot
stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5,
 col = "steelblue", main = "Dot Plot",
 xlab = "Data Values", ylab="Frequency")

#create histogram
hist(data, col='steelblue', main='Histogram', xlab='Data Values')

Точечный график против гистограммы: что использовать?

Как упоминалось ранее, для визуализации распределения значений в наборе данных можно использовать как точечный график, так и гистограмму.

Как правило, мы используем точечные графики, когда наш набор данных невелик, потому что это позволяет нам точно увидеть, сколько раз встречается каждое отдельное значение.

И наоборот, мы обычно используем гистограммы, когда наш набор данных большой , потому что неудобно создавать точку для представления каждого отдельного значения в большом наборе данных.

Имейте в виду, что единственным недостатком использования гистограммы является то, что мы не можем точно сказать, сколько раз встречается каждое отдельное значение.

Например, на гистограмме ранее мы видели, что семь значений попали в диапазон от 0 до 2, но мы точно не знаем, сколько значений было равно 1 и сколько значений было равно 2.

Если нас просто интересует общая «форма» распределения, то обычно не имеет большого значения, что мы не знаем отдельных значений в наборе данных.

Также имейте в виду, что мы не можем рассчитать точную медиану или среднее, просто взглянув на гистограмму, потому что мы не знаем отдельных значений.

Дополнительные ресурсы

Следующие руководства предлагают дополнительную информацию о гистограммах:

Как оценить средние и медианные гистограммы
Как описать форму гистограмм
Как создавать гистограммы в R
Как создать гистограмму в Python

Следующие руководства предлагают дополнительную информацию о точечных диаграммах:

Как найти центр и распространение точечной диаграммы
Как создать точечный график в Google Sheets
Как создать точечный график в Excel
Как создать точечный график в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.