Диаграмма Парето — это тип диаграммы, которая отображает частоты различных категорий вместе с кумулятивными частотами категорий.

В этом руководстве представлен пошаговый пример создания диаграммы Парето в R.
Шаг 1: Создайте данные
Предположим, мы проводим опрос, в котором мы просим 350 разных людей определить их любимую марку хлопьев среди марок A, B, C, D и E.
Следующий набор данных показывает общее количество голосов за каждый бренд:
#create data
df <- data.frame(favorite=c('A', 'B', 'C', 'D', 'E', 'F'),
count=c(140, 97, 58, 32, 17, 6))
#view data
df
favorite count
1 A 140
2 B 97
3 C 58
4 D 32
5 E 17
6 F 6
Шаг 2: Создайте диаграмму Парето
Чтобы создать диаграмму Парето для визуализации результатов этого опроса, мы можем использовать функцию pareto.chart() из пакета qcc :
library (qcc)
#create Pareto chart
pareto. chart (df$count)
Pareto chart analysis for df$count
Frequency Cum.Freq. Percentage Cum.Percent.
A 140.000000 140.000000 40.000000 40.000000
B 97.000000 237.000000 27.714286 67.714286
C 58.000000 295.000000 16.571429 84.285714
D 32.000000 327.000000 9.142857 93.428571
E 17.000000 344.000000 4.857143 98.285714
F 6.000000 350.000000 1.714286 100.000000

Таблица в выходных данных показывает нам частоту и совокупную частоту каждой марки. Например:
- Частота марки А: 140 | Суммарная частота: 140
- Частота марки B: 97 | Суммарная частота A, B: 237
- Частота марки C: 58 | Суммарная частота A, B, C: 295
И так далее.
Шаг 3. Измените диаграмму Парето (необязательно)
В следующем коде показано, как изменить заголовок диаграммы вместе с используемой цветовой палитрой:
pareto. chart (df$count,
main='Pareto Chart for Favorite Cereal Brands',
col=heat. colors ( length (df$count)))

Вы можете найти полный список цветовых палитр, доступных в этой Шпаргалке R Color .
Дополнительные ресурсы
Как создать частотные таблицы в R
Как создать гистограмму относительной частоты в R
Как рассчитать кумулятивные суммы в R