Как создать диаграмму Парето в R (шаг за шагом)


Диаграмма Парето — это тип диаграммы, которая отображает частоты различных категорий вместе с кумулятивными частотами категорий.

В этом руководстве представлен пошаговый пример создания диаграммы Парето в R.

Шаг 1: Создайте данные

Предположим, мы проводим опрос, в котором мы просим 350 разных людей определить их любимую марку хлопьев среди марок A, B, C, D и E.

Следующий набор данных показывает общее количество голосов за каждый бренд:

#create data
df <- data.frame(favorite=c('A', 'B', 'C', 'D', 'E', 'F'),
 count=c(140, 97, 58, 32, 17, 6))

#view data
df

 favorite count
1 A 140
2 B 97
3 C 58
4 D 32
5 E 17
6 F 6

Шаг 2: Создайте диаграмму Парето

Чтобы создать диаграмму Парето для визуализации результатов этого опроса, мы можем использовать функцию pareto.chart() из пакета qcc :

library (qcc)

#create Pareto chart
pareto. chart (df$count)

Pareto chart analysis for df$count
 Frequency Cum.Freq. Percentage Cum.Percent.
 A 140.000000 140.000000 40.000000 40.000000
 B 97.000000 237.000000 27.714286 67.714286
 C 58.000000 295.000000 16.571429 84.285714
 D 32.000000 327.000000 9.142857 93.428571
 E 17.000000 344.000000 4.857143 98.285714
 F 6.000000 350.000000 1.714286 100.000000

Таблица в выходных данных показывает нам частоту и совокупную частоту каждой марки. Например:

  • Частота марки А: 140 | Суммарная частота: 140
  • Частота марки B: 97 | Суммарная частота A, B: 237
  • Частота марки C: 58 | Суммарная частота A, B, C: 295

И так далее.

Шаг 3. Измените диаграмму Парето (необязательно)

В следующем коде показано, как изменить заголовок диаграммы вместе с используемой цветовой палитрой:

pareto. chart (df$count,
 main='Pareto Chart for Favorite Cereal Brands',
 col=heat. colors ( length (df$count))) 

Вы можете найти полный список цветовых палитр, доступных в этой Шпаргалке R Color .

Дополнительные ресурсы

Как создать частотные таблицы в R
Как создать гистограмму относительной частоты в R
Как рассчитать кумулятивные суммы в R