Полное руководство по набору данных Diamonds в R

Полное руководство по набору данных Diamonds в R

Набор данных diamonds — это набор данных, встроенный в пакет ggplot2 в R.

Он содержит измерения по 10 различным переменным (таким как цена, цвет, чистота и т. д.) для 53 940 различных бриллиантов.

В этом руководстве объясняется, как исследовать, обобщать и визуализировать набор данных алмазов в R.

Загрузите набор данных бриллиантов

Поскольку набор данных diamonds является встроенным набором данных в ggplot2, мы должны сначала установить (если мы еще этого не сделали) и загрузить пакет ggplot2:

#install ggplot2 if not already installed
install. packages('ggplot2')

#load ggplot2
library (ggplot2)

Как только мы загрузили ggplot2, мы можем использовать функцию data() для загрузки набора данных бриллиантов :

data(diamonds)

Мы можем взглянуть на первые шесть строк набора данных, используя функцию head() :

#view first six rows of diamonds dataset
head(diamonds)

 carat cut color clarity depth table price x y z
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
4 0.290 Premium I VS2 62.4 58 334 4.2 4.23 2.63
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48

Обобщить набор данных алмазов

Мы можем использовать функцию summary() , чтобы быстро суммировать каждую переменную в наборе данных:

#summarize diamonds dataset
summary(diamonds)

 carat cut color clarity depth 
 Min. :0.2000 Fair : 1610 D: 6775 SI1 :13065 Min. :43.00 
 1st Qu.:0.4000 Good : 4906 E: 9797 VS2 :12258 1st Qu.:61.00 
 Median :0.7000 Very Good:12082 F: 9542 SI2 : 9194 Median :61.80 
 Mean :0.7979 Premium :13791 G:11292 VS1 : 8171 Mean :61.75 
 3rd Qu.:1.0400 Ideal :21551 H: 8304 VVS2 : 5066 3rd Qu.:62.50 
 Max.:5.0100 I: 5422 VVS1 : 3655 Max.:79.00 
 J: 2808 (Other): 2531 
 table price x y z 
 Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000 Min. : 0.000 
 1st Qu.:56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720 1st Qu.: 2.910 
 Median :57.00 Median : 2401 Median : 5.700 Median : 5.710 Median : 3.530 
 Mean :57.46 Mean : 3933 Mean : 5.731 Mean : 5.735 Mean : 3.539 
 3rd Qu.:59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540 3rd Qu.: 4.040 
 Max.:95.00 Max.:18823 Max.:10.740 Max.:58.900 Max.:31.800 

Для каждой из числовых переменных мы можем увидеть следующую информацию:

  • Мин : минимальное значение.
  • 1st Qu : значение первого квартиля (25-й процентиль).
  • Медиана : среднее значение.
  • Среднее : среднее значение.
  • 3- й Qu : значение третьего квартиля (75-й процентиль).
  • Макс : максимальное значение.

Для категориальных переменных в наборе данных (огранка, цвет и чистота) мы видим подсчет частоты каждого значения.

Например, для переменной cut :

  • Fair : это значение встречается 1610 раз.
  • Хорошо : это значение встречается 4906 раз.
  • Очень хорошо : это значение встречается 12 082 раза.
  • Премиум : это значение встречается 13 791 раз.
  • Идеально : это значение встречается 21 551 раз.

Мы можем использовать функцию dim() для получения размеров набора данных с точки зрения количества строк и количества столбцов:

#display rows and columns
dim(diamonds)

[1] 53940 10

Мы видим, что набор данных имеет 53 940 строк и 10 столбцов.

Мы также можем использовать функцию names() для отображения имен столбцов фрейма данных:

#display column names
names(diamonds)

[1] "carat" "cut" "color" "clarity" "depth" "table" "price" "x" 
[9] "y" "z"

Визуализируйте набор данных алмазов

Мы также можем создать несколько графиков для визуализации значений в наборе данных.

Например, мы можем использовать функцию geom_histogram() для создания гистограммы значений определенной переменной:

#create histogram of values for price
ggplot(data=diamonds, aes (x=price)) +
 geom_histogram(fill=" steelblue", color=" black ") +
 ggtitle(" Histogram of Price Values ")

Мы также можем использовать функцию geom_point() для создания диаграммы рассеивания любой попарной комбинации переменных:

#create scatterplot of carat vs. price, using cut as color variable
ggplot(data=diamonds, aes (x=carat, y=price, color=cut)) + 
 geom_point()

Мы также можем использовать функцию geom_boxplot() для создания диаграммы одной переменной, сгруппированной по другой переменной:

#create scatterplot of price, grouped by cut
ggplot(data=diamonds, aes (x=cut, y=price)) + 
 geom_boxplot(fill=" steelblue ")

Используя эти функции из ggplot2, мы можем многое узнать о переменных в наборе данных о бриллиантах .

Дополнительные ресурсы

В следующих руководствах объясняется, как исследовать другие наборы данных в R:

Полное руководство по набору данных Iris в R
Полное руководство по набору данных mtcars в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.