Как рассчитать сводку из пяти чисел в R (с примерами)

Как рассчитать сводку из пяти чисел в R (с примерами)

Сводка из пяти чисел — это способ суммировать набор данных, используя следующие пять значений:

  • Минимум
  • Первый квартиль
  • медиана
  • Третий квартиль
  • Максимум

Сводка из пяти чисел полезна, потому что она дает краткую сводку о распределении данных следующими способами:

  • Он сообщает нам, где находится среднее значение , используя медиану.
  • Он говорит нам, насколько разбросаны данные, используя первый и третий квартили.
  • Он сообщает нам диапазон данных, используя минимум и максимум.

Самый простой способ вычислить пятизначную сводку набора данных в R — использовать функцию Fivenum() из базы R:

fivenum(data)

В следующем примере показано, как использовать этот синтаксис на практике.

Пример 1. Пятизначная сводка вектора

В следующем коде показано, как вычислить сводку из пяти чисел числового вектора в R:

#define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

Из вывода мы видим:

  • Минимум: 4
  • Первая квартиль: 7
  • Медиана: 12
  • Третий квартиль: 15
  • Максимум: 22

Мы можем быстро визуализировать сводку из пяти чисел, создав блочную диаграмму:

boxplot(data)

[1] 4 7 12 15 22 

Вот как интерпретировать коробочную диаграмму:

  • Линия внизу графика представляет минимальное значение ( 4 ).
  • Линия внизу прямоугольника представляет первый квартиль ( 7 ).
  • Линия в середине прямоугольника представляет собой медиану ( 12 ).
  • Линия в верхней части поля представляет собой третий квартиль ( 15 ).
  • Линия в верхней части графика представляет максимальное значение ( 22 ).

Пример 2. Пятизначная сводка столбца во фрейме данных

В следующем коде показано, как рассчитать сводку из пяти чисел для определенного столбца во фрейме данных:

#create data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
 points=c(99, 90, 86, 88, 95, 87, 85, 89),
 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Пример 3: пятизначная сводка нескольких столбцов

В следующем коде показано, как использовать функцию sapply() для одновременного вычисления пятизначной сводки нескольких столбцов во фрейме данных:

#create data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
 points=c(99, 90, 86, 88, 95, 87, 85, 89),
 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c('points', 'assists', 'rebounds')], fivenum)

 points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

Связанный: Руководство по apply(), lapply(), sapply() и tapply() в R

Дополнительные ресурсы

Как создать сводные таблицы в R
Как найти диапазон в R
Как удалить выбросы в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.