Как создать матрицу диаграммы рассеяния в R (примеры 2)

Как создать матрицу диаграммы рассеяния в R (примеры 2)

Матрица диаграммы рассеяния — это матрица диаграмм рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.

Существует два распространенных способа создания матрицы диаграммы рассеяния в R:

Метод 1: используйте базу R

#create scatterplot matrix (pch=20 means to use a solid circle for points)
plot(df, pch= 20 )

Способ 2: используйте пакеты ggplot2 и GGally

library (ggplot2)
library (GGally)

#create scatterplot matrix
ggpairs(df)

В следующих примерах показано, как использовать каждый метод на практике со следующим фреймом данных в R:

#create data frame
df <- data.frame(points=c(99, 90, 86, 88, 95, 99, 101, 104),
 assists=c(33, 28, 31, 39, 40, 40, 35, 47),
 rebounds=c(30, 28, 24, 24, 20, 20, 15, 12))

#view first few rows of data frame
head(df)

 points assists rebounds
1 99 33 30
2 90 28 28
3 86 31 24
4 88 39 24
5 95 40 20
6 99 40 20

Пример 1: создание матрицы диаграммы рассеяния с использованием базы R

Мы можем использовать функцию plot() в базе R, чтобы создать матрицу диаграммы рассеяния для каждой переменной в нашем фрейме данных:

#create scatterplot matrix
plot(df, pch= 20 , cex= 1.5 , col='steelblue')
матрица диаграммы рассеяния в R

Способ интерпретации матрицы следующий:

  • Имена переменных показаны вдоль диагоналей.
  • Во всех остальных полях отображается диаграмма рассеяния отношений между каждой парной комбинацией переменных. Например, в поле в правом верхнем углу матрицы отображается диаграмма рассеяния значений очков и подборов.В поле в середине слева отображается диаграмма рассеяния значений очков и передач и т. д.

Обратите внимание, что cex управляет размером точек на графике, а col управляет цветом точек.

Пример 2: создание матрицы диаграммы рассеяния с использованием ggplot2 и GGally

Мы также можем использовать функцию ggpairs() из пакетов ggplot2 и GGally в R, чтобы создать матрицу диаграммы рассеяния для каждой переменной в нашем фрейме данных:

library (ggplot2)
library (GGally)

#create scatterplot matrix
ggpairs(df) 
матрица диаграммы рассеяния в ggplot2

Эта матрица диаграммы рассеяния содержит те же диаграммы рассеяния, что и функция plot() из базы R, но, кроме того, мы также можем видеть коэффициент корреляции между каждой парной комбинацией переменных, а также график плотности для каждой отдельной переменной.

Например, мы можем видеть:

  • Коэффициент корреляции между передачами и очками равен 0,571 .
  • Коэффициент корреляции между подборами и очками равен -0,598 .
  • Коэффициент корреляции между подборами и передачами равен -0,740 .

Крошечная звездочка ( * ) рядом с -0,740 также указывает на то, что корреляция между подборами и передачами статистически значима.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:

Как создать корреляционную матрицу в R
Как создать точечные диаграммы по группам в R

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.