Как создать матрицу диаграммы рассеяния в R (примеры 2)


Матрица диаграммы рассеяния — это матрица диаграмм рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.

Существует два распространенных способа создания матрицы диаграммы рассеяния в R:

Метод 1: используйте базу R

#create scatterplot matrix (pch=20 means to use a solid circle for points)
plot(df, pch= 20 )

Способ 2: используйте пакеты ggplot2 и GGally

library (ggplot2)
library (GGally)

#create scatterplot matrix
ggpairs(df)

В следующих примерах показано, как использовать каждый метод на практике со следующим фреймом данных в R:

#create data frame
df <- data.frame(points=c(99, 90, 86, 88, 95, 99, 101, 104),
 assists=c(33, 28, 31, 39, 40, 40, 35, 47),
 rebounds=c(30, 28, 24, 24, 20, 20, 15, 12))

#view first few rows of data frame
head(df)

 points assists rebounds
1 99 33 30
2 90 28 28
3 86 31 24
4 88 39 24
5 95 40 20
6 99 40 20

Пример 1: создание матрицы диаграммы рассеяния с использованием базы R

Мы можем использовать функцию plot() в базе R, чтобы создать матрицу диаграммы рассеяния для каждой переменной в нашем фрейме данных:

#create scatterplot matrix
plot(df, pch= 20 , cex= 1.5 , col='steelblue')

Способ интерпретации матрицы следующий:

  • Имена переменных показаны вдоль диагоналей.
  • Во всех остальных полях отображается диаграмма рассеяния отношений между каждой парной комбинацией переменных. Например, в поле в правом верхнем углу матрицы отображается диаграмма рассеяния значений очков и подборов.В поле в середине слева отображается диаграмма рассеяния значений очков и передач и т. д.

Обратите внимание, что cex управляет размером точек на графике, а col управляет цветом точек.

Пример 2: создание матрицы диаграммы рассеяния с использованием ggplot2 и GGally

Мы также можем использовать функцию ggpairs() из пакетов ggplot2 и GGally в R, чтобы создать матрицу диаграммы рассеяния для каждой переменной в нашем фрейме данных:

library (ggplot2)
library (GGally)

#create scatterplot matrix
ggpairs(df) 

Эта матрица диаграммы рассеяния содержит те же диаграммы рассеяния, что и функция plot() из базы R, но, кроме того, мы также можем видеть коэффициент корреляции между каждой парной комбинацией переменных, а также график плотности для каждой отдельной переменной.

Например, мы можем видеть:

  • Коэффициент корреляции между передачами и очками равен 0,571 .
  • Коэффициент корреляции между подборами и очками равен -0,598 .
  • Коэффициент корреляции между подборами и передачами равен -0,740 .

Крошечная звездочка ( * ) рядом с -0,740 также указывает на то, что корреляция между подборами и передачами статистически значима.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:

Как создать корреляционную матрицу в R
Как создать точечные диаграммы по группам в R