Как создавать и интерпретировать парные графики в R


График пар — это матрица диаграмм рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.

К счастью, в R легко создать парный график с помощью функцииpairs().В этом руководстве представлено несколько примеров использования этой функции на практике.

Пример 1: парный график всех переменных

В следующем коде показано, как создать базовый график пар для всех переменных во фрейме данных в R:

#make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)

df <- data.frame(var1, var2, var3)

#create pairs plot 
pairs(df) 

Способ интерпретации матрицы следующий:

  • Имена переменных показаны вдоль диагоналей.
  • Во всех остальных полях отображается диаграмма рассеяния отношений между каждой парной комбинацией переменных. Например, поле в правом верхнем углу матрицы отображает диаграмму рассеяния значений для var1 и var3.Поле в середине слева отображает диаграмму рассеяния значений для var1 и var2 и так далее.

Этот единственный график дает нам представление о взаимосвязи между каждой парой переменных в нашем наборе данных. Например, var1 и var2 имеют положительную корреляцию, в то время как var1 и var3 практически не имеют корреляции.

Пример 2: парный график конкретных переменных

В следующем коде показано, как создать базовый график пар только для первых двух переменных в наборе данных:

#create pairs plot for var1 and var2 only
pairs(df[, 1:2]) 

Пример 3: изменение эстетики парного графика

В следующем коде показано, как изменить внешний вид парного графика, включая заголовок, цвет и метки:

pairs(df,
 col = 'blue', #modify color
 labels = c('First', 'Second', 'Third'), #modify labels
 main = 'Custom Title') #modify title 

Пример 4: Получение корреляций с помощью ggpair

Вы также можете получить коэффициент корреляции Пирсона между переменными, используя функцию ggpairs() из библиотеки GGally. Следующий код иллюстрирует использование этой функции:

#install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df) 

Способ интерпретации этой матрицы следующий:

  • Имена переменных отображаются на внешних краях матрицы.
  • В прямоугольниках по диагоналям показан график плотности для каждой переменной.
  • В полях в левом нижнем углу отображается диаграмма рассеяния между каждой переменной.
  • В полях в правом верхнем углу показан коэффициент корреляции Пирсона между каждой переменной. Например, корреляция между var1 и var2 составляет 0,425 .

Преимущество использования ggpairs() по сравнению с базовой функцией Pairs( ) заключается в том, что вы можете получить больше информации о переменных. В частности, вы можете увидеть коэффициент корреляции между каждой парной комбинацией переменных, а также график плотности для каждой отдельной переменной.

Вы можете найти полную документацию по функции ggpairs() здесь .