График пар — это матрица диаграмм рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.
К счастью, в R легко создать парный график с помощью функцииpairs().В этом руководстве представлено несколько примеров использования этой функции на практике.
Пример 1: парный график всех переменных
В следующем коде показано, как создать базовый график пар для всех переменных во фрейме данных в R:
#make this example reproducible
set.seed(0)
#create data frame
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
df <- data.frame(var1, var2, var3)
#create pairs plot
pairs(df)

Способ интерпретации матрицы следующий:
- Имена переменных показаны вдоль диагоналей.
- Во всех остальных полях отображается диаграмма рассеяния отношений между каждой парной комбинацией переменных. Например, поле в правом верхнем углу матрицы отображает диаграмму рассеяния значений для var1 и var3.Поле в середине слева отображает диаграмму рассеяния значений для var1 и var2 и так далее.
Этот единственный график дает нам представление о взаимосвязи между каждой парой переменных в нашем наборе данных. Например, var1 и var2 имеют положительную корреляцию, в то время как var1 и var3 практически не имеют корреляции.
Пример 2: парный график конкретных переменных
В следующем коде показано, как создать базовый график пар только для первых двух переменных в наборе данных:
#create pairs plot for var1 and var2 only
pairs(df[, 1:2])

Пример 3: изменение эстетики парного графика
В следующем коде показано, как изменить внешний вид парного графика, включая заголовок, цвет и метки:
pairs(df,
col = 'blue', #modify color
labels = c('First', 'Second', 'Third'), #modify labels
main = 'Custom Title') #modify title

Пример 4: Получение корреляций с помощью ggpair
Вы также можете получить коэффициент корреляции Пирсона между переменными, используя функцию ggpairs() из библиотеки GGally. Следующий код иллюстрирует использование этой функции:
#install necessary libraries
install.packages('ggplot2')
install.packages('GGally')
#load libraries
library(ggplot2)
library(GGally)
#create pairs plot
ggpairs(df)

Способ интерпретации этой матрицы следующий:
- Имена переменных отображаются на внешних краях матрицы.
- В прямоугольниках по диагоналям показан график плотности для каждой переменной.
- В полях в левом нижнем углу отображается диаграмма рассеяния между каждой переменной.
- В полях в правом верхнем углу показан коэффициент корреляции Пирсона между каждой переменной. Например, корреляция между var1 и var2 составляет 0,425 .
Преимущество использования ggpairs() по сравнению с базовой функцией Pairs( ) заключается в том, что вы можете получить больше информации о переменных. В частности, вы можете увидеть коэффициент корреляции между каждой парной комбинацией переменных, а также график плотности для каждой отдельной переменной.
Вы можете найти полную документацию по функции ggpairs() здесь .