Как создавать и интерпретировать парные графики в R

Как создавать и интерпретировать парные графики в R

График пар — это матрица диаграмм рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.

К счастью, в R легко создать парный график с помощью функцииpairs().В этом руководстве представлено несколько примеров использования этой функции на практике.

Пример 1: парный график всех переменных

В следующем коде показано, как создать базовый график пар для всех переменных во фрейме данных в R:

#make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)

df <- data.frame(var1, var2, var3)

#create pairs plot 
pairs(df) 

Способ интерпретации матрицы следующий:

  • Имена переменных показаны вдоль диагоналей.
  • Во всех остальных полях отображается диаграмма рассеяния отношений между каждой парной комбинацией переменных. Например, поле в правом верхнем углу матрицы отображает диаграмму рассеяния значений для var1 и var3.Поле в середине слева отображает диаграмму рассеяния значений для var1 и var2 и так далее.

Этот единственный график дает нам представление о взаимосвязи между каждой парой переменных в нашем наборе данных. Например, var1 и var2 имеют положительную корреляцию, в то время как var1 и var3 практически не имеют корреляции.

Пример 2: парный график конкретных переменных

В следующем коде показано, как создать базовый график пар только для первых двух переменных в наборе данных:

#create pairs plot for var1 and var2 only
pairs(df[, 1:2]) 
График пар конкретных переменных в R

Пример 3: изменение эстетики парного графика

В следующем коде показано, как изменить внешний вид парного графика, включая заголовок, цвет и метки:

pairs(df,
 col = 'blue', #modify color
 labels = c('First', 'Second', 'Third'), #modify labels
 main = 'Custom Title') #modify title 
График пользовательских пар в R

Пример 4: Получение корреляций с помощью ggpair

Вы также можете получить коэффициент корреляции Пирсона между переменными, используя функцию ggpairs() из библиотеки GGally. Следующий код иллюстрирует использование этой функции:

#install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df) 
Функция ggpairs в примере R

Способ интерпретации этой матрицы следующий:

  • Имена переменных отображаются на внешних краях матрицы.
  • В прямоугольниках по диагоналям показан график плотности для каждой переменной.
  • В полях в левом нижнем углу отображается диаграмма рассеяния между каждой переменной.
  • В полях в правом верхнем углу показан коэффициент корреляции Пирсона между каждой переменной. Например, корреляция между var1 и var2 составляет 0,425 .

Преимущество использования ggpairs() по сравнению с базовой функцией Pairs( ) заключается в том, что вы можете получить больше информации о переменных. В частности, вы можете увидеть коэффициент корреляции между каждой парной комбинацией переменных, а также график плотности для каждой отдельной переменной.

Вы можете найти полную документацию по функции ggpairs() здесь .

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.