Как фильтровать уникальные значения с помощью dplyr


Вы можете использовать следующие методы для фильтрации уникальных значений во фрейме данных в R с помощью пакета dplyr :

Метод 1: Фильтр уникальных значений в одном столбце

df %>% distinct(var1)

Способ 2: фильтрация уникальных значений в нескольких столбцах

df %>% distinct(var1, var2)

Способ 3: фильтрация уникальных значений во всех столбцах

df %>% distinct()

В следующих примерах показано, как использовать каждый метод на практике со следующим фреймом данных в R:

#create data frame
df <- data.frame(team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
 points=c(10, 10, 8, 6, 15, 15, 12, 12),
 rebounds=c(8, 8, 4, 3, 10, 11, 7, 7))

#view data frame**df

 team points rebounds
1 A 10 8
2 A 10 8
3 A 8 4
4 A 6 3
5 B 15 10
6 B 15 11
7 B 12 7
8 B 12 7

Пример 1: Фильтр уникальных значений в столбце

Мы можем использовать следующий код для фильтрации уникальных значений только в столбце команды :

library(dplyr)

#select only unique values in team column
df %>% distinct(team)

 team
1 A
2 B

Обратите внимание, что возвращаются только уникальные значения в столбце team .

Пример 2. Фильтр уникальных значений в нескольких столбцах

Мы можем использовать следующий код для фильтрации уникальных значений в столбцах team и points :

library(dplyr)

#select unique values in team and points columns
df %>% distinct(team, points)

 team points
1 A 10
2 A 8
3 A 6
4 B 15
5 B 12

Обратите внимание, что возвращаются только уникальные значения в столбцах team и points .

Пример 3. Фильтр уникальных значений во всех столбцах

Мы можем использовать следующий код для фильтрации уникальных значений во всех столбцах фрейма данных:

library(dplyr)

#select unique values across all columns
df %>% distinct()

 team points rebounds
1 A 10 8
2 A 8 4
3 A 6 3
4 B 15 10
5 B 15 11
6 B 12 7

Обратите внимание, что возвращаются уникальные значения для всех трех столбцов.

Примечание : Вы можете найти полную документацию для отдельной функции в dplyr здесь .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные операции в dplyr:

Как выбрать столбцы по индексу с помощью dplyr
Как выбрать первую строку по группе с помощью dplyr
Как фильтровать по нескольким условиям с помощью dplyr
Как отфильтровать строки, содержащие определенную строку, с помощью dplyr