Кластерная выборка в R (с примерами)


Исследователи часто берут образцы из населения и используют данные из выборки, чтобы сделать выводы о населении в целом.

Одним из широко используемых методов выборки является кластерная выборка , при которой совокупность разбивается на кластеры, и все члены некоторых кластеров выбираются для включения в выборку.

В этом руководстве объясняется, как выполнить кластерную выборку в R.

Пример: кластерная выборка в R

Предположим, компания, организующая экскурсии по городу, хочет опросить своих клиентов. Из десяти туров, которые они проводят один день, они случайным образом выбирают четыре тура и просят каждого клиента оценить свой опыт по шкале от 1 до 10.

В следующем коде показано, как создать поддельный фрейм данных в R для работы с ним:

#make this example reproducible
set.seed(1)

#create data frame
df <- data.frame(tour = rep(1:10, each=20),
 experience = rnorm(200, mean=7, sd=1))

#view first six rows of data frame
head(df)

 tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

А следующий код показывает, как получить выборку клиентов, случайным образом выбрав четыре тура и включив в выборку каждого участника этих туров:

#randomly choose 4 tour groups out of the 10
clusters <- sample( unique (df$tour), size=4, replace= F )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample <- df[df$tour %in% clusters, ]

#view how many customers came from each tour
table(cluster_sample$tour)

 2 7 8 10 
20 20 20 20

Из вывода мы видим, что:

  • В выборку вошли 20 клиентов из туристической группы №2.
  • В выборку вошли 20 клиентов из туристической группы №7.
  • В выборку вошли 20 клиентов из туристической группы №8.
  • В выборку вошли 20 клиентов из туристической группы №10.

Таким образом, эта выборка состоит из 80 клиентов из 4 разных туристических групп.

Связанный: Как использовать оператор %in% в R

Дополнительные ресурсы

Понимание различных типов методов выборки
Стратифицированная выборка в R
Систематическая выборка в R