Часто в статистике мы заинтересованы в сборе данных, чтобы мы могли ответить на какой-то исследовательский вопрос.
Например, мы можем захотеть ответить на следующие вопросы:
1. Каков средний доход домохозяйства в Цинциннати, штат Огайо?
2. Каков средний вес определенной популяции черепах?
3. Какой процент жителей определенного округа поддерживает определенный закон?
В каждом сценарии нас интересует ответ на некоторый вопрос о совокупности , которая представляет все возможные отдельные элементы, которые мы хотим измерить.
Однако вместо сбора данных о каждом человеке в популяции мы обычно просто собираем данные по выборке популяции, которая представляет собой часть популяции.
Существует два разных способа сбора проб: отбор проб с замещением и отбор проб без замещения .
В этом учебном пособии объясняется разница между двумя методами, а также примеры практического использования каждого из них.
Выборка с заменой
Предположим, у нас есть имена 5 учеников в шапке:
- Андо
- Кайла
- Тайлер
- Бекка
- Джессика
Предположим, мы хотели бы взять выборку из 2 студентов с заменой.
При первом случайном розыгрыше мы можем выбрать имя Тайлер. Затем мы помещали его имя обратно в шляпу и снова рисовали. Во втором розыгрыше мы можем снова выбрать имя Тайлер. Таким образом, наша выборка будет: {Тайлер, Тайлер}
Это пример получения выборки с заменой, потому что мы заменяем выбранное имя после каждого случайного розыгрыша.
Когда мы выбираем с заменой, элементы в выборке независимы , потому что результат одного случайного розыгрыша не зависит от предыдущего розыгрыша.
Например, вероятность выбрать имя Тайлер составляет 1/5 при первом розыгрыше и снова 1/5 при втором розыгрыше. Исход первого розыгрыша не влияет на вероятность исхода второго розыгрыша.
Выборка с заменой используется во многих различных сценариях в статистике и машинном обучении, в том числе:
- Начальная загрузка
- Бэгинг
- Простое введение в бустинг в машинном обучении
- Простое введение в случайные леса
В каждом из этих методов используется выборка с заменой, поскольку она позволяет нам использовать один и тот же набор данных несколько раз для построения моделей, а не собирать новые данные, что может занять много времени и средств.
Выборка без замены
Опять же, предположим, что у нас есть имена 5 студентов в шапке:
- Андо
- Кайла
- Тайлер
- Бекка
- Джессика
Предположим, мы хотели бы взять выборку из 2 студентов без замены.
При первом случайном розыгрыше мы можем выбрать имя Тайлер. Тогда мы бы исключили его имя из шляпы. Во втором розыгрыше мы можем выбрать имя Андо. Таким образом, наша выборка будет: {Тайлер, Андо}
Это пример получения выборки без замены, потому что мы не заменяем имя, которое выбираем после каждого случайного розыгрыша.
Когда мы делаем выборку без замены, элементы в выборке являются зависимыми , потому что результат одного случайного розыгрыша зависит от предыдущего розыгрыша.
Например, вероятность выбора имени Тайлер составляет 1/5 при первом розыгрыше, а вероятность выбора имени Андо — 1/4 при втором розыгрыше. Исход первого розыгрыша влияет на вероятность исхода второго розыгрыша.
Выборка без замены — это метод, который мы используем, когда хотим выбрать случайную выборку из совокупности.
Например, если мы хотим оценить средний доход домохозяйства в Цинциннати, штат Огайо, всего может быть 500 000 различных домохозяйств.
Таким образом, мы можем захотеть собрать случайную выборку из 2000 домохозяйств, но мы не хотим, чтобы данные для любого конкретного домохозяйства появлялись в выборке дважды, поэтому мы проводили выборку без замены.
Другими словами, после того как мы выбрали определенное домохозяйство для включения в выборку, мы не хотим, чтобы была какая-либо возможность выбора этого домохозяйства для повторного включения.