Что такое репрезентативная выборка и почему она важна?


В статистике нас часто интересует изучение характеристик конкретных групп населения. Например, нам может быть интересно изучить:

  • Общая удовлетворенность работой инженеров-механиков в определенном городе.
  • Политические предпочтения отдельных лиц в определенном графстве.
  • Возрастное распределение людей в определенной стране.
  • Кинопредпочтения учеников определенной школы.

В каждом из этих примеров мы хотим получить представление об определеннойпопуляции .

Население: вся группа людей, которых вы хотите изучить.

К сожалению, сбор данных для каждого человека в популяции может быть дорогим и трудоемким, поэтому исследователи обычно собирают данные для выборки из популяции, а затем обобщают результаты выборки на более крупную популяцию.

Выборка: часть населения.

Например, предположим, что мы хотим понять, какие фильмы предпочитают ученики определенной школы, в которой учится 1000 учеников. Поскольку опрос каждого отдельного учащегося занял бы слишком много времени, мы могли бы вместо этого взять случайную выборку из 100 учащихся и спросить их об их предпочтениях.

1000 студентов представляют собой совокупность, а 100 случайно выбранных студентов представляют собой выборку. Как только мы соберем данные для выборки из 100 учащихся, мы сможем обобщить эти результаты для общей совокупности из 1000 учащихся, но только в том случае, если наша выборка репрезентативна для нашей совокупности .

Репрезентативная выборка: выборка, в которой характеристики отдельных лиц близко соответствуют характеристикам населения в целом.

В идеале мы хотим, чтобы наша выборка была похожа на «мини-версию» нашей популяции. Таким образом, если в общей студенческой популяции 50% девочек и 50% мальчиков, наша выборка не будет репрезентативной, если в ней будет 90% мальчиков и только 10% девочек.

Или, если общая популяция состоит из равных частей первокурсников, второкурсников, младших и старших классов, то наша выборка не будет репрезентативной, если она будет включать только первокурсников.

Важность получения репрезентативного образца

Причина, по которой нам нужна репрезентативная выборка, заключается в том, что мы можем уверенно обобщать результаты выборки на популяцию.

Например, предположим, что мы хотим узнать, какой процент учащихся в определенной школе предпочитает «драму» в качестве любимого жанра кино. Если общее количество учащихся состоит из 50 % мальчиков и 50 % девочек, то выборка из 90 % мальчиков и 10 % девочек может привести к необъективным результатам, если гораздо меньше мальчиков предпочитают драму в качестве любимого жанра.

Или, если общая совокупность состоит из равных частей первокурсников, второкурсников, младших и старших классов, то выборка только с первокурсниками также может привести к необъективным результатам, если младшие учащиеся (например, первокурсники) склонны гораздо чаще предпочитать драму, чем первокурсники. старшеклассники.

Если характеристики индивидуумов в нашей выборке не совсем совпадают с характеристиками индивидуумов в общей популяции, то мы не можем с уверенностью обобщить результаты выборки на общую популяцию.

Как получить репрезентативный образец

Чтобы максимизировать шансы на получение репрезентативной выборки, нам нужно сосредоточиться на двух вещах при получении нашей выборки:

1. Используйте соответствующий метод выборки.

Есть много способов получить выборку из совокупности , но вот три метода, которые могут получить репрезентативную выборку:

Простая случайная выборка: случайный выбор лиц с помощью генератора случайных чисел или некоторых средств случайного отбора.

  • Пример: Присвойте номер всем 1000 учащихся. Затем с помощью генератора случайных чисел выберите 100 случайных чисел и используйте соответствующих учащихся в качестве членов выборки.
  • Преимущество: Простые случайные выборки обычно репрезентативны для интересующей нас совокупности, поскольку каждый член имеет равные шансы быть включенным в выборку.

Систематическая случайная выборка: расположите каждого члена совокупности в некотором порядке. Выберите случайную начальную точку и выберите каждого n -го члена для включения в выборку.

  • Пример. Создайте список в алфавитном порядке на основе фамилий всех 1000 учащихся, случайным образом выберите начальную точку и выберите каждого десятого учащегося для включения в выборку.
  • Преимущество: систематические случайные выборки обычно репрезентативны для интересующей нас совокупности, поскольку каждый член имеет равные шансы быть включенным в выборку.

Стратифицированная случайная выборка: разделите население на группы. Случайным образом выберите несколько членов из каждой группы для включения в выборку.

  • Пример. Разделите всех учащихся по их классам: первокурсников, второкурсников, младших и старших классов. Случайным образом выберите 25 учеников из каждого класса для включения в выборку.
  • Преимущество: стратифицированные случайные выборки гарантируют, что в выборку будет включено равное количество учащихся каждого класса.

2. Убедитесь, что выборка достаточно большая.

Наряду с использованием соответствующего метода выборки важно убедиться, что выборка достаточно велика, чтобы у нас было достаточно данных для обобщения на большую совокупность.

Например, выборка из восьми учащихся — мальчика и девочки из каждого класса — может представлять собой мини-версию более крупной совокупности, но, вероятно, она недостаточно велика, чтобы охватить всю изменчивость, которая естественным образом присутствует в ответах учащихся.

Итак, насколько большой должна быть ваша выборка?

Это зависит от следующих факторов:

  • Размер совокупности: как правило, чем больше численность населения, тем больше должна быть выборка. Например, вам понадобится гораздо большая выборка, если вы хотите обобщить свои выводы на всю страну по сравнению с одним городом.
  • Уровень достоверности: насколько вы хотите быть уверены в том, что истинное значение генеральной совокупности, которое вас интересует, попадает в ваш доверительный интервал. Общие уровни достоверности включают 90%, 95% и 99%. Чем выше уровень достоверности, тем больше должна быть ваша выборка.
  • Погрешность: сколько ошибок вы готовы допустить. Ни одна выборка не будет идеальной, поэтому вы должны быть готовы допустить хотя бы некоторую ошибку. Большинство исследований сообщают о своих выводах с погрешностью, например, «40% студентов сообщили, что драма является их любимым жанром кино, с погрешностью +/- 5%». Чем меньше погрешность, тем меньше должна быть ваша выборка.

В Интернете есть множество онлайн-калькуляторов размера выборки, которые помогут вам определить, насколько большой должна быть ваша выборка на основе этих факторов. Этот калькулятор от Survey Monkey особенно прост в использовании.

О чем следует помнить

Даже если вы используете соответствующий метод выборки и убедитесь, что ваша выборка достаточно велика, имейте в виду следующее:

  • Всегда будет какая -то ошибка выборки. Выборка никогда не будет полностью репрезентативной для большей совокупности.
  • В целом, чем больше выборка, тем больше вероятность того, что она будет репрезентативной для населения.
  • Вам необходимо найти баланс между размером выборки и реальными переменными, такими как время и стоимость. Более крупная выборка может иметь больше шансов представить всю совокупность, но ее получение может быть более дорогим и трудоемким.