В статистике нас часто интересует изучение характеристик конкретных групп населения. Например, нам может быть интересно изучить:
- Общая удовлетворенность работой инженеров-механиков в определенном городе.
- Политические предпочтения отдельных лиц в определенном графстве.
- Возрастное распределение людей в определенной стране.
- Кинопредпочтения учеников определенной школы.
В каждом из этих примеров мы хотим получить представление об определеннойпопуляции .
Население: вся группа людей, которых вы хотите изучить.
К сожалению, сбор данных для каждого человека в популяции может быть дорогим и трудоемким, поэтому исследователи обычно собирают данные для выборки из популяции, а затем обобщают результаты выборки на более крупную популяцию.
Выборка: часть населения.
Например, предположим, что мы хотим понять, какие фильмы предпочитают ученики определенной школы, в которой учится 1000 учеников. Поскольку опрос каждого отдельного учащегося занял бы слишком много времени, мы могли бы вместо этого взять случайную выборку из 100 учащихся и спросить их об их предпочтениях.

1000 студентов представляют собой совокупность, а 100 случайно выбранных студентов представляют собой выборку. Как только мы соберем данные для выборки из 100 учащихся, мы сможем обобщить эти результаты для общей совокупности из 1000 учащихся, но только в том случае, если наша выборка репрезентативна для нашей совокупности .
Репрезентативная выборка: выборка, в которой характеристики отдельных лиц близко соответствуют характеристикам населения в целом.
В идеале мы хотим, чтобы наша выборка была похожа на «мини-версию» нашей популяции. Таким образом, если в общей студенческой популяции 50% девочек и 50% мальчиков, наша выборка не будет репрезентативной, если в ней будет 90% мальчиков и только 10% девочек.

Или, если общая популяция состоит из равных частей первокурсников, второкурсников, младших и старших классов, то наша выборка не будет репрезентативной, если она будет включать только первокурсников.

Важность получения репрезентативного образца
Причина, по которой нам нужна репрезентативная выборка, заключается в том, что мы можем уверенно обобщать результаты выборки на популяцию.
Например, предположим, что мы хотим узнать, какой процент учащихся в определенной школе предпочитает «драму» в качестве любимого жанра кино. Если общее количество учащихся состоит из 50 % мальчиков и 50 % девочек, то выборка из 90 % мальчиков и 10 % девочек может привести к необъективным результатам, если гораздо меньше мальчиков предпочитают драму в качестве любимого жанра.
Или, если общая совокупность состоит из равных частей первокурсников, второкурсников, младших и старших классов, то выборка только с первокурсниками также может привести к необъективным результатам, если младшие учащиеся (например, первокурсники) склонны гораздо чаще предпочитать драму, чем первокурсники. старшеклассники.
Если характеристики индивидуумов в нашей выборке не совсем совпадают с характеристиками индивидуумов в общей популяции, то мы не можем с уверенностью обобщить результаты выборки на общую популяцию.
Как получить репрезентативный образец
Чтобы максимизировать шансы на получение репрезентативной выборки, нам нужно сосредоточиться на двух вещах при получении нашей выборки:
1. Используйте соответствующий метод выборки.
Есть много способов получить выборку из совокупности , но вот три метода, которые могут получить репрезентативную выборку:
Простая случайная выборка: случайный выбор лиц с помощью генератора случайных чисел или некоторых средств случайного отбора.
- Пример: Присвойте номер всем 1000 учащихся. Затем с помощью генератора случайных чисел выберите 100 случайных чисел и используйте соответствующих учащихся в качестве членов выборки.
- Преимущество: Простые случайные выборки обычно репрезентативны для интересующей нас совокупности, поскольку каждый член имеет равные шансы быть включенным в выборку.
Систематическая случайная выборка: расположите каждого члена совокупности в некотором порядке. Выберите случайную начальную точку и выберите каждого n -го члена для включения в выборку.
- Пример. Создайте список в алфавитном порядке на основе фамилий всех 1000 учащихся, случайным образом выберите начальную точку и выберите каждого десятого учащегося для включения в выборку.
- Преимущество: систематические случайные выборки обычно репрезентативны для интересующей нас совокупности, поскольку каждый член имеет равные шансы быть включенным в выборку.
Стратифицированная случайная выборка: разделите население на группы. Случайным образом выберите несколько членов из каждой группы для включения в выборку.
- Пример. Разделите всех учащихся по их классам: первокурсников, второкурсников, младших и старших классов. Случайным образом выберите 25 учеников из каждого класса для включения в выборку.
- Преимущество: стратифицированные случайные выборки гарантируют, что в выборку будет включено равное количество учащихся каждого класса.
2. Убедитесь, что выборка достаточно большая.
Наряду с использованием соответствующего метода выборки важно убедиться, что выборка достаточно велика, чтобы у нас было достаточно данных для обобщения на большую совокупность.
Например, выборка из восьми учащихся — мальчика и девочки из каждого класса — может представлять собой мини-версию более крупной совокупности, но, вероятно, она недостаточно велика, чтобы охватить всю изменчивость, которая естественным образом присутствует в ответах учащихся.
Итак, насколько большой должна быть ваша выборка?
Это зависит от следующих факторов:
- Размер совокупности: как правило, чем больше численность населения, тем больше должна быть выборка. Например, вам понадобится гораздо большая выборка, если вы хотите обобщить свои выводы на всю страну по сравнению с одним городом.
- Уровень достоверности: насколько вы хотите быть уверены в том, что истинное значение генеральной совокупности, которое вас интересует, попадает в ваш доверительный интервал. Общие уровни достоверности включают 90%, 95% и 99%. Чем выше уровень достоверности, тем больше должна быть ваша выборка.
- Погрешность: сколько ошибок вы готовы допустить. Ни одна выборка не будет идеальной, поэтому вы должны быть готовы допустить хотя бы некоторую ошибку. Большинство исследований сообщают о своих выводах с погрешностью, например, «40% студентов сообщили, что драма является их любимым жанром кино, с погрешностью +/- 5%». Чем меньше погрешность, тем меньше должна быть ваша выборка.
В Интернете есть множество онлайн-калькуляторов размера выборки, которые помогут вам определить, насколько большой должна быть ваша выборка на основе этих факторов. Этот калькулятор от Survey Monkey особенно прост в использовании.
О чем следует помнить
Даже если вы используете соответствующий метод выборки и убедитесь, что ваша выборка достаточно велика, имейте в виду следующее:
- Всегда будет какая -то ошибка выборки. Выборка никогда не будет полностью репрезентативной для большей совокупности.
- В целом, чем больше выборка, тем больше вероятность того, что она будет репрезентативной для населения.
- Вам необходимо найти баланс между размером выборки и реальными переменными, такими как время и стоимость. Более крупная выборка может иметь больше шансов представить всю совокупность, но ее получение может быть более дорогим и трудоемким.