Рандомизация в статистике: определение и пример


В области статистики рандомизация относится к акту случайного распределения субъектов исследования в разные группы лечения.

Например, предположим, что исследователи набирают 100 человек для участия в исследовании, в котором они надеются понять, оказывают ли две разные таблетки разное влияние на артериальное давление.

Они могут решить использовать генератор случайных чисел, чтобы случайным образом назначить каждому субъекту использовать либо таблетку № 1, либо таблетку № 2.

Преимущества рандомизации

Суть рандомизации заключается в контроле скрытых переменных — переменных, которые не включены в анализ напрямую, но тем не менее каким-то образом влияют на анализ.

Например, если исследователи изучают влияние двух разных таблеток на кровяное давление, то на анализ могут повлиять следующие скрытые переменные:

  • Курение
  • Диета
  • Упражнение

Случайным образом распределяя испытуемых по группам лечения, мы максимизируем шансы того, что скрытые переменные одинаково повлияют на обе группы лечения.

Это означает, что любые различия в артериальном давлении могут быть связаны с типом таблетки, а не с эффектом скрытой переменной.

Блочная рандомизация

Расширение рандомизации известно как блочная рандомизация.Это процесс сначала разделения субъектов на блоки, а затем использования рандомизации для назначения субъектам внутри блоков различных видов лечения.

Например, если исследователи хотят узнать, влияют ли две разные таблетки на артериальное давление по-разному, они могут сначала разделить всех испытуемых на один из двух блоков в зависимости от пола: мужской или женский.

Затем в каждом блоке они могут использовать рандомизацию, чтобы случайным образом назначать субъектов для использования либо таблетки № 1, либо таблетки № 2.

Преимущество этого подхода заключается в том, что исследователи могут напрямую контролировать любое влияние пола на кровяное давление, поскольку мы знаем, что мужчины и женщины, вероятно, по-разному реагируют на каждую таблетку.

Используя пол в качестве блока, мы можем устранить эту переменную как потенциальный источник вариаций. Если есть разница в артериальном давлении между двумя таблетками, мы можем знать, что пол не является основной причиной этих различий.

Дополнительные ресурсы

Блокировка в статистике: определение и пример
Рандомизация переставленных блоков: определение и пример
Скрытые переменные: определение и примеры