Взаимосвязь между размером выборки и погрешностью


Часто в статистике мы заинтересованы в оценке значения некоторого параметра совокупности, такого как доля населения или среднее значение совокупности .

Чтобы оценить эти значения, мы обычно собираем простую случайную выборку и вычисляем долю выборки или среднее значение выборки.

Затем мы строим доверительный интервал , чтобы зафиксировать нашу неопределенность вокруг этих оценок.

Мы используем следующую формулу для расчета доверительного интервала для доли населения:

Доверительный интервал = p ± z * √ p (1-p) / n

куда:

  • p: доля выборки
  • z: выбранное значение z
  • n: размер выборки

И мы используем следующую формулу для расчета доверительного интервала для среднего значения совокупности:

Доверительный интервал = x̄ ± z*(s/√n)

куда:

  • x̄: выборочное среднее
  • z: выбранное значение z
  • s : стандартное отклонение выборки
  • n: размер выборки

В обеих формулах существует обратная зависимость между размером выборки и погрешностью.

Чем больше размер выборки, тем меньше погрешность. И наоборот, чем меньше размер выборки, тем больше погрешность.

Посмотрите следующие два примера, чтобы лучше понять это.

Пример 1: Размер выборки и погрешность для доли населения

Мы используем следующую формулу для расчета доверительного интервала для доли населения:

Доверительный интервал = p ± z * √ p (1-p) / n

Часть, выделенная красным, называется погрешностью :

Доверительный интервал = p ± z * √ p (1-p) / n

Обратите внимание, что в пределах погрешности мы делим на n (размер выборки).

Таким образом, когда размер выборки большой, мы делим на большое число, что уменьшает всю погрешность. Это приводит к более узкому доверительному интервалу.

Например, предположим, что мы собираем простую случайную выборку данных со следующей информацией:

  • р: 0,6
  • п: 25

Вот как рассчитать 95% доверительный интервал для доли населения:

  • Доверительный интервал = p ± z * √ p (1-p) / n
  • Доверительный интервал = 0,6 ± 1,96 * √ 0,6 (1–0,6) / 25
  • Доверительный интервал = 0,6 ± 0,192
  • Доверительный интервал = [0,408, 0,792]

Теперь рассмотрим, если бы вместо этого мы использовали размер выборки в 200 человек. Вот как мы рассчитали бы 95% доверительный интервал для доли населения:

  • Доверительный интервал = p ± z * √ p (1-p) / n
  • Доверительный интервал = 0,6 ± 1,96 * √ 0,6 (1–0,6) / 200
  • Доверительный интервал = 0,6 ± 0,068
  • Доверительный интервал = [0,532, 0,668]

Обратите внимание, что просто увеличив размер выборки, мы смогли уменьшить погрешность и получить гораздо более узкий доверительный интервал.

Пример 2: размер выборки и погрешность для среднего значения генеральной совокупности

Мы используем следующую формулу для расчета доверительного интервала для среднего значения генеральной совокупности:

Доверительный интервал = x̄ ± z*(s/√n)

Часть, выделенная красным, называется погрешностью :

Доверительный интервал = x̄ ± z *(s/√n)

Обратите внимание, что в пределах погрешности мы делим на n (размер выборки).

Таким образом, когда размер выборки большой, мы делим на большое число, что уменьшает всю погрешность. Это приводит к более узкому доверительному интервалу.

Например, предположим, что мы собираем простую случайную выборку данных со следующей информацией:

  • х̄: 15
  • с : 4
  • п: 25

Вот как рассчитать 95% доверительный интервал для среднего значения генеральной совокупности:

  • Доверительный интервал = x̄ ± z*(s/√n)
  • Доверительный интервал = 15 ± 1,96 * (4/√ 25 )
  • Доверительный интервал = 15 ± 1,568.
  • Доверительный интервал = [13,432, 16,568]

Теперь рассмотрим, если бы вместо этого мы использовали размер выборки 200. Вот как мы рассчитали бы 95% доверительный интервал для среднего значения генеральной совокупности:

  • Доверительный интервал = x̄ ± z*(s/√n)
  • Доверительный интервал = 15 ± 1,96 * (4/√ 200 )
  • Доверительный интервал = 15 ± 0,554
  • Доверительный интервал = [14,446, 15,554]

Обратите внимание, что просто увеличив размер выборки, мы смогли уменьшить погрешность и получить более узкий доверительный интервал.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о доверительных интервалах для пропорции:

В следующих руководствах представлена дополнительная информация о доверительных интервалах для среднего значения: