Часто в статистике мы заинтересованы в оценке значения некоторого параметра совокупности, такого как доля населения или среднее значение совокупности .
Чтобы оценить эти значения, мы обычно собираем простую случайную выборку и вычисляем долю выборки или среднее значение выборки.
Затем мы строим доверительный интервал , чтобы зафиксировать нашу неопределенность вокруг этих оценок.
Мы используем следующую формулу для расчета доверительного интервала для доли населения:
Доверительный интервал = p ± z * √ p (1-p) / n
куда:
- p: доля выборки
- z: выбранное значение z
- n: размер выборки
И мы используем следующую формулу для расчета доверительного интервала для среднего значения совокупности:
Доверительный интервал = x̄ ± z*(s/√n)
куда:
- x̄: выборочное среднее
- z: выбранное значение z
- s : стандартное отклонение выборки
- n: размер выборки
В обеих формулах существует обратная зависимость между размером выборки и погрешностью.
Чем больше размер выборки, тем меньше погрешность. И наоборот, чем меньше размер выборки, тем больше погрешность.
Посмотрите следующие два примера, чтобы лучше понять это.
Пример 1: Размер выборки и погрешность для доли населения
Мы используем следующую формулу для расчета доверительного интервала для доли населения:
Доверительный интервал = p ± z * √ p (1-p) / n
Часть, выделенная красным, называется погрешностью :
Доверительный интервал = p ± z * √ p (1-p) / n
Обратите внимание, что в пределах погрешности мы делим на n (размер выборки).
Таким образом, когда размер выборки большой, мы делим на большое число, что уменьшает всю погрешность. Это приводит к более узкому доверительному интервалу.
Например, предположим, что мы собираем простую случайную выборку данных со следующей информацией:
- р: 0,6
- п: 25
Вот как рассчитать 95% доверительный интервал для доли населения:
- Доверительный интервал = p ± z * √ p (1-p) / n
- Доверительный интервал = 0,6 ± 1,96 * √ 0,6 (1–0,6) / 25
- Доверительный интервал = 0,6 ± 0,192
- Доверительный интервал = [0,408, 0,792]
Теперь рассмотрим, если бы вместо этого мы использовали размер выборки в 200 человек. Вот как мы рассчитали бы 95% доверительный интервал для доли населения:
- Доверительный интервал = p ± z * √ p (1-p) / n
- Доверительный интервал = 0,6 ± 1,96 * √ 0,6 (1–0,6) / 200
- Доверительный интервал = 0,6 ± 0,068
- Доверительный интервал = [0,532, 0,668]
Обратите внимание, что просто увеличив размер выборки, мы смогли уменьшить погрешность и получить гораздо более узкий доверительный интервал.
Пример 2: размер выборки и погрешность для среднего значения генеральной совокупности
Мы используем следующую формулу для расчета доверительного интервала для среднего значения генеральной совокупности:
Доверительный интервал = x̄ ± z*(s/√n)
Часть, выделенная красным, называется погрешностью :
Доверительный интервал = x̄ ± z *(s/√n)
Обратите внимание, что в пределах погрешности мы делим на n (размер выборки).
Таким образом, когда размер выборки большой, мы делим на большое число, что уменьшает всю погрешность. Это приводит к более узкому доверительному интервалу.
Например, предположим, что мы собираем простую случайную выборку данных со следующей информацией:
- х̄: 15
- с : 4
- п: 25
Вот как рассчитать 95% доверительный интервал для среднего значения генеральной совокупности:
- Доверительный интервал = x̄ ± z*(s/√n)
- Доверительный интервал = 15 ± 1,96 * (4/√ 25 )
- Доверительный интервал = 15 ± 1,568.
- Доверительный интервал = [13,432, 16,568]
Теперь рассмотрим, если бы вместо этого мы использовали размер выборки 200. Вот как мы рассчитали бы 95% доверительный интервал для среднего значения генеральной совокупности:
- Доверительный интервал = x̄ ± z*(s/√n)
- Доверительный интервал = 15 ± 1,96 * (4/√ 200 )
- Доверительный интервал = 15 ± 0,554
- Доверительный интервал = [14,446, 15,554]
Обратите внимание, что просто увеличив размер выборки, мы смогли уменьшить погрешность и получить более узкий доверительный интервал.
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация о доверительных интервалах для пропорции:
В следующих руководствах представлена дополнительная информация о доверительных интервалах для среднего значения: