Среднее значение выборки и среднее значение населения: в чем разница?

Часто в статистике нас интересуют ответы на такие вопросы, как:

Каков средний доход домохозяйства в определенном городе?
Каков средний вес определенного вида черепах?
Какова средняя посещаемость футбольных матчей колледжа?

В каждом сценарии нас интересует ответ на некоторый вопрос осовокупности , которая представляет все возможные отдельные элементы, которые мы хотим измерить.

Однако вместо сбора данных о каждом человеке в популяции мы собираем данные по выборке популяции, которая представляет собой часть общей популяции.

Например, мы можем захотеть узнать средний вес определенного вида черепах, общая популяция которых составляет 800 особей.

Поскольку поиск и взвешивание каждой отдельной черепахи в популяции заняло бы слишком много времени, мы вместо этого собираем простую случайную выборку из 30 черепах и измеряем их вес:

Затем мы могли бы использовать средний вес этой выборки черепах для оценки среднего веса всех черепах в популяции.

Как рассчитать выборочное среднее

Формула для расчета выборочного среднего, часто обозначаемого x , выглядит следующим образом:

х = Σх я / п

куда:

Σ: причудливый греческий символ, означающий «сумма».
x i : значение i-го наблюдения в наборе данных.
n: размер выборки

Например, предположим, что мы собираем выборку из 10 черепах со следующими весами (в фунтах):

70, 80, 80, 85, 90, 95, 110, 120, 140, 150

Среднее значение выборки будет рассчитываться как:

х = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102

Почему выборочное среднее является несмещенным

На статистическом жаргоне мы бы сказали, что среднее значение выборки является статистикой , а среднее значение генеральной совокупности — параметром .

Вот разница между двумя терминами:

Статистика – это число, описывающее некоторую характеристику выборки.

Параметр — это число, описывающее некоторую характеристику совокупности.

Параметр — это значение, которое мы действительно хотим измерить, а статистика — это значение, которое мы используем для оценки значения параметра, поскольку статистику получить намного проще.

Когда мы используем такой метод, как простая случайная выборка , для получения выборки, мы говорим, что выборочное среднее является несмещенной оценкой среднего значения генеральной совокупности.

Другими словами, у нас нет оснований полагать, что среднее значение выборки занижает или переоценивает истинное среднее значение генеральной совокупности.

Причина в том, что когда мы используем такой метод, как простая случайная выборка, каждый член совокупности имеет равные шансы быть включенным в выборку, а это означает, что выборка, вероятно, будет «мини-версией» генеральной совокупности.

Мы бы сказали, что выборка репрезентативна для всей совокупности , а это означает, что среднее значение выборки должно быть хорошей оценкой среднего значения совокупности, если предположить, что размер выборки достаточно велик.

Об использовании доверительных интервалов с выборочным средним

Хотя среднее значение выборки обеспечивает несмещенную оценку среднего значения совокупности, маловероятно, что среднее значение выборки будет точно соответствовать среднему значению совокупности.

Например, если мы хотим использовать выборку черепах для оценки среднего веса популяции черепах, возможно, мы случайно выберем выборку, полную черепах с низким весом, или, возможно, выборку, полную тяжелых черепах.

Чтобы зафиксировать эту неопределенность вокруг нашей оценки среднего значения генеральной совокупности, мы можем создатьдоверительный интервал .

Доверительный интервал — это диапазон значений, который может содержать параметр генеральной совокупности с определенным уровнем достоверности.

Например, мы можем собрать выборку из 30 черепах и обнаружить, что средний вес этой выборки составляет 102 фунта. Если мы затем построим доверительный интервал 95%, мы можем обнаружить, что интервал выглядит следующим образом:

95% доверительный интервал = [98,5, 105,5]

Мы бы интерпретировали это как означающее, что существует 95% вероятность того, что доверительный интервал [98,5, 105,5] содержит истинный средний вес популяции черепах.

Этот доверительный интервал более полезен, чем просто среднее значение выборки, потому что он дает нам диапазон значений, в который, вероятно, попадает истинное среднее значение генеральной совокупности.

Дополнительные ресурсы

Население и выборка: в чем разница?
Статистика против параметра: в чем разница?
Введение в доверительные интервалы

Среднее значение выборки и среднее значение населения: в чем разница?

Как рассчитать выборочное среднее

Почему выборочное среднее является несмещенным

Об использовании доверительных интервалов с выборочным средним

Дополнительные ресурсы

Редакция Кодкампа