Как выполнить начальную загрузку в Excel (с примером)


Начальная загрузка — это метод, который можно использовать для построения доверительного интервала для статистики , когда размер выборки невелик, а основное распределение неизвестно.

Основной процесс начальной загрузки выглядит следующим образом:

  • Возьмите k повторных выборок с заменой из заданного набора данных.
  • Для каждой выборки рассчитайте интересующую вас статистику.
  • Это приводит к k различным оценкам для данной статистики, которые затем можно использовать для вычисления доверительного интервала для статистики.

В следующем пошаговом примере показано, как выполнить начальную загрузку в Excel.

Шаг 1: введите исходные данные

Сначала мы введем значения для некоторого набора данных:

Шаг 2. Создание образцов Bootstrap

Далее мы будем использовать следующую формулу для создания образцов начальной загрузки:

=INDEX( $A$2:$A$16 , RANDBETWEEN(1, ROWS( $A$2:$A$16 )),1)

Мы можем ввести эту формулу в ячейку D2 , чтобы случайным образом выбрать одно значение из исходного набора данных.

Затем мы можем перетащить эту формулу вправо на 10 ячеек, чтобы создать наш первый образец с начальной загрузкой.

Затем мы можем перетащить эту формулу на 300 строк вниз, чтобы создать 300 сэмплов с начальной загрузкой:

Примечание.При начальной загрузке используется выборка с заменой , что означает, что одно значение из исходного набора данных может появляться несколько раз в любой заданной выборке.

Шаг 3: Рассчитайте интересующую статистику для каждой выборки

Затем мы можем рассчитать интересующую статистику для каждой выборки.

Например, мы могли бы рассчитать среднее значение, медиану, стандартное отклонение, межквартильный размах и т. д. для каждой выборки.

Для этого конкретного примера мы рассчитаем медианное значение для каждой выборки:

Мы можем увидеть:

  • Первый образец с начальной загрузкой имеет медианное значение 14 .
  • Второй образец с начальной загрузкой имеет медианное значение 16 .
  • Третий образец с начальной загрузкой имеет медианное значение 13,5 .

И так далее.

Шаг 4. Рассчитайте доверительный интервал начальной загрузки

Наконец, мы можем рассчитать 95%-й бутстрепный доверительный интервал для медианы, найдя значение, расположенное в процентиле 2,5% и процентиле 97,5% в столбце N.

Для этого мы можем использовать следующие формулы:

=PERCENTILE( N2:N301 , 0.025)

=PERCENTILE( N2:N301 , 0.975)

На следующем снимке экрана показано, как использовать эти формулы на практике:

Из вывода мы видим, что 95% доверительный интервал начальной загрузки для медианного значения исходного набора данных составляет [10,475, 19,7625] .

Обратите внимание, что в этом примере мы решили сгенерировать 300 сэмплов с начальной загрузкой, каждый с размером выборки n = 10, но вы можете сгенерировать столько семплов с начальной загрузкой, сколько хотите.

При использовании статистического программного обеспечения обычно генерируются тысячи выборок с начальной загрузкой, которые затем можно использовать для построения доверительного интервала.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:

Как рассчитать доверительные интервалы в Excel
Как рассчитать интервалы прогнозирования в Excel
Как рассчитать интервалы допуска в Excel