Начальная загрузка — это метод, который можно использовать для построения доверительного интервала для статистики , когда размер выборки невелик, а основное распределение неизвестно.
Основной процесс начальной загрузки выглядит следующим образом:
- Возьмите k повторных выборок с заменой из заданного набора данных.
- Для каждой выборки рассчитайте интересующую вас статистику.
- Это приводит к k различным оценкам для данной статистики, которые затем можно использовать для вычисления доверительного интервала для статистики.
В следующем пошаговом примере показано, как выполнить начальную загрузку в Excel.
Шаг 1: введите исходные данные
Сначала мы введем значения для некоторого набора данных:

Шаг 2. Создание образцов Bootstrap
Далее мы будем использовать следующую формулу для создания образцов начальной загрузки:
=INDEX( $A$2:$A$16 , RANDBETWEEN(1, ROWS( $A$2:$A$16 )),1)
Мы можем ввести эту формулу в ячейку D2 , чтобы случайным образом выбрать одно значение из исходного набора данных.
Затем мы можем перетащить эту формулу вправо на 10 ячеек, чтобы создать наш первый образец с начальной загрузкой.
Затем мы можем перетащить эту формулу на 300 строк вниз, чтобы создать 300 сэмплов с начальной загрузкой:

Примечание.При начальной загрузке используется выборка с заменой , что означает, что одно значение из исходного набора данных может появляться несколько раз в любой заданной выборке.
Шаг 3: Рассчитайте интересующую статистику для каждой выборки
Затем мы можем рассчитать интересующую статистику для каждой выборки.
Например, мы могли бы рассчитать среднее значение, медиану, стандартное отклонение, межквартильный размах и т. д. для каждой выборки.
Для этого конкретного примера мы рассчитаем медианное значение для каждой выборки:

Мы можем увидеть:
- Первый образец с начальной загрузкой имеет медианное значение 14 .
- Второй образец с начальной загрузкой имеет медианное значение 16 .
- Третий образец с начальной загрузкой имеет медианное значение 13,5 .
И так далее.
Шаг 4. Рассчитайте доверительный интервал начальной загрузки
Наконец, мы можем рассчитать 95%-й бутстрепный доверительный интервал для медианы, найдя значение, расположенное в процентиле 2,5% и процентиле 97,5% в столбце N.
Для этого мы можем использовать следующие формулы:
=PERCENTILE( N2:N301 , 0.025)
=PERCENTILE( N2:N301 , 0.975)
На следующем снимке экрана показано, как использовать эти формулы на практике:

Из вывода мы видим, что 95% доверительный интервал начальной загрузки для медианного значения исходного набора данных составляет [10,475, 19,7625] .
Обратите внимание, что в этом примере мы решили сгенерировать 300 сэмплов с начальной загрузкой, каждый с размером выборки n = 10, но вы можете сгенерировать столько семплов с начальной загрузкой, сколько хотите.
При использовании статистического программного обеспечения обычно генерируются тысячи выборок с начальной загрузкой, которые затем можно использовать для построения доверительного интервала.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:
Как рассчитать доверительные интервалы в Excel
Как рассчитать интервалы прогнозирования в Excel
Как рассчитать интервалы допуска в Excel