Начальная загрузка — это метод, который можно использовать для построения доверительного интервала для статистики , когда размер выборки невелик, а основное распределение неизвестно.
Основной процесс начальной загрузки выглядит следующим образом:
- Возьмите k повторных выборок с заменой из заданного набора данных.
- Для каждой выборки рассчитайте интересующую вас статистику.
- Это приводит к k различным оценкам для данной статистики, которые затем можно использовать для вычисления доверительного интервала для статистики.
Самый простой способ выполнить загрузку в Python — использовать функцию начальной загрузки из библиотеки SciPy .
В следующем примере показано, как использовать эту функцию на практике.
Пример: выполнить начальную загрузку в Python
Предположим, мы создаем набор данных в Python, который содержит 15 значений:
#define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]
Мы можем использовать следующий код для расчета доверительного интервала 95% начальной загрузки для медианного значения:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np.median , confidence_level= 0.95 ,
random_state= 1 , method='percentile')
#view 95% boostrapped confidence interval
print(bootstrap_ci. confidence_interval )
ConfidenceInterval(low=10.0, high=20.0)
Доверительный интервал 95% для медианы оказывается равным [10.0, 20.0] .
Вот что на самом деле делает функция boostrap() под капотом:
- Функция bootstrap() сгенерировала 9999 сэмплов с заменой. (По умолчанию 9999, но вы можете использовать аргумент n_resamples , чтобы изменить это число)
- Для каждой бутстрапированной выборки вычислялась медиана.
- Среднее значение каждой выборки располагалось от наименьшего к наибольшему, а медианное значение в процентилях 2,5% и 97,5% использовалось для построения нижнего и верхнего пределов 95% доверительного интервала.
Обратите внимание, что вы можете рассчитать доверительный интервал с начальной загрузкой практически для любой статистики.
Например, мы можем изменить np.median на np.std в функции bootstrap() , чтобы вместо этого рассчитать доверительный интервал 95% для стандартного отклонения:
from scipy. stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np.std , confidence_level= 0.95 ,
random_state= 1 , method='percentile')
#view 95% boostrapped confidence interval
print(bootstrap_ci. confidence_interval )
ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)
95%-й бутстрепный доверительный интервал для стандартного отклонения оказывается равным [3,32, 5,67] .
Примечание.Для этих примеров мы решили создать доверительные интервалы 95 %, но вы можете изменить значение аргумента trust_level , чтобы построить доверительный интервал другого размера.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнить загрузку в других статистических программах:
Как выполнить начальную загрузку в R
Как выполнить загрузку в Excel