Как выполнить начальную загрузку в Python (с примером)


Начальная загрузка — это метод, который можно использовать для построения доверительного интервала для статистики , когда размер выборки невелик, а основное распределение неизвестно.

Основной процесс начальной загрузки выглядит следующим образом:

  • Возьмите k повторных выборок с заменой из заданного набора данных.
  • Для каждой выборки рассчитайте интересующую вас статистику.
  • Это приводит к k различным оценкам для данной статистики, которые затем можно использовать для вычисления доверительного интервала для статистики.

Самый простой способ выполнить загрузку в Python — использовать функцию начальной загрузки из библиотеки SciPy .

В следующем примере показано, как использовать эту функцию на практике.

Пример: выполнить начальную загрузку в Python

Предположим, мы создаем набор данных в Python, который содержит 15 значений:

#define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]

Мы можем использовать следующий код для расчета доверительного интервала 95% начальной загрузки для медианного значения:

from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np.median , confidence_level= 0.95 ,
 random_state= 1 , method='percentile')

#view 95% boostrapped confidence interval
print(bootstrap_ci. confidence_interval )

ConfidenceInterval(low=10.0, high=20.0)

Доверительный интервал 95% для медианы оказывается равным [10.0, 20.0] .

Вот что на самом деле делает функция boostrap() под капотом:

  • Функция bootstrap() сгенерировала 9999 сэмплов с заменой. (По умолчанию 9999, но вы можете использовать аргумент n_resamples , чтобы изменить это число)
  • Для каждой бутстрапированной выборки вычислялась медиана.
  • Среднее значение каждой выборки располагалось от наименьшего к наибольшему, а медианное значение в процентилях 2,5% и 97,5% использовалось для построения нижнего и верхнего пределов 95% доверительного интервала.

Обратите внимание, что вы можете рассчитать доверительный интервал с начальной загрузкой практически для любой статистики.

Например, мы можем изменить np.median на np.std в функции bootstrap() , чтобы вместо этого рассчитать доверительный интервал 95% для стандартного отклонения:

from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np.std , confidence_level= 0.95 ,
 random_state= 1 , method='percentile')

#view 95% boostrapped confidence interval
print(bootstrap_ci. confidence_interval )

ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)

95%-й бутстрепный доверительный интервал для стандартного отклонения оказывается равным [3,32, 5,67] .

Примечание.Для этих примеров мы решили создать доверительные интервалы 95 %, но вы можете изменить значение аргумента trust_level , чтобы построить доверительный интервал другого размера.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнить загрузку в других статистических программах:

Как выполнить начальную загрузку в R
Как выполнить загрузку в Excel

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.