Как найти доверительные интервалы в R (с примерами)

Доверительный интервал — это диапазон значений, который может содержать параметр генеральной совокупности с определенным уровнем достоверности.

Он рассчитывается по следующей общей формуле:

Доверительный интервал = (точечная оценка) +/- (критическое значение) * (стандартная ошибка)

Эта формула создает интервал с нижней границей и верхней границей, который, вероятно, содержит параметр совокупности с определенным уровнем достоверности:

Доверительный интервал = [нижняя граница, верхняя граница]

В этом руководстве объясняется, как рассчитать следующие доверительные интервалы в R:

1. Доверительный интервал для среднего

2. Доверительный интервал для разницы в средних значениях

3. Доверительный интервал для пропорции

4. Доверительный интервал для разницы в пропорциях

Давайте прыгать!

Пример 1: Доверительный интервал для среднего

Мы используем следующую формулу для расчета доверительного интервала для среднего значения :

Доверительный интервал = x +/- t n-1, 1-α/2 *(s/√n)

куда:

x : выборочное среднее
t: t-критическое значение
s: стандартное отклонение выборки
n: размер выборки

Пример: Предположим, мы собираем случайную выборку черепах со следующей информацией:

Размер выборки n = 25
Средний вес выборки x = 300
Стандартное отклонение выборки s = 18,5

Следующий код показывает, как рассчитать 95% доверительный интервал для истинного среднего веса популяции черепах:

#input sample size, sample mean, and sample standard deviation
n <- 25
xbar <- 300 
s <- 18.5

#calculate margin of error
margin <- qt(0.975,df=n-1)\*s/sqrt(n)

#calculate lower and upper bounds of confidence interval
low <- xbar - margin
low

[1] 292.3636

high <- xbar + margin
high

[1] 307.6364

95% доверительный интервал для истинного среднего веса популяции черепах составляет [292,36, 307,64] .

Пример 2: Доверительный интервал для разницы в средних значениях

Мы используем следующую формулу для расчета доверительного интервала для разницы в средних значениях генеральной совокупности :

Доверительный интервал = ( x 1 – x 2 ) +/- t * √ ((s p 2 /n 1 ) + (s p 2 /n 2 ))

куда:

x 1 , x 2 : среднее значение для образца 1, среднее значение для образца 2
t: t-критическое значение, основанное на доверительном уровне и (n 1 +n 2 -2) степенях свободы
s p 2 : объединенная дисперсия, рассчитанная как ((n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
t: t-критическое значение
n 1 , n 2 : размер выборки 1, размер выборки 2

Пример: Предположим, мы хотим оценить разницу в среднем весе между двумя разными видами черепах, поэтому мы собираем случайную выборку из 15 черепах из каждой популяции. Вот сводные данные для каждого образца:

Образец 1:

х 1 = 310
с 1 = 18,5
п 1 = 15

Образец 2:

х 2 = 300
с 2 = 16,4
п 2 = 15

В следующем коде показано, как рассчитать 95% доверительный интервал для истинной разницы в средних значениях населения:

#input sample size, sample mean, and sample standard deviation
n1 <- 15
xbar1 <- 310 
s1 <- 18.5

n2 <- 15
xbar2 <- 300
s2 <- 16.4

#calculate pooled variance
sp = ((n1-1)\*s1^2 + (n2-1)\*s2^2) / (n1+n2-2)

#calculate margin of error
margin <- qt(0.975,df=n1+n2-1)\*sqrt(sp/n1 + sp/n2)

#calculate lower and upper bounds of confidence interval
low <- (xbar1-xbar2) - margin
low

[1] -3.055445

high <- (xbar1-xbar2) + margin
high

[1] 23.05544

95% доверительный интервал для истинной разницы в средних значениях населения составляет [-3,06, 23,06] .

Пример 3: Доверительный интервал для пропорции

Мы используем следующую формулу для расчета доверительного интервала для пропорции :

Доверительный интервал = p +/- z * (√ p (1-p) / n )

куда:

p: доля выборки
z: выбранное значение z
n: размер выборки

Пример: Предположим, мы хотим оценить долю жителей округа, поддерживающих определенный закон. Мы выбираем случайную выборку из 100 жителей и спрашиваем их об их отношении к закону. Вот результаты:

Размер выборки n = 100
Доля в пользу закона p = 0,56

Следующий код показывает, как рассчитать 95% доверительный интервал для истинной доли жителей всего округа, поддерживающих закон:

#input sample size and sample proportion
n <- 100
p <- .56

#calculate margin of error
margin <- qnorm(0.975)\*sqrt(p\*(1-p)/n)

#calculate lower and upper bounds of confidence interval
low <- p - margin
low

[1] 0.4627099

high <- p + margin
high

[1] 0.6572901

95-процентный доверительный интервал для истинной доли жителей всего округа, поддерживающих закон, составляет [0,463, 0,657] .

Пример 4: Доверительный интервал для разницы в пропорциях

Мы используем следующую формулу для расчета доверительного интервала для разницы в пропорциях :

Доверительный интервал = (p 1 –p 2 ) +/- z*√(p 1 (1-p 1 )/n 1 + p 2 (1-p 2 )/n 2 )

куда:

p 1 , p 2 : доля образца 1, доля образца 2
z: z-критическое значение, основанное на доверительном уровне
n 1 , n 2 : размер выборки 1, размер выборки 2

Пример. Предположим, мы хотим оценить разницу в доле жителей, поддерживающих определенный закон в округе А, по сравнению с долей жителей, поддерживающих закон в округе Б. Вот сводные данные для каждой выборки:

Образец 1:

п 1 = 100
p 1 = 0,62 (т.е. 62 из 100 жителей поддерживают закон)

Образец 2:

п 2 = 100
p 2 = 0,46 (т.е. 46 из 100 жителей поддерживают закон)

Следующий код показывает, как рассчитать 95% доверительный интервал для истинной разницы в доле жителей, поддерживающих закон, между округами:

#input sample sizes and sample proportions
n1 <- 100
p1 <- .62

n2 <- 100
p2 <- .46

#calculate margin of error
margin <- qnorm(0.975)\*sqrt(p1\*(1-p1)/n1 + p2\*(1-p2)/n2)

#calculate lower and upper bounds of confidence interval
low <- (p1-p2) - margin
low

[1] 0.02364509


high <- (p1-p2) + margin
high

[1] 0.2963549

95% доверительный интервал для истинной разницы в доле жителей, поддерживающих закон, между округами составляет [0,024, 0,296] .

Вы можете найти больше руководств по R здесь .