Как рассчитать выборку и дисперсию населения в R


Дисперсия — это способ измерить , насколько разбросаны значения данных вокруг среднего значения.

Формула для нахождения дисперсиинаселения :

σ 2 = Σ (xi – μ) 2 / N

где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».

Формула для нахождения дисперсии выборки :

s 2 = Σ (x i – x ) 2 / (n-1)

где x — среднее значение выборки, x i — i -й элемент в выборке, а n — размер выборки.

Пример: расчет выборки и дисперсии генеральной совокупности в R

Предположим, у нас есть следующий набор данных в R:

#define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

Мы можем рассчитать выборочную дисперсию , используя функцию var() в R:

#calculate sample variance
var(data)

[1] 46.01111

И мы можем рассчитать дисперсию населения , просто умножив дисперсию выборки на (n-1)/n следующим образом:

#determine length of data
n <- length (data)

#calculate population variance
var(data) \* (n-1)/n

[1] 41.41

Обратите внимание, что дисперсия генеральной совокупности всегда будет меньше дисперсии выборки.

На практике мы обычно рассчитываем выборочные дисперсии для наборов данных, поскольку сбор данных для всей совокупности является необычным.

Пример. Расчет выборочной дисперсии нескольких столбцов

Предположим, у нас есть следующий фрейм данных в R:

#create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
 b=c(2, 4, 4, 5, 5, 6, 7, 16),
 c=c(6, 6, 7, 8, 8, 9, 9, 12))

#view data frame
data

 a b c
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12

Мы можем использовать функцию sapply() для вычисления выборочной дисперсии каждого столбца во фрейме данных:

#find sample variance of each column
sapply(data, var)

 a b c 
11.696429 18.125000 3.839286

И мы можем использовать следующий код для вычисления выборочного стандартного отклонения каждого столбца, который представляет собой просто квадратный корень из выборочной дисперсии:

#find sample standard deviation of each column
sapply(data, sd)

 a b c 
3.420004 4.257347 1.959410 

Вы можете найти больше руководств по R здесь .

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.