Как рассчитать стандартную ошибку среднего в R

Стандартная ошибка среднего — это способ измерить, насколько разбросаны значения в наборе данных. Он рассчитывается как:

Стандартная ошибка = с / √n

куда:

s : стандартное отклонение выборки
n : размер выборки

В этом руководстве объясняются два метода, которые можно использовать для расчета стандартной ошибки набора данных в R. Обратите внимание, что оба метода дают одинаковые результаты.

Способ 1: используйте библиотеку Plotrix

Первый способ вычислить стандартную ошибку среднего — использовать встроенную функцию std.error() из библиотеки Plotrix.

Следующий код показывает, как использовать эту функцию:

#load plotrix library
library(plotrix)

#define dataset
data <- c(3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29)

#calculate standard error of the mean 
std.error(data)

2.001447

Стандартная ошибка среднего оказывается равной 2,001447 .

Метод 2: определите свою собственную функцию

Другой способ вычислить стандартную ошибку среднего для набора данных — просто определить собственную функцию.

Следующий код показывает, как это сделать:

#define standard error of mean function
std.error <- function (x) sd(x)/sqrt( length (x))

#define dataset
data <- c(3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29)

#calculate standard error of the mean 
std.error(data)

2.001447

И снова стандартная ошибка среднего оказывается равной 2,0014 .

Как интерпретировать стандартную ошибку среднего

Стандартная ошибка среднего — это просто мера того, насколько разбросаны значения вокруг среднего. При интерпретации стандартной ошибки среднего следует помнить о двух вещах:

1. Чем больше стандартная ошибка среднего, тем более разбросаны значения вокруг среднего в наборе данных.

Чтобы проиллюстрировать это, рассмотрим, изменим ли мы последнее значение в предыдущем наборе данных на гораздо большее число:

#define dataset
data <- c(3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 )

#calculate standard error of the mean 
std.error(data)

6.978265

Обратите внимание на скачок стандартной ошибки с 2,001447 до 6,978265.Это указывает на то, что значения в этом наборе данных более разбросаны вокруг среднего значения по сравнению с предыдущим набором данных.

2. По мере увеличения размера выборки стандартная ошибка среднего имеет тенденцию к уменьшению.

Чтобы проиллюстрировать это, рассмотрим стандартную ошибку среднего для следующих двух наборов данных:

#define first dataset and find SEM
data1 <- c(1, 2, 3, 4, 5)
std.error(data1)

0.7071068

#define second dataset and find SEM
data2 <- c(1, 2, 3, 4, 5, 1, 2, 3, 4, 5)
std.error(data2)

0.4714045

Второй набор данных — это просто первый набор данных, повторенный дважды. Таким образом, два набора данных имеют одинаковое среднее значение, но второй набор данных имеет больший размер выборки, поэтому стандартная ошибка меньше.