Как рассчитать Z-значения в R

В статистике z-показатель говорит нам, на сколько стандартных отклонений значение отличается от среднего. Мы используем следующую формулу для расчета z-показателя:

z = (X - μ) / σ

куда:

X — это одно необработанное значение данных.
μ - среднее значение населения
σ - стандартное отклонение населения

В этом руководстве объясняется, как рассчитать z-значения для необработанных значений данных в R.

Пример 1. Найдите Z-показатели для одного вектора

В следующем коде показано, как найти z-оценку для каждого значения необработанных данных в векторе:

#create vector of data
data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22)

#find z-score for each data value 
z_scores <- (data-mean(data))/sd(data)

#display z-scores 
z_scores

[1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000
[7] 0.3779645 0.5669467 1.1338934 1.7008401

Каждый z-показатель говорит нам, на сколько стандартных отклонений отдельное значение отличается от среднего. Например:

Первое значение необработанных данных «6» на 1,323 стандартных отклонения ниже среднего.
Пятое значение необработанных данных «13» отличается от среднего значения на 0 стандартных отклонений, т. е. оно равно среднему значению.
Последнее значение необработанных данных «22» на 1,701 стандартного отклонения выше среднего.

Пример 2. Найдите Z-значения для одного столбца в кадре данных

В следующем коде показано, как найти z-оценку для каждого значения необработанных данных в одном столбце фрейма данных:

#create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
 points = c(24, 29, 13, 15, 19, 22),
 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-score for each data value in the 'points' column
z_scores <- (df$points-mean(df$points))/sd(df$points)

#display z-scores 
z_scores

[1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502

Первое значение необработанных данных «24» на 0,619 стандартных отклонений выше среднего.
Второе значение необработанных данных «29» на 1,464 стандартных отклонения выше среднего.
Третье значение необработанных данных «13» на 1,238 стандартных отклонения ниже среднего.

И так далее.

Пример 3. Найдите Z-значения для каждого столбца в кадре данных

В следующем коде показано, как найти z-оценку для каждого значения необработанных данных в каждом столбце фрейма данных с помощью функции sapply() .

#create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
 points = c(24, 29, 13, 15, 19, 22),
 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-scores of each column
sapply(df, function(df) (df-mean(df))/sd(df))

 assists points rebounds
[1,] -0.92315712 0.6191904 -0.9035079
[2,] -0.92315712 1.4635409 -0.9035079
[3,] -0.34011052 -1.2383807 -0.4517540
[4,] -0.04858722 -0.9006405 -0.2258770
[5,] 0.53445939 -0.2251601 1.1293849
[6,] 1.70055260 0.2814502 1.3552619

Z-показатели для каждого отдельного значения отображаются относительно столбца, в котором они находятся. Например:

Первое значение «4» в первом столбце на 0,923 стандартного отклонения ниже среднего значения этого столбца.
Первое значение «24» во втором столбце на 0,619 стандартных отклонений выше среднего значения этого столбца.
Первое значение «9» в третьем столбце на 0,904 стандартного отклонения ниже среднего значения этого столбца.

И так далее.

Вы можете найти больше руководств по R здесь .