Как рассчитать Z-значения в R


В статистике z-показатель говорит нам, на сколько стандартных отклонений значение отличается от среднего. Мы используем следующую формулу для расчета z-показателя:

z = (X - μ) / σ

куда:

  • X — это одно необработанное значение данных.
  • μ - среднее значение населения
  • σ - стандартное отклонение населения

В этом руководстве объясняется, как рассчитать z-значения для необработанных значений данных в R.

Пример 1. Найдите Z-показатели для одного вектора

В следующем коде показано, как найти z-оценку для каждого значения необработанных данных в векторе:

#create vector of data
data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22)

#find z-score for each data value 
z_scores <- (data-mean(data))/sd(data)

#display z-scores 
z_scores

[1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000
[7] 0.3779645 0.5669467 1.1338934 1.7008401

Каждый z-показатель говорит нам, на сколько стандартных отклонений отдельное значение отличается от среднего. Например:

  • Первое значение необработанных данных «6» на 1,323 стандартных отклонения ниже среднего.
  • Пятое значение необработанных данных «13» отличается от среднего значения на 0 стандартных отклонений, т. е. оно равно среднему значению.
  • Последнее значение необработанных данных «22» на 1,701 стандартного отклонения выше среднего.

Пример 2. Найдите Z-значения для одного столбца в кадре данных

В следующем коде показано, как найти z-оценку для каждого значения необработанных данных в одном столбце фрейма данных:

#create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
 points = c(24, 29, 13, 15, 19, 22),
 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-score for each data value in the 'points' column
z_scores <- (df$points-mean(df$points))/sd(df$points)

#display z-scores 
z_scores

[1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502

Каждый z-показатель говорит нам, на сколько стандартных отклонений отдельное значение отличается от среднего. Например:

  • Первое значение необработанных данных «24» на 0,619 стандартных отклонений выше среднего.
  • Второе значение необработанных данных «29» на 1,464 стандартных отклонения выше среднего.
  • Третье значение необработанных данных «13» на 1,238 стандартных отклонения ниже среднего.

И так далее.

Пример 3. Найдите Z-значения для каждого столбца в кадре данных

В следующем коде показано, как найти z-оценку для каждого значения необработанных данных в каждом столбце фрейма данных с помощью функции sapply() .

#create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
 points = c(24, 29, 13, 15, 19, 22),
 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-scores of each column
sapply(df, function(df) (df-mean(df))/sd(df))

 assists points rebounds
[1,] -0.92315712 0.6191904 -0.9035079
[2,] -0.92315712 1.4635409 -0.9035079
[3,] -0.34011052 -1.2383807 -0.4517540
[4,] -0.04858722 -0.9006405 -0.2258770
[5,] 0.53445939 -0.2251601 1.1293849
[6,] 1.70055260 0.2814502 1.3552619

Z-показатели для каждого отдельного значения отображаются относительно столбца, в котором они находятся. Например:

  • Первое значение «4» в первом столбце на 0,923 стандартного отклонения ниже среднего значения этого столбца.
  • Первое значение «24» во втором столбце на 0,619 стандартных отклонений выше среднего значения этого столбца.
  • Первое значение «9» в третьем столбце на 0,904 стандартного отклонения ниже среднего значения этого столбца.

И так далее.

Вы можете найти больше руководств по R здесь .