Как применить эмпирическое правило в R

Эмпирическое правило , иногда называемое правилом 68-95-99,7, гласит, что для заданного набора данных с нормальным распределением:

68% значений данных находятся в пределах одного стандартного отклонения от среднего.
95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
99,7% значений данных находятся в пределах трех стандартных отклонений от среднего значения.

В этом руководстве мы объясним, как применить эмпирическое правило в R к заданному набору данных.

Применение эмпирического правила в R

Функция pnorm() в R возвращает значение кумулятивной функции плотности нормального распределения.

Эта функция использует следующий базовый синтаксис:

pnorm(q, среднее, sd)

куда:

q : нормально распределенное значение случайной величины
среднее : среднее распределение
sd : стандартное отклонение распределения

Мы можем использовать следующий синтаксис, чтобы найти площадь под кривой нормального распределения, которая находится между различными стандартными отклонениями:

#find area under normal curve within 1 standard deviation of mean
pnorm(1) - pnorm(-1)

[1] 0.6826895

#find area under normal curve within 2 standard deviations of mean 
pnorm(2) - pnorm(-2)

[1] 0.9544997

#find area under normal curve within 3 standard deviations of mean 
pnorm(3) - pnorm(-3)

[1] 0.9973002

Из вывода мы можем подтвердить:

68% значений данных находятся в пределах одного стандартного отклонения от среднего.
95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
99,7% значений данных находятся в пределах трех стандартных отклонений от среднего значения.

В следующих примерах показано, как на практике использовать эмпирическое правило с различными наборами данных.

Пример 1. Применение эмпирического правила к набору данных в R

Предположим, у нас есть нормально распределенный набор данных со средним значением 7 и стандартным отклонением 2,2 .

Мы можем использовать следующий код, чтобы найти, какие значения содержат 68%, 95% и 99,7% данных:

#define mean and standard deviation values
mean=7
sd=2.2

#find which values contain 68% of data
mean-2.2; mean+2.2

[1] 4.8
[1] 9.2

#find which values contain 95% of data
mean-2\*2.2; mean+2\*2.2

[1] 2.6
[1] 11.4

#find which values contain 99.7% of data
mean-3\*2.2; mean+3\*2.2

[1] 0.4
[1] 13.6

Из этого вывода мы видим:

68% данных находятся между 4,8 и 9,2 .
95% данных находятся между 2,6 и 11,4.
99,7% данных находятся между 0,4 и 13,6 .

Пример 2. Определение процента данных, попадающих между определенными значениями

Представьте, что у нас есть нормально распределенный набор данных со средним значением 100 и стандартным отклонением 5.

Предположим, мы хотим знать, какой процент данных попадает между значениями 99 и 105 в этом распределении.

Мы можем использовать функцию pnorm( ), чтобы найти ответ:

#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)

[1] 0.4206045

Мы видим, что 42,06% данных попадают между значениями 99 и 105 для этого распределения.

Дополнительные ресурсы

Как применить эмпирическое правило в Excel
Эмпирические проблемы практики правил
Калькулятор эмпирических правил

Как применить эмпирическое правило в R

Применение эмпирического правила в R

Пример 1. Применение эмпирического правила к набору данных в R

Пример 2. Определение процента данных, попадающих между определенными значениями

Дополнительные ресурсы

Редакция Кодкампа