Эмпирическое правило , иногда называемое правилом 68-95-99,7, гласит, что для заданного набора данных с нормальным распределением:
- 68% значений данных находятся в пределах одного стандартного отклонения от среднего.
- 95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
- 99,7% значений данных находятся в пределах трех стандартных отклонений от среднего значения.
В этом руководстве мы объясним, как применить эмпирическое правило в R к заданному набору данных.
Применение эмпирического правила в R
Функция pnorm() в R возвращает значение кумулятивной функции плотности нормального распределения.
Эта функция использует следующий базовый синтаксис:
pnorm(q, среднее, sd)
куда:
- q : нормально распределенное значение случайной величины
- среднее : среднее распределение
- sd : стандартное отклонение распределения
Мы можем использовать следующий синтаксис, чтобы найти площадь под кривой нормального распределения, которая находится между различными стандартными отклонениями:
#find area under normal curve within 1 standard deviation of mean
pnorm(1) - pnorm(-1)
[1] 0.6826895
#find area under normal curve within 2 standard deviations of mean
pnorm(2) - pnorm(-2)
[1] 0.9544997
#find area under normal curve within 3 standard deviations of mean
pnorm(3) - pnorm(-3)
[1] 0.9973002
Из вывода мы можем подтвердить:
- 68% значений данных находятся в пределах одного стандартного отклонения от среднего.
- 95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
- 99,7% значений данных находятся в пределах трех стандартных отклонений от среднего значения.
В следующих примерах показано, как на практике использовать эмпирическое правило с различными наборами данных.
Пример 1. Применение эмпирического правила к набору данных в R
Предположим, у нас есть нормально распределенный набор данных со средним значением 7 и стандартным отклонением 2,2 .
Мы можем использовать следующий код, чтобы найти, какие значения содержат 68%, 95% и 99,7% данных:
#define mean and standard deviation values
mean=7
sd=2.2
#find which values contain 68% of data
mean-2.2; mean+2.2
[1] 4.8
[1] 9.2
#find which values contain 95% of data
mean-2\*2.2; mean+2\*2.2
[1] 2.6
[1] 11.4
#find which values contain 99.7% of data
mean-3\*2.2; mean+3\*2.2
[1] 0.4
[1] 13.6
Из этого вывода мы видим:
- 68% данных находятся между 4,8 и 9,2 .
- 95% данных находятся между 2,6 и 11,4.
- 99,7% данных находятся между 0,4 и 13,6 .
Пример 2. Определение процента данных, попадающих между определенными значениями
Представьте, что у нас есть нормально распределенный набор данных со средним значением 100 и стандартным отклонением 5.
Предположим, мы хотим знать, какой процент данных попадает между значениями 99 и 105 в этом распределении.
Мы можем использовать функцию pnorm( ), чтобы найти ответ:
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
Мы видим, что 42,06% данных попадают между значениями 99 и 105 для этого распределения.
Дополнительные ресурсы
Как применить эмпирическое правило в Excel
Эмпирические проблемы практики правил
Калькулятор эмпирических правил