Как применить эмпирическое правило в R


Эмпирическое правило , иногда называемое правилом 68-95-99,7, гласит, что для заданного набора данных с нормальным распределением:

  • 68% значений данных находятся в пределах одного стандартного отклонения от среднего.
  • 95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
  • 99,7% значений данных находятся в пределах трех стандартных отклонений от среднего значения.

В этом руководстве мы объясним, как применить эмпирическое правило в R к заданному набору данных.

Применение эмпирического правила в R

Функция pnorm() в R возвращает значение кумулятивной функции плотности нормального распределения.

Эта функция использует следующий базовый синтаксис:

pnorm(q, среднее, sd)

куда:

  • q : нормально распределенное значение случайной величины
  • среднее : среднее распределение
  • sd : стандартное отклонение распределения

Мы можем использовать следующий синтаксис, чтобы найти площадь под кривой нормального распределения, которая находится между различными стандартными отклонениями:

#find area under normal curve within 1 standard deviation of mean
pnorm(1) - pnorm(-1)

[1] 0.6826895

#find area under normal curve within 2 standard deviations of mean 
pnorm(2) - pnorm(-2)

[1] 0.9544997

#find area under normal curve within 3 standard deviations of mean 
pnorm(3) - pnorm(-3)

[1] 0.9973002

Из вывода мы можем подтвердить:

  • 68% значений данных находятся в пределах одного стандартного отклонения от среднего.
  • 95% значений данных находятся в пределах двух стандартных отклонений от среднего значения.
  • 99,7% значений данных находятся в пределах трех стандартных отклонений от среднего значения.

В следующих примерах показано, как на практике использовать эмпирическое правило с различными наборами данных.

Пример 1. Применение эмпирического правила к набору данных в R

Предположим, у нас есть нормально распределенный набор данных со средним значением 7 и стандартным отклонением 2,2 .

Мы можем использовать следующий код, чтобы найти, какие значения содержат 68%, 95% и 99,7% данных:

#define mean and standard deviation values
mean=7
sd=2.2

#find which values contain 68% of data
mean-2.2; mean+2.2

[1] 4.8
[1] 9.2

#find which values contain 95% of data
mean-2\*2.2; mean+2\*2.2

[1] 2.6
[1] 11.4

#find which values contain 99.7% of data
mean-3\*2.2; mean+3\*2.2

[1] 0.4
[1] 13.6

Из этого вывода мы видим:

  • 68% данных находятся между 4,8 и 9,2 .
  • 95% данных находятся между 2,6 и 11,4.
  • 99,7% данных находятся между 0,4 и 13,6 .

Пример 2. Определение процента данных, попадающих между определенными значениями

Представьте, что у нас есть нормально распределенный набор данных со средним значением 100 и стандартным отклонением 5.

Предположим, мы хотим знать, какой процент данных попадает между значениями 99 и 105 в этом распределении.

Мы можем использовать функцию pnorm( ), чтобы найти ответ:

#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)

[1] 0.4206045

Мы видим, что 42,06% данных попадают между значениями 99 и 105 для этого распределения.

Дополнительные ресурсы

Как применить эмпирическое правило в Excel
Эмпирические проблемы практики правил
Калькулятор эмпирических правил

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.