Что такое ПРЕСС-статистика?


В статистике мы используем регрессионные модели по двум причинам:

(1) Объяснить взаимосвязь между одной или несколькими объясняющими переменными и переменной отклика .

(2) Прогнозировать значения переменной ответа на основе значений одной или нескольких независимых переменных.

Когда наша цель состоит в том, чтобы (2) предсказать значения переменной ответа, мы хотим убедиться, что используем для этого наилучшую возможную модель регрессии.

Одна метрика, которую мы можем использовать для поиска регрессионной модели, которая будет давать наилучшие прогнозы на основе новых данных, — это PRESS Statistic , что означает «Прогнозируемая RE sidual Sum of S quares ».

Он рассчитывается как:

НАЖМИТЕ = Σ(e i / (1-h ii )) 2

куда:

  • e i : i -й остаток.
  • h ii : Мера влияния (также называемого «рычагом») i -го наблюдения на соответствие модели.

Учитывая несколько регрессионных моделей, следует выбрать модель с самым низким значением PRESS как модель, которая лучше всего работает с новым набором данных.

В следующем примере показано, как рассчитать статистику PRESS для трех разных моделей линейной регрессии в R.

Пример: Расчет статистики ПРЕСС

Предположим, у нас есть набор данных с тремя независимыми переменными, x 1 , x 2 и x 3 , и одной переменной ответа y:

data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
 x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
 x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
 y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

В следующем коде показано, как подогнать три разные модели регрессии к этому набору данных с помощью функции lm() :

model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

В следующем коде показано, как рассчитать статистику PRESS для каждой модели.

#create custom function to calculate the PRESS statistic
PRESS <- function (model) {
 i <- residuals (model)/(1 - lm. influence (model)$ hat )
 sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

Оказывается, модель с самой низкой статистикой PRESS — это модель 2 со статистикой PRESS 519,6435.Таким образом, мы бы выбрали эту модель как наиболее подходящую для прогнозирования нового набора данных.

Дополнительные ресурсы

Введение в простую линейную регрессию
Что такое экономная модель?
Что такое хорошее значение R-квадрата?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.