Отрицательный бином против Пуассона: как выбрать модель регрессии

Отрицательный бином против Пуассона: как выбрать модель регрессии

Отрицательная биномиальная регрессия и регрессия Пуассона — это два типа регрессионных моделей, которые подходят для использования, когда переменная отклика представлена дискретными результатами подсчета.

Вот несколько примеров переменных ответа, которые представляют результаты дискретного подсчета:

  • Количество студентов, окончивших определенную программу
  • Количество дорожно-транспортных происшествий на определенном перекрестке
  • Количество участников, закончивших марафон
  • Количество возвратов в данном месяце в розничном магазине

Если дисперсия примерно равна среднему значению, то модель регрессии Пуассона обычно хорошо подходит для набора данных.

Однако, если дисперсия значительно больше среднего значения, то модель отрицательной биномиальной регрессии обычно лучше соответствует данным.

Есть два метода, которые мы можем использовать, чтобы определить, является ли регрессия Пуассона или отрицательная биномиальная регрессия более подходящей для данного набора данных:

1. Остаточные участки

Мы можем создать остаточный график стандартизированных остатков по сравнению с прогнозируемыми значениями из модели регрессии.

Если большинство стандартизированных остатков попадают в диапазон от -2 до 2, вероятно, подходит модель регрессии Пуассона.

Однако, если многие остатки выходят за пределы этого диапазона, модель отрицательной биномиальной регрессии, вероятно, лучше подойдет.

2. Тест отношения правдоподобия

Мы можем подогнать модель регрессии Пуассона и модель отрицательной биномиальной регрессии к одному и тому же набору данных, а затем выполнить тест отношения правдоподобия.

Если p-значение теста меньше некоторого уровня значимости (например, 0,05), то мы можем сделать вывод, что модель отрицательной биномиальной регрессии предлагает значительно лучшее соответствие.

В следующем примере показано, как использовать оба этих метода в R, чтобы определить, какую модель регрессии Пуассона или модель отрицательной биномиальной регрессии лучше использовать для данного набора данных.

Пример: отрицательная биномиальная регрессия против регрессии Пуассона

Предположим, мы хотим узнать, сколько стипендий получает бейсболист средней школы в данном округе в зависимости от его школьной категории («A», «B» или «C») и его баллов на вступительных экзаменах в колледж (измеряемых от 0 до 100). ).

Выполните следующие шаги, чтобы определить, лучше ли подходит к данным модель отрицательной биномиальной регрессии или модель регрессии Пуассона.

Шаг 1: Создайте данные

Следующий код создает набор данных, с которым мы будем работать, включая данные о 1000 бейсболистов:

#make this example reproducible
set. seed (1)

#create dataset
data <- data.frame(offers = c(rep(0, 700), rep(1, 100), rep(2, 100),
 rep(3, 70), rep(4, 30)),
 division = sample(c('A', 'B', 'C'), 100, replace = TRUE ),
 exam = c(runif(700, 60, 90), runif(100, 65, 95),
 runif(200, 75, 95)))

#view first six rows of dataset
head(data)

 offers division exam
1 0 A 66.22635
2 0 C 66.85974
3 0 A 77.87136
4 0 B 77.24617
5 0 A 62.31193
6 0 C 61.06622

Шаг 2: Подберите модель регрессии Пуассона и модель отрицательной биномиальной регрессии

В следующем коде показано, как подобрать к данным как модель регрессии Пуассона, так и модель отрицательной биномиальной регрессии:

#fit Poisson regression model
p_model <- glm(offers ~ division + exam, family = 'poisson', data = data)

#fit negative binomial regression model
library (MASS)

nb_model <- glm. nb (offers ~ division + exam, data = data)

Шаг 3: Создайте остаточные графики

В следующем коде показано, как создать остаточные графики для обеих моделей.

#Residual plot for Poisson regression
p_res <- resid (p_model)
plot(fitted(p_model), p_res, col='steelblue', pch=16,
 xlab='Predicted Offers', ylab='Standardized Residuals', main='Poisson')
abline(0,0)

#Residual plot for negative binomial regression 
nb_res <- resid (nb_model)
plot(fitted(nb_model), nb_res, col='steelblue', pch=16,
 xlab='Predicted Offers', ylab='Standardized Residuals', main='Negative Binomial')
abline(0,0) 
Отрицательная биномиальная регрессия против регрессии Пуассона

Из графиков видно, что остатки более разбросаны для модели регрессии Пуассона (обратите внимание, что некоторые остатки выходят за пределы 3) по сравнению с моделью отрицательной биномиальной регрессии.

Это признак того, что модель отрицательной биномиальной регрессии, вероятно, является более подходящей, поскольку остатки этой модели меньше.

Шаг 4. Выполните тест отношения правдоподобия

Наконец, мы можем выполнить тест отношения правдоподобия, чтобы определить, есть ли статистически значимая разница в соответствии двух моделей регрессии:

pchisq(2 \* ( logLik (nb_model) - logLik (p_model)), df = 1, lower. tail = FALSE )

'log Lik.' 3.508072e-29 (df=5)

Значение p теста оказывается равным 3,508072e-29 , что значительно меньше 0,05.

Таким образом, мы пришли бы к выводу, что модель отрицательной биномиальной регрессии предлагает значительно лучшее соответствие данным по сравнению с моделью регрессии Пуассона.

Дополнительные ресурсы

Введение в отрицательное биномиальное распределение
Введение в распределение Пуассона

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.