Что считается хорошей ценностью AIC?


Информационный критерий Акаике (AIC) — это показатель, который используется для сравнения соответствия различных моделей регрессии.

Он рассчитывается как:

АИК = 2К – 2 лн (Л)

куда:

  • K: количество параметров модели.
  • ln (L) : логарифмическая вероятность модели. Это говорит нам, насколько вероятна модель, учитывая данные.

После подбора нескольких регрессионных моделей можно сравнить значение AIC каждой модели. Модель с самым низким AIC лучше всего подходит.

Студенты часто задают вопрос об AIC: что считается хорошей ценностью AIC?

Простой ответ: для AIC нет значения, которое можно было бы считать «хорошим» или «плохим», потому что мы просто используем AIC как способ сравнения регрессионных моделей. Модель с самым низким AIC лучше всего подходит. Абсолютное значение значения AIC не имеет значения.

Например, если модель 1 имеет значение AIC 730,5, а модель 2 имеет значение AIC 456,3, то модель 2 лучше подходит. Абсолютные значения AIC не важны.

Полезная ссылка на эту тему взята из Serious Stats: A Guide to Advanced Statistics for the Behavioral Sciences на стр. 402:

Как и в случае с вероятностью, абсолютное значение AIC в значительной степени бессмысленно (определяется произвольной константой). Поскольку эта константа зависит от данных, AIC можно использовать для сравнения моделей, установленных на идентичных образцах.
Таким образом, наилучшей моделью из множества рассматриваемых правдоподобных моделей является модель с наименьшим значением AIC (наименьшая потеря информации по сравнению с истинной моделью).

Как отмечено в учебнике, абсолютное значение АПК не имеет значения. Мы просто используем значения AIC для сравнения соответствия моделей, и модель с самым низким значением AIC является лучшей.

Как определить, хорошо ли модель соответствует набору данных

Значение AIC — это полезный способ определить, какая модель регрессии лучше всего соответствует набору данных из списка потенциальных моделей, но на самом деле он не дает количественной оценки того, насколько хорошо модель соответствует данным.

Например, у конкретной регрессионной модели может быть самое низкое значение AIC среди возможных моделей, но она все равно может плохо подходить.

Чтобы определить, хорошо ли модель соответствует набору данных, мы можем использовать следующие две метрики:

  • Cp Мэллоуза : показатель, который количественно определяет степень систематической ошибки в регрессионных моделях.
  • Скорректированный R-квадрат : доля дисперсии в переменной отклика, которая может быть объяснена переменными-предикторами в модели, с поправкой на количество переменных-предикторов в модели.

Одна из возможных стратегий выбора «лучшей» регрессионной модели из нескольких возможных выглядит следующим образом:

  • Во-первых, определите модель с самым низким значением AIC.
  • Затем подгоните эту регрессионную модель к данным и рассчитайте Cp Маллоуза и скорректированный R-квадрат модели, чтобы количественно определить, насколько хорошо она фактически соответствует данным.

Этот подход позволяет определить наиболее подходящую модель и количественно оценить, насколько хорошо модель действительно соответствует данным.

Дополнительные ресурсы

Как интерпретировать отрицательные значения AIC
Как рассчитать AIC в R
Как рассчитать AIC в Python

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.