Что такое вложенная модель? (Определение и пример)

Вложенная модель — это просто модель регрессии, которая содержит подмножество переменных-предикторов в другой модели регрессии.

Например, предположим, что у нас есть следующая регрессионная модель (назовем ее Модель А), которая предсказывает количество очков, набранных баскетболистом, на основе четырех переменных-предикторов:

Очки = β 0 + β 1 (минуты) + β 2 (высота) + β 3 (позиция) + β 4 (выстрелы) + ε

Одним из примеров вложенной модели (назовем ее Модель B) может быть следующая модель только с двумя переменными-предикторами из модели A:

Баллы = β 0 + β 1 (минуты) + β 2 (высота) + ε

Мы бы сказали, что модель B вложена в модель A , потому что модель B содержит подмножество переменных-предикторов из модели A.

Однако подумайте, есть ли у нас другая модель (назовем ее Модель C), которая содержит три предиктора:

Очки = β 0 + β 1 (минуты) + β 2 (высота) + β 3 (попытки штрафных бросков)

Мы бы не сказали, что модель C вложена в модель A , потому что каждая модель содержит переменные-предикторы, которых нет в другой модели.

Важность вложенных моделей

На практике мы часто используем вложенные модели, когда хотим узнать, может ли модель с полным набором переменных-предикторов соответствовать набору данных лучше, чем модель с подмножеством этих переменных-предикторов.

Например, в приведенном выше сценарии мы могли бы подобрать полную модель, используя количество сыгранных минут, рост, положение и броски, чтобы предсказать количество очков, набранных баскетболистами.

Тем не менее, мы можем подозревать, что позиция и предпринятые броски не очень хорошо предсказывают набранные очки.

Таким образом, мы можем подобрать вложенную модель , которая использует только сыгранные минуты и рост для прогнозирования набранных очков.

Затем мы можем сравнить две модели, чтобы определить, есть ли статистически значимая разница.

Если между моделями нет существенной разницы, мы можем исключить позиции и попытки выстрелов в качестве переменных-предикторов, поскольку они не улучшают модель значительно.

Как анализировать вложенные модели

Чтобы определить, значительно ли вложенная модель отличается от «полной», мы обычно проводим тест отношения правдоподобия, в котором используются следующие нулевая и альтернативные гипотезы:

H 0 : Полная модель и вложенная модель одинаково хорошо соответствуют данным. Таким образом, вы должны использовать вложенную модель .

H A : Полная модель соответствует данным значительно лучше, чем вложенная модель. Таким образом, вы должны использовать полную модель .

Тест отношения правдоподобия дает статистику теста хи-квадрат и соответствующее значение p.

Если p-значение теста ниже определенного уровня значимости (например, 0,05), то мы можем отклонить нулевую гипотезу и сделать вывод, что полная модель предлагает значительно лучшее соответствие.

В следующих руководствах объясняется, как выполнить тест отношения правдоподобия с помощью R и Python: