Что такое частичный F-тест?

Частичный F-тест используется для определения того, существует ли статистически значимое различие между регрессионной моделью и некоторой вложенной версией той же модели.

Вложенная модель — это просто модель, которая содержит подмножество переменных-предикторов в общей регрессионной модели.

Например, предположим, что у нас есть следующая регрессионная модель с четырьмя переменными-предикторами:

Y = β 0 + β 1 х 1 + β 2 х 2 + β 3 х 3 + β 4 х 4 + ε

Одним из примеров вложенной модели может быть следующая модель только с двумя исходными предикторными переменными:

Y = β 0 + β 1 х 1 + β 2 х 2 + ε

Чтобы определить, существенно ли различаются эти две модели, мы можем выполнить частичный F-тест.

Частичный F-тест: основы

Частичный F-тест вычисляет следующую статистику F-теста:

F = (( сокращенный RSS – полный RSS)/p) / ( полный RSS/nk)

куда:

Сокращенный RSS : Остаточная сумма квадратов сокращенной (т.е. «вложенной») модели.
RSS full : остаточная сумма квадратов полной модели.
p: количество предикторов, удаленных из полной модели.
n: общее количество наблюдений в наборе данных.
k: количество коэффициентов (включая точку пересечения) в полной модели.

Обратите внимание, что остаточная сумма квадратов всегда будет меньше для полной модели, поскольку добавление предикторов всегда приводит к некоторому уменьшению ошибки.

Таким образом, частичный F-тест, по сути, проверяет, действительно ли группа предикторов, удаленных из полной модели, полезна и должна ли быть включена в полную модель.

В этом тесте используются следующие нулевая и альтернативная гипотезы:

H 0 : Все коэффициенты, удаленные из полной модели, равны нулю.

H A : По крайней мере один из коэффициентов, удаленных из полной модели, отличен от нуля.

Если значение p, соответствующее статистике F-теста, ниже определенного уровня значимости (например, 0,05), то мы можем отклонить нулевую гипотезу и сделать вывод, что по крайней мере один из коэффициентов, удаленных из полной модели, является значимым.

Частичный F-тест: пример

На практике мы используем следующие шаги для выполнения частичного F-теста:

1. Сопоставьте полную регрессионную модель и рассчитайте RSS full .

2. Сопоставьте модель вложенной регрессии и рассчитайте RSS уменьшено .

3. Выполните дисперсионный анализ, чтобы сравнить полную и сокращенную модели, что позволит получить статистику F-теста, необходимую для сравнения моделей.

Например, следующий код показывает, как подобрать следующие две модели регрессии в R, используя данные из встроенного набора данных mtcars :

Полная модель: миль на галлон = β 0 + β 1 расход + β 2 карбюратор + β 3 л.с. + β 4 цилиндра

Уменьшенная модель: mpg = β 0 + β 1 disp + β 2 carb

#fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform ANOVA to test for differences in models
anova(model_reduced, model_full)

Analysis of Variance Table

Model 1: mpg ~ disp + carb
Model 2: mpg ~ disp + carb + hp + cyl
 Res.Df RSS Df Sum of Sq F Pr(>F)
1 29 254.82 
2 27 238.71 2 16.113 0.9113 0.414

Из вывода мы видим, что критерий F из ANOVA равен 0,9113 , а соответствующее значение p равно 0,414 .

Поскольку это p-значение не меньше 0,05, мы не сможем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что любая из переменных-предикторов hp или cyl является статистически значимой.

Другими словами, добавление hp и cyl к регрессионной модели существенно не улучшает соответствие модели.