Что такое частичный F-тест?


Частичный F-тест используется для определения того, существует ли статистически значимое различие между регрессионной моделью и некоторой вложенной версией той же модели.

Вложенная модель — это просто модель, которая содержит подмножество переменных-предикторов в общей регрессионной модели.

Например, предположим, что у нас есть следующая регрессионная модель с четырьмя переменными-предикторами:

Y = β 0 + β 1 х 1 + β 2 х 2 + β 3 х 3 + β 4 х 4 + ε

Одним из примеров вложенной модели может быть следующая модель только с двумя исходными предикторными переменными:

Y = β 0 + β 1 х 1 + β 2 х 2 + ε

Чтобы определить, существенно ли различаются эти две модели, мы можем выполнить частичный F-тест.

Частичный F-тест: основы

Частичный F-тест вычисляет следующую статистику F-теста:

F = (( сокращенный RSS – полный RSS)/p) / ( полный RSS/nk)

куда:

  • Сокращенный RSS : Остаточная сумма квадратов сокращенной (т.е. «вложенной») модели.
  • RSS full : остаточная сумма квадратов полной модели.
  • p: количество предикторов, удаленных из полной модели.
  • n: общее количество наблюдений в наборе данных.
  • k: количество коэффициентов (включая точку пересечения) в полной модели.

Обратите внимание, что остаточная сумма квадратов всегда будет меньше для полной модели, поскольку добавление предикторов всегда приводит к некоторому уменьшению ошибки.

Таким образом, частичный F-тест, по сути, проверяет, действительно ли группа предикторов, удаленных из полной модели, полезна и должна ли быть включена в полную модель.

В этом тесте используются следующие нулевая и альтернативная гипотезы:

H 0 : Все коэффициенты, удаленные из полной модели, равны нулю.

H A : По крайней мере один из коэффициентов, удаленных из полной модели, отличен от нуля.

Если значение p, соответствующее статистике F-теста, ниже определенного уровня значимости (например, 0,05), то мы можем отклонить нулевую гипотезу и сделать вывод, что по крайней мере один из коэффициентов, удаленных из полной модели, является значимым.

Частичный F-тест: пример

На практике мы используем следующие шаги для выполнения частичного F-теста:

1. Сопоставьте полную регрессионную модель и рассчитайте RSS full .

2. Сопоставьте модель вложенной регрессии и рассчитайте RSS уменьшено .

3. Выполните дисперсионный анализ, чтобы сравнить полную и сокращенную модели, что позволит получить статистику F-теста, необходимую для сравнения моделей.

Например, следующий код показывает, как подобрать следующие две модели регрессии в R, используя данные из встроенного набора данных mtcars :

Полная модель: миль на галлон = β 0 + β 1 расход + β 2 карбюратор + β 3 л.с. + β 4 цилиндра

Уменьшенная модель: mpg = β 0 + β 1 disp + β 2 carb

#fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform ANOVA to test for differences in models
anova(model_reduced, model_full)

Analysis of Variance Table

Model 1: mpg ~ disp + carb
Model 2: mpg ~ disp + carb + hp + cyl
 Res.Df RSS Df Sum of Sq F Pr(>F)
1 29 254.82 
2 27 238.71 2 16.113 0.9113 0.414

Из вывода мы видим, что критерий F из ANOVA равен 0,9113 , а соответствующее значение p равно 0,414 .

Поскольку это p-значение не меньше 0,05, мы не сможем отвергнуть нулевую гипотезу. Это означает, что у нас нет достаточных доказательств, чтобы сказать, что любая из переменных-предикторов hp или cyl является статистически значимой.

Другими словами, добавление hp и cyl к регрессионной модели существенно не улучшает соответствие модели.

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.