Простое руководство по пониманию F-теста общей значимости в регрессии


В этом руководстве объясняется, как идентифицировать F-статистику в выходных данных таблицы регрессии, а также как интерпретировать эту статистику и соответствующее ей p-значение.

Понимание F-теста общей значимости

F-тест общей значимости в регрессии — это проверка того, обеспечивает ли ваша модель линейной регрессии лучшее соответствие набору данных, чем модель без переменных-предикторов.

F-тест общей значимости имеет следующие две гипотезы:

Нулевая гипотеза (H 0 ) : модель без переменных-предикторов (также известная как модель только для перехвата ) соответствует данным, а также вашей регрессионной модели.

Альтернативная гипотеза (H A ): Ваша регрессионная модель лучше соответствует данным, чем модель, основанная только на перехвате.

Когда вы подгоните модель регрессии к набору данных, вы получите в качестве выходных данных таблицу регрессии , в которой будет указана F-статистика вместе с соответствующим значением p для этой F-статистики.

Если p-значение меньше выбранного вами уровня значимости ( обычно выбираются 0,01, 0,05 и 0,10 ), то у вас есть достаточно доказательств, чтобы сделать вывод, что ваша регрессионная модель лучше соответствует данным, чем модель, основанная только на перехвате. модель.

Пример: F-тест в регрессии

Предположим, у нас есть следующий набор данных, который показывает общее количество часов обучения, общее количество сданных подготовительных экзаменов и итоговый балл за экзамен, полученный для 12 разных студентов:

Пример данных регрессионного анализа

Чтобы проанализировать взаимосвязь между учебными часами и сданными подготовительными экзаменами и окончательным экзаменационным баллом, который получает студент, мы запускаем множественную линейную регрессию, используя отработанные часы и подготовительные экзамены, взятые в качестве переменных-предикторов, и итоговый экзаменационный балл в качестве переменной ответа.

Мы получаем следующий вывод:

Вывод таблицы регрессии

Исходя из этих результатов, мы сосредоточимся на F-статистике, приведенной в таблице ANOVA, а также на p-значении этой F-статистики, которое в таблице обозначено как « Значимость F ». Мы выберем 0,05 в качестве нашего уровня значимости.

F-статистика: 5,090515

Р-значение: 0,0332

Техническое примечание:* F-статистика рассчитывается как регрессия MS, деленная на остаток MS. В этом случае регрессия МС/остаток МС = 273,2665/53,68151 = 5,090515* .

Поскольку p-значение меньше уровня значимости, мы можем сделать вывод, что наша регрессионная модель лучше соответствует данным, чем модель, основанная только на перехвате.

В контексте этой конкретной проблемы это означает, что использование в модели наших переменных-предикторов « Часы обучения» и « Подготовительные экзамены » позволяет нам лучше подогнать данные, чем если бы мы их исключили и просто использовали модель только для перехвата.

Примечания по интерпретации F-критерия общей значимости

В общем, если ни одна из ваших переменных-предикторов не является статистически значимой, общий F-тест также не будет статистически значимым. Однако в некоторых случаях возможно, что это не так, потому что F-критерий общей значимости проверяет, являются ли все переменные-предикторы совместно значимыми, в то время как t-критерий значимости для каждой отдельной переменной-предиктора просто проверяет, является ли каждая переменная-предиктор значимой. индивидуально значимы.

Таким образом, F-тест определяет, являются ли все предикторы совместно значимыми. Возможно, что каждая предикторная переменная незначительна, и все же F-критерий говорит, что все вместе предикторные переменные значимы вместе.

Техническое примечание. Как правило, чем больше предикторов у вас в модели, тем выше вероятность того, что F-статистика и соответствующее значение p будут статистически значимыми.

Другой показатель, который вы, вероятно, увидите в результатах регрессии, — это R-квадрат , который измеряет силу линейной связи между переменными-предикторами и переменной-ответом. Хотя R-квадрат может дать вам представление о том, насколько сильно связаны переменные-предикторы с переменной отклика, он не обеспечивает формального статистического теста для этой связи.

Вот почему F-тест полезен, поскольку он является формальным статистическим тестом. Кроме того, если общий F-критерий значим, вы можете заключить, что R-квадрат не равен нулю и что корреляция между предикторной переменной (переменными) и переменной отклика является статистически значимой.

Дальнейшее чтение Как читать и интерпретировать таблицу регрессии
Понимание стандартной ошибки регрессии
Что такое хорошее значение R-квадрата?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.