Когда мы подбираем модели линейной регрессии, мы часто рассчитываем значение R-квадрата модели.
Значение R-квадрата — это доля дисперсии переменной отклика , которая может быть объяснена переменными-предикторами в модели.
Значение R-квадрата может варьироваться от 0 до 1, где:
- Значение 0 указывает, что переменная отклика вообще не может быть объяснена переменными-предикторами.
- Значение 1 указывает, что переменная отклика может быть полностью объяснена переменными-предикторами.
Хотя эта метрика обычно используется для оценки того, насколько хорошо регрессионная модель соответствует набору данных, у нее есть один серьезный недостаток:
Недостатки R-квадрата:
R-квадрат всегда будет увеличиваться, когда в модель регрессии добавляется новая предикторная переменная.
Даже если новая предикторная переменная почти полностью не связана с переменной отклика, значение R-квадрата модели увеличится, хотя бы на небольшую величину.
По этой причине возможно, что регрессионная модель с большим количеством переменных-предикторов имеет высокое значение R-квадрата, даже если модель плохо соответствует данным.
К счастью, есть альтернатива R-квадрату, известная как скорректированный R-квадрат .
Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели.
Он рассчитывается как:
Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
куда:
- R 2 : R 2 модели
- n : количество наблюдений
- k : Количество переменных-предикторов
Поскольку R-квадрат всегда увеличивается по мере того, как вы добавляете в модель больше предикторов, скорректированный R-квадрат может сказать вам, насколько полезна модель с поправкой на количество предикторов в модели .
Преимущество скорректированного R-квадрата:
Скорректированный R-квадрат говорит нам, насколько хорошо набор переменных-предикторов может объяснить изменение переменной отклика с поправкой на количество предикторов в модели .
Из-за того, как он рассчитывается, скорректированный R-квадрат можно использовать для сравнения соответствия регрессионных моделей с различным количеством переменных-предикторов.
Чтобы лучше понять скорректированный R-квадрат, посмотрите следующий пример.
Пример: понимание скорректированного R-квадрата в регрессионных моделях
Предположим, профессор собирает данные о студентах в своем классе и подгоняет следующую регрессионную модель, чтобы понять, как часы, потраченные на учебу, и текущая оценка в классе влияют на оценку, которую студент получает на выпускном экзамене.
Экзаменационный балл = β 0 + β 1 (часы, потраченные на учебу) + β 2 (текущая оценка)
Предположим, что эта регрессионная модель имеет следующие показатели:
- R-квадрат: 0,955
- Скорректированный R-квадрат: 0,946
Теперь предположим, что профессор решает собрать данные о другой переменной для каждого студента: размере обуви.
Хотя эта переменная должна быть совершенно не связана с итоговой оценкой экзамена, он решает использовать следующую регрессионную модель:
Экзаменационный балл = β 0 + β 1 (часы, потраченные на учебу) + β 2 (текущая оценка) + β 3 (размер обуви)
Предположим, что эта регрессионная модель имеет следующие показатели:
- R-квадрат: 0,965
- Скорректированный R-квадрат: 0,902
Если бы мы посмотрели только на значения R-квадрата для каждой из этих двух регрессионных моделей, мы бы пришли к выводу, что лучше использовать вторую модель, поскольку она имеет более высокое значение R-квадрата!
Однако, если мы посмотрим на скорректированные значения R-квадрата , то придем к другому выводу: лучше использовать первую модель, поскольку она имеет более высокое скорректированное значение R-квадрата.
Вторая модель имеет более высокое значение R-квадрата только потому, что она имеет больше переменных-предикторов, чем первая модель.
Однако добавленная нами предикторная переменная (размер обуви) плохо предсказывала итоговую оценку экзамена, поэтому скорректированное значение R-квадрата наказывало модель за добавление этой предикторной переменной.
Этот пример показывает, почему скорректированный R-квадрат лучше использовать при сравнении подгонки регрессионных моделей с разным количеством переменных-предикторов.
Дополнительные ресурсы
В следующих руководствах объясняется, как рассчитать скорректированные значения R-квадрата с использованием различных статистических программ:
Как рассчитать скорректированный R-квадрат в R
Как рассчитать скорректированный R-квадрат в Excel
Как рассчитать скорректированный R-квадрат в Python