Как интерпретировать скорректированный R-квадрат (с примерами)


Когда мы подбираем модели линейной регрессии, мы часто рассчитываем значение R-квадрата модели.

Значение R-квадрата — это доля дисперсии переменной отклика , которая может быть объяснена переменными-предикторами в модели.

Значение R-квадрата может варьироваться от 0 до 1, где:

  • Значение 0 указывает, что переменная отклика вообще не может быть объяснена переменными-предикторами.
  • Значение 1 указывает, что переменная отклика может быть полностью объяснена переменными-предикторами.

Хотя эта метрика обычно используется для оценки того, насколько хорошо регрессионная модель соответствует набору данных, у нее есть один серьезный недостаток:

Недостатки R-квадрата:
R-квадрат всегда будет увеличиваться, когда в модель регрессии добавляется новая предикторная переменная.

Даже если новая предикторная переменная почти полностью не связана с переменной отклика, значение R-квадрата модели увеличится, хотя бы на небольшую величину.

По этой причине возможно, что регрессионная модель с большим количеством переменных-предикторов имеет высокое значение R-квадрата, даже если модель плохо соответствует данным.

К счастью, есть альтернатива R-квадрату, известная как скорректированный R-квадрат .

Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели.

Он рассчитывается как:

Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

куда:

  • R 2 : R 2 модели
  • n : количество наблюдений
  • k : Количество переменных-предикторов

Поскольку R-квадрат всегда увеличивается по мере того, как вы добавляете в модель больше предикторов, скорректированный R-квадрат может сказать вам, насколько полезна модель с поправкой на количество предикторов в модели .

Преимущество скорректированного R-квадрата:
Скорректированный R-квадрат говорит нам, насколько хорошо набор переменных-предикторов может объяснить изменение переменной отклика с поправкой на количество предикторов в модели .
Из-за того, как он рассчитывается, скорректированный R-квадрат можно использовать для сравнения соответствия регрессионных моделей с различным количеством переменных-предикторов.

Чтобы лучше понять скорректированный R-квадрат, посмотрите следующий пример.

Пример: понимание скорректированного R-квадрата в регрессионных моделях

Предположим, профессор собирает данные о студентах в своем классе и подгоняет следующую регрессионную модель, чтобы понять, как часы, потраченные на учебу, и текущая оценка в классе влияют на оценку, которую студент получает на выпускном экзамене.

Экзаменационный балл = β 0 + β 1 (часы, потраченные на учебу) + β 2 (текущая оценка)

Предположим, что эта регрессионная модель имеет следующие показатели:

  • R-квадрат: 0,955
  • Скорректированный R-квадрат: 0,946

Теперь предположим, что профессор решает собрать данные о другой переменной для каждого студента: размере обуви.

Хотя эта переменная должна быть совершенно не связана с итоговой оценкой экзамена, он решает использовать следующую регрессионную модель:

Экзаменационный балл = β 0 + β 1 (часы, потраченные на учебу) + β 2 (текущая оценка) + β 3 (размер обуви)

Предположим, что эта регрессионная модель имеет следующие показатели:

  • R-квадрат: 0,965
  • Скорректированный R-квадрат: 0,902

Если бы мы посмотрели только на значения R-квадрата для каждой из этих двух регрессионных моделей, мы бы пришли к выводу, что лучше использовать вторую модель, поскольку она имеет более высокое значение R-квадрата!

Однако, если мы посмотрим на скорректированные значения R-квадрата , то придем к другому выводу: лучше использовать первую модель, поскольку она имеет более высокое скорректированное значение R-квадрата.

Вторая модель имеет более высокое значение R-квадрата только потому, что она имеет больше переменных-предикторов, чем первая модель.

Однако добавленная нами предикторная переменная (размер обуви) плохо предсказывала итоговую оценку экзамена, поэтому скорректированное значение R-квадрата наказывало модель за добавление этой предикторной переменной.

Этот пример показывает, почему скорректированный R-квадрат лучше использовать при сравнении подгонки регрессионных моделей с разным количеством переменных-предикторов.

Дополнительные ресурсы

В следующих руководствах объясняется, как рассчитать скорректированные значения R-квадрата с использованием различных статистических программ:

Как рассчитать скорректированный R-квадрат в R
Как рассчитать скорректированный R-квадрат в Excel
Как рассчитать скорректированный R-квадрат в Python