Как интерпретировать скорректированный R-квадрат (с примерами)


Когда мы подбираем модели линейной регрессии, мы часто рассчитываем значение R-квадрата модели.

Значение R-квадрата — это доля дисперсии переменной отклика , которая может быть объяснена переменными-предикторами в модели.

Значение R-квадрата может варьироваться от 0 до 1, где:

  • Значение 0 указывает, что переменная отклика вообще не может быть объяснена переменными-предикторами.
  • Значение 1 указывает, что переменная отклика может быть полностью объяснена переменными-предикторами.

Хотя эта метрика обычно используется для оценки того, насколько хорошо регрессионная модель соответствует набору данных, у нее есть один серьезный недостаток:

Недостатки R-квадрата:
R-квадрат всегда будет увеличиваться, когда в модель регрессии добавляется новая предикторная переменная.

Даже если новая предикторная переменная почти полностью не связана с переменной отклика, значение R-квадрата модели увеличится, хотя бы на небольшую величину.

По этой причине возможно, что регрессионная модель с большим количеством переменных-предикторов имеет высокое значение R-квадрата, даже если модель плохо соответствует данным.

К счастью, есть альтернатива R-квадрату, известная как скорректированный R-квадрат .

Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели.

Он рассчитывается как:

Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

куда:

  • R 2 : R 2 модели
  • n : количество наблюдений
  • k : Количество переменных-предикторов

Поскольку R-квадрат всегда увеличивается по мере того, как вы добавляете в модель больше предикторов, скорректированный R-квадрат может сказать вам, насколько полезна модель с поправкой на количество предикторов в модели .

Преимущество скорректированного R-квадрата:
Скорректированный R-квадрат говорит нам, насколько хорошо набор переменных-предикторов может объяснить изменение переменной отклика с поправкой на количество предикторов в модели .
Из-за того, как он рассчитывается, скорректированный R-квадрат можно использовать для сравнения соответствия регрессионных моделей с различным количеством переменных-предикторов.

Чтобы лучше понять скорректированный R-квадрат, посмотрите следующий пример.

Пример: понимание скорректированного R-квадрата в регрессионных моделях

Предположим, профессор собирает данные о студентах в своем классе и подгоняет следующую регрессионную модель, чтобы понять, как часы, потраченные на учебу, и текущая оценка в классе влияют на оценку, которую студент получает на выпускном экзамене.

Экзаменационный балл = β 0 + β 1 (часы, потраченные на учебу) + β 2 (текущая оценка)

Предположим, что эта регрессионная модель имеет следующие показатели:

  • R-квадрат: 0,955
  • Скорректированный R-квадрат: 0,946

Теперь предположим, что профессор решает собрать данные о другой переменной для каждого студента: размере обуви.

Хотя эта переменная должна быть совершенно не связана с итоговой оценкой экзамена, он решает использовать следующую регрессионную модель:

Экзаменационный балл = β 0 + β 1 (часы, потраченные на учебу) + β 2 (текущая оценка) + β 3 (размер обуви)

Предположим, что эта регрессионная модель имеет следующие показатели:

  • R-квадрат: 0,965
  • Скорректированный R-квадрат: 0,902

Если бы мы посмотрели только на значения R-квадрата для каждой из этих двух регрессионных моделей, мы бы пришли к выводу, что лучше использовать вторую модель, поскольку она имеет более высокое значение R-квадрата!

Однако, если мы посмотрим на скорректированные значения R-квадрата , то придем к другому выводу: лучше использовать первую модель, поскольку она имеет более высокое скорректированное значение R-квадрата.

Вторая модель имеет более высокое значение R-квадрата только потому, что она имеет больше переменных-предикторов, чем первая модель.

Однако добавленная нами предикторная переменная (размер обуви) плохо предсказывала итоговую оценку экзамена, поэтому скорректированное значение R-квадрата наказывало модель за добавление этой предикторной переменной.

Этот пример показывает, почему скорректированный R-квадрат лучше использовать при сравнении подгонки регрессионных моделей с разным количеством переменных-предикторов.

Дополнительные ресурсы

В следующих руководствах объясняется, как рассчитать скорректированные значения R-квадрата с использованием различных статистических программ:

Как рассчитать скорректированный R-квадрат в R
Как рассчитать скорректированный R-квадрат в Excel
Как рассчитать скорректированный R-квадрат в Python

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.