Когда вы подбираете регрессионную модель, используя большинство статистических программ, вы часто будете замечать следующие два значения в выходных данных:
Множественный R: Множественный коэффициент корреляции между тремя или более переменными.
R-квадрат: рассчитывается как (Multiple R) 2 и представляет долю дисперсии переменной отклика регрессионной модели, которая может быть объяснена предикторными переменными. Это значение находится в диапазоне от 0 до 1.
На практике нас часто интересует значение R-квадрата, потому что оно говорит нам, насколько полезны переменные-предикторы при прогнозировании значения переменной отклика.
Однако каждый раз, когда мы добавляем в модель новую переменную-предиктор, R-квадрат гарантированно увеличивается, даже если переменная-предиктор бесполезна.
Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели. Он рассчитывается как:
Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
куда:
- R 2 : R 2 модели
- n : количество наблюдений
- k : Количество переменных-предикторов
Поскольку R-квадрат всегда увеличивается, когда вы добавляете в модель больше предикторов, скорректированный R-квадрат может служить метрикой, которая говорит вам, насколько полезна модель с поправкой на количество предикторов в модели .
Чтобы лучше понять каждый из этих терминов, рассмотрим следующий пример.
Пример: Множественный R, R-квадрат и скорректированный R-квадрат
Предположим, у нас есть следующий набор данных, который содержит следующие три переменные для 12 разных учеников:

Предположим, мы подгоняем модель множественной линейной регрессии, используя часы обучения и текущую оценку в качестве переменных-предикторов и балл за экзамен в качестве переменной ответа, и получаем следующий результат:

Мы можем наблюдать значения следующих трех показателей:
Несколько R: 0,978.Это представляет собой множественную корреляцию между переменной ответа и двумя переменными-предикторами.
R-квадрат: 0,956.Это рассчитывается как (Multiple R) 2 = (0,978) 2 = 0,956. Это говорит нам о том, что 95,6% различий в экзаменационных баллах можно объяснить количеством часов, потраченных студентом на обучение, и его текущей оценкой по курсу.
Скорректированный R-квадрат: 0,946.Это рассчитывается как:
Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)] = 1 – [(1-0,956)*(12-1)/(12-2-1) ] = 0,946.
Это представляет собой значение R-квадрата, скорректированное с учетом количества переменных-предикторов в модели .
Этот показатель был бы полезен, если бы мы, скажем, подогнали другую регрессионную модель с 10 предикторами и обнаружили, что скорректированный R-квадрат этой модели равен 0,88.Это указывало бы на то, что модель регрессии всего с двумя предикторами лучше, потому что она имеет более высокое скорректированное значение R-квадрата.
Дополнительные ресурсы
Введение в множественную линейную регрессию
Что такое хорошее значение R-квадрата?