Несколько R против R-Squared: в чем разница?

Несколько R против R-Squared: в чем разница?

Когда вы подбираете регрессионную модель, используя большинство статистических программ, вы часто будете замечать следующие два значения в выходных данных:

Множественный R: Множественный коэффициент корреляции между тремя или более переменными.

R-квадрат: рассчитывается как (Multiple R) 2 и представляет долю дисперсии переменной отклика регрессионной модели, которая может быть объяснена предикторными переменными. Это значение находится в диапазоне от 0 до 1.

На практике нас часто интересует значение R-квадрата, потому что оно говорит нам, насколько полезны переменные-предикторы при прогнозировании значения переменной отклика.

Однако каждый раз, когда мы добавляем в модель новую переменную-предиктор, R-квадрат гарантированно увеличивается, даже если переменная-предиктор бесполезна.

Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели. Он рассчитывается как:

Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

куда:

  • R 2 : R 2 модели
  • n : количество наблюдений
  • k : Количество переменных-предикторов

Поскольку R-квадрат всегда увеличивается, когда вы добавляете в модель больше предикторов, скорректированный R-квадрат может служить метрикой, которая говорит вам, насколько полезна модель с поправкой на количество предикторов в модели .

Чтобы лучше понять каждый из этих терминов, рассмотрим следующий пример.

Пример: Множественный R, R-квадрат и скорректированный R-квадрат

Предположим, у нас есть следующий набор данных, который содержит следующие три переменные для 12 разных учеников:

Предположим, мы подгоняем модель множественной линейной регрессии, используя часы обучения и текущую оценку в качестве переменных-предикторов и балл за экзамен в качестве переменной ответа, и получаем следующий результат:

Несколько R против R-квадрат

Мы можем наблюдать значения следующих трех показателей:

Несколько R: 0,978.Это представляет собой множественную корреляцию между переменной ответа и двумя переменными-предикторами.

R-квадрат: 0,956.Это рассчитывается как (Multiple R) 2 = (0,978) 2 = 0,956. Это говорит нам о том, что 95,6% различий в экзаменационных баллах можно объяснить количеством часов, потраченных студентом на обучение, и его текущей оценкой по курсу.

Скорректированный R-квадрат: 0,946.Это рассчитывается как:

Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)] = 1 – [(1-0,956)*(12-1)/(12-2-1) ] = 0,946.

Это представляет собой значение R-квадрата, скорректированное с учетом количества переменных-предикторов в модели .

Этот показатель был бы полезен, если бы мы, скажем, подогнали другую регрессионную модель с 10 предикторами и обнаружили, что скорректированный R-квадрат этой модели равен 0,88.Это указывало бы на то, что модель регрессии всего с двумя предикторами лучше, потому что она имеет более высокое скорректированное значение R-квадрата.

Дополнительные ресурсы

Введение в множественную линейную регрессию
Что такое хорошее значение R-квадрата?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.