R против R-Squared: в чем разница?


Два термина, которые студенты часто путают в статистике, — это R и R-квадрат , часто обозначаемые как R2.

В контексте простой линейной регрессии :

  • R: корреляция между предикторной переменной x и переменной отклика y.
  • R 2 : Доля дисперсии переменной отклика, которая может быть объяснена предикторной переменной в регрессионной модели.

И в контексте множественной линейной регрессии :

  • R: Корреляция между наблюдаемыми значениями переменной отклика и предсказанными значениями переменной отклика, сделанными моделью.
  • R 2 : Доля дисперсии переменной отклика, которая может быть объяснена предикторными переменными в регрессионной модели.

Обратите внимание, что значение R 2 находится в диапазоне от 0 до 1. Чем ближе значение к 1, тем сильнее связь между предиктором (переменными) и переменной отклика.

В следующих примерах показано, как интерпретировать значения R и R-квадрата как в моделях простой линейной регрессии, так и в моделях множественной линейной регрессии.

Пример 1: простая линейная регрессия

Предположим, у нас есть следующий набор данных, который показывает количество часов обучения и экзаменационные оценки, полученные 12 учениками в определенном математическом классе:

Используя статистическое программное обеспечение (такое как Excel, R, Python, SPSS и т. д.), мы можем подобрать простую модель линейной регрессии, используя «часы обучения» в качестве предиктора и «экзаменационный балл» в качестве переменной ответа .

Мы можем найти следующий вывод для этой модели:

Вот как интерпретировать значения R и R-квадрата этой модели:

  • Р: Корреляция между часами обучения и экзаменационным баллом составляет 0,959 .
  • R 2 : R-квадрат для этой регрессионной модели равен 0,920.Это говорит нам о том, что 92,0% различий в экзаменационных баллах можно объяснить количеством часов обучения.

Также обратите внимание, что значение R 2 просто равно значению R, возведенному в квадрат:

R 2 = R * R = 0,959 * 0,959 = 0,920

Пример 2: Множественная линейная регрессия

Предположим, у нас есть следующий набор данных, который показывает количество часов обучения, текущую оценку ученика и экзаменационную оценку, полученную 12 учениками в определенном математическом классе:

Используя статистическое программное обеспечение, мы можем подобрать модель множественной линейной регрессии, используя «учебные часы» и «текущая оценка» в качестве переменных-предикторов и «экзаменационный балл» в качестве переменной ответа.

Мы можем найти следующий вывод для этой модели:

Вот как интерпретировать значения R и R-квадрата этой модели:

  • R: Корреляция между фактическими результатами экзаменов и прогнозируемыми результатами экзаменов, сделанными моделью, составляет 0,978 .
  • R 2 : R-квадрат для этой регрессионной модели равен 0,956.Это говорит нам о том, что 95,6% различий в экзаменационных баллах можно объяснить количеством часов обучения и текущими оценками учащегося в классе.

Также обратите внимание, что значение R 2 просто равно значению R, возведенному в квадрат:

R 2 = R * R = 0,978 * 0,978 = 0,956

Дополнительные ресурсы

Что такое хорошее значение R-квадрата?
Нежный путеводитель по сумме квадратов: SST, SSR, SSE