Два термина, которые студенты часто путают в статистике, — это R и R-квадрат , часто обозначаемые как R2.
В контексте простой линейной регрессии :
- R: корреляция между предикторной переменной x и переменной отклика y.
- R 2 : Доля дисперсии переменной отклика, которая может быть объяснена предикторной переменной в регрессионной модели.
И в контексте множественной линейной регрессии :
- R: Корреляция между наблюдаемыми значениями переменной отклика и предсказанными значениями переменной отклика, сделанными моделью.
- R 2 : Доля дисперсии переменной отклика, которая может быть объяснена предикторными переменными в регрессионной модели.
Обратите внимание, что значение R 2 находится в диапазоне от 0 до 1. Чем ближе значение к 1, тем сильнее связь между предиктором (переменными) и переменной отклика.
В следующих примерах показано, как интерпретировать значения R и R-квадрата как в моделях простой линейной регрессии, так и в моделях множественной линейной регрессии.
Пример 1: простая линейная регрессия
Предположим, у нас есть следующий набор данных, который показывает количество часов обучения и экзаменационные оценки, полученные 12 учениками в определенном математическом классе:
Используя статистическое программное обеспечение (такое как Excel, R, Python, SPSS и т. д.), мы можем подобрать простую модель линейной регрессии, используя «часы обучения» в качестве предиктора и «экзаменационный балл» в качестве переменной ответа .
Мы можем найти следующий вывод для этой модели:
Вот как интерпретировать значения R и R-квадрата этой модели:
- Р: Корреляция между часами обучения и экзаменационным баллом составляет 0,959 .
- R 2 : R-квадрат для этой регрессионной модели равен 0,920.Это говорит нам о том, что 92,0% различий в экзаменационных баллах можно объяснить количеством часов обучения.
Также обратите внимание, что значение R 2 просто равно значению R, возведенному в квадрат:
R 2 = R * R = 0,959 * 0,959 = 0,920
Пример 2: Множественная линейная регрессия
Предположим, у нас есть следующий набор данных, который показывает количество часов обучения, текущую оценку ученика и экзаменационную оценку, полученную 12 учениками в определенном математическом классе:
Используя статистическое программное обеспечение, мы можем подобрать модель множественной линейной регрессии, используя «учебные часы» и «текущая оценка» в качестве переменных-предикторов и «экзаменационный балл» в качестве переменной ответа.
Мы можем найти следующий вывод для этой модели:
Вот как интерпретировать значения R и R-квадрата этой модели:
- R: Корреляция между фактическими результатами экзаменов и прогнозируемыми результатами экзаменов, сделанными моделью, составляет 0,978 .
- R 2 : R-квадрат для этой регрессионной модели равен 0,956.Это говорит нам о том, что 95,6% различий в экзаменационных баллах можно объяснить количеством часов обучения и текущими оценками учащегося в классе.
Также обратите внимание, что значение R 2 просто равно значению R, возведенному в квадрат:
R 2 = R * R = 0,978 * 0,978 = 0,956
Дополнительные ресурсы
Что такое хорошее значение R-квадрата?
Нежный путеводитель по сумме квадратов: SST, SSR, SSE