R против R-Squared: в чем разница?

R против R-Squared: в чем разница?

Два термина, которые студенты часто путают в статистике, — это R и R-квадрат , часто обозначаемые как R2.

В контексте простой линейной регрессии :

  • R: корреляция между предикторной переменной x и переменной отклика y.
  • R 2 : Доля дисперсии переменной отклика, которая может быть объяснена предикторной переменной в регрессионной модели.

И в контексте множественной линейной регрессии :

  • R: Корреляция между наблюдаемыми значениями переменной отклика и предсказанными значениями переменной отклика, сделанными моделью.
  • R 2 : Доля дисперсии переменной отклика, которая может быть объяснена предикторными переменными в регрессионной модели.

Обратите внимание, что значение R 2 находится в диапазоне от 0 до 1. Чем ближе значение к 1, тем сильнее связь между предиктором (переменными) и переменной отклика.

В следующих примерах показано, как интерпретировать значения R и R-квадрата как в моделях простой линейной регрессии, так и в моделях множественной линейной регрессии.

Пример 1: простая линейная регрессия

Предположим, у нас есть следующий набор данных, который показывает количество часов обучения и экзаменационные оценки, полученные 12 учениками в определенном математическом классе:

Используя статистическое программное обеспечение (такое как Excel, R, Python, SPSS и т. д.), мы можем подобрать простую модель линейной регрессии, используя «часы обучения» в качестве предиктора и «экзаменационный балл» в качестве переменной ответа .

Мы можем найти следующий вывод для этой модели:

Вот как интерпретировать значения R и R-квадрата этой модели:

  • Р: Корреляция между часами обучения и экзаменационным баллом составляет 0,959 .
  • R 2 : R-квадрат для этой регрессионной модели равен 0,920.Это говорит нам о том, что 92,0% различий в экзаменационных баллах можно объяснить количеством часов обучения.

Также обратите внимание, что значение R 2 просто равно значению R, возведенному в квадрат:

R 2 = R * R = 0,959 * 0,959 = 0,920

Пример 2: Множественная линейная регрессия

Предположим, у нас есть следующий набор данных, который показывает количество часов обучения, текущую оценку ученика и экзаменационную оценку, полученную 12 учениками в определенном математическом классе:

Используя статистическое программное обеспечение, мы можем подобрать модель множественной линейной регрессии, используя «учебные часы» и «текущая оценка» в качестве переменных-предикторов и «экзаменационный балл» в качестве переменной ответа.

Мы можем найти следующий вывод для этой модели:

Вот как интерпретировать значения R и R-квадрата этой модели:

  • R: Корреляция между фактическими результатами экзаменов и прогнозируемыми результатами экзаменов, сделанными моделью, составляет 0,978 .
  • R 2 : R-квадрат для этой регрессионной модели равен 0,956.Это говорит нам о том, что 95,6% различий в экзаменационных баллах можно объяснить количеством часов обучения и текущими оценками учащегося в классе.

Также обратите внимание, что значение R 2 просто равно значению R, возведенному в квадрат:

R 2 = R * R = 0,978 * 0,978 = 0,956

Дополнительные ресурсы

Что такое хорошее значение R-квадрата?
Нежный путеводитель по сумме квадратов: SST, SSR, SSE

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.