R -квадрат , часто обозначаемый как R2, представляет собой долю дисперсии переменной отклика , которая может быть объяснена переменными-предикторами в модели линейной регрессии .
Значение для R-квадрата может варьироваться от 0 до 1. Значение 0 указывает, что переменная отклика вообще не может быть объяснена предикторной переменной, в то время как значение 1 указывает, что переменная отклика может быть полностью объяснена предиктором без ошибок. переменные.
Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели. Он рассчитывается как:
Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
куда:
- R 2 : R 2 модели
- n : количество наблюдений
- k : Количество переменных-предикторов
Поскольку R 2 всегда увеличивается по мере добавления в модель дополнительных предикторов, скорректированный R 2 может служить метрикой, которая говорит вам, насколько полезна модель, с поправкой на количество предикторов в модели .
В этом руководстве показаны два примера расчета скорректированного R 2 для регрессионной модели в Python.
Связанный:Что такое хорошее значение R-квадрата?
Пример 1. Расчет скорректированного R-квадрата с помощью sklearn
В следующем коде показано, как подобрать модель множественной линейной регрессии и рассчитать скорректированный R-квадрат модели с помощью sklearn:
from sklearn. linear_model import LinearRegression
import pandas as pd
#define URL where dataset is located
url = "https://raw.githubusercontent.com/Statology/Python-Guides/main/mtcars.csv"
#read in data
data = pd.read_csv (url)
#fit regression model
model = LinearRegression ()
X, y = data[["mpg", "wt", "drat", "qsec"]], data.hp
model. fit (X, y)
#display adjusted R-squared
1 - (1-model. score (X, y))\*( len (y)-1)/( len (y)-X. shape [1]-1)
0.7787005290062521
Скорректированный R-квадрат модели оказывается равным 0,7787 .
Пример 2. Расчет скорректированного R-квадрата с использованием статистических моделей
В следующем коде показано, как подобрать модель множественной линейной регрессии и рассчитать скорректированный R-квадрат модели с помощью статистических моделей:
import statsmodels.api as sm
import pandas as pd
#define URL where dataset is located
url = "https://raw.githubusercontent.com/Statology/Python-Guides/main/mtcars.csv"
#read in data
data = pd.read_csv (url)
#fit regression model
X, y = data[["mpg", "wt", "drat", "qsec"]], data.hp
X = sm.add_constant (X)
model = sm. OLS (y, X). fit ()
#display adjusted R-squared
print(model. rsquared_adj )
0.7787005290062521
Скорректированный R-квадрат модели оказывается равным 0,7787 , что соответствует результату из предыдущего примера.
Дополнительные ресурсы
Как выполнить простую линейную регрессию в Python
Как выполнить множественную линейную регрессию в Python
Как рассчитать AIC регрессионных моделей в Python