Модели регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.
Всякий раз, когда мы подбираем регрессионную модель, мы хотим понять, насколько хорошо модель «соответствует» данным. Другими словами, насколько хорошо модель может использовать значения переменных-предикторов для предсказания значения переменной ответа ?
Две метрики, которые статистики часто используют для количественной оценки того, насколько хорошо модель соответствует набору данных, — это среднеквадратическая ошибка (RMSE) и R-квадрат (R 2 ), которые рассчитываются следующим образом:
RMSE : метрика, которая сообщает нам, насколько в среднем прогнозируемые значения отличаются от наблюдаемых значений в наборе данных. Чем ниже RMSE, тем лучше модель соответствует набору данных.
Он рассчитывается как:
СКО = √ Σ(P i – O i ) 2 / n
куда:
- Σ — это символ, который означает «сумма»
- P i - прогнозируемое значение для i -го наблюдения
- O i - наблюдаемое значение для i -го наблюдения
- n - размер выборки
R 2 : Метрика, которая сообщает нам долю дисперсии переменной отклика регрессионной модели, которая может быть объяснена предикторными переменными. Это значение находится в диапазоне от 0 до 1. Чем выше значение R 2 , тем лучше модель соответствует набору данных.
Он рассчитывается как:
R 2 = 1 – (РСС/ТСС)
куда:
- RSS представляет собой сумму квадратов остатков
- TSS представляет собой общую сумму квадратов
RMSE против R 2 : какую метрику следует использовать?
При оценке того, насколько хорошо модель соответствует набору данных, полезно рассчитать как RMSE, так и значение R 2 , потому что каждая метрика говорит нам о чем-то своем.
С одной стороны, RMSE сообщает нам типичное расстояние между прогнозируемым значением, сделанным моделью регрессии, и фактическим значением.
С другой стороны, R 2 говорит нам, насколько хорошо переменные-предикторы могут объяснить изменение переменной отклика.
Например, предположим, что у нас есть следующий набор данных, который показывает информацию о домах в определенном городе:
Теперь предположим, что мы хотим использовать квадратные метры, количество ванных комнат и количество спален, чтобы предсказать цену дома.
Мы можем подобрать следующую регрессионную модель:
Цена = β 0 + β 1 (кв.м) + β 2 (кол-во ванных комнат) + β 3 (кол-во спален)
Теперь предположим, что мы подгоняем эту модель, а затем вычисляем следующие показатели, чтобы оценить качество подгонки модели:
- Среднеквадратичное отклонение : 14 342
- R 2 : 0,856
Значение RMSE говорит нам, что среднее отклонение между прогнозируемой ценой дома, сделанной моделью, и фактической ценой дома составляет 14 342 доллара.
Значение R 2 говорит нам о том, что переменные-предикторы в модели (квадратные метры, количество ванных комнат и количество спален) способны объяснить 85,6% колебаний цен на жилье.
Определяя, являются ли эти значения «хорошими» или нет, мы можем сравнить эти показатели с альтернативными моделями.
Например, предположим, что мы подбираем другую модель регрессии, которая использует другой набор предикторов, и вычисляем следующие показатели для этой модели:
- Среднеквадратичное отклонение : 19 355
- R 2 : 0,765
Мы видим, что значение RMSE для этой модели больше, чем для предыдущей модели. Мы также можем видеть, что значение R 2 для этой модели меньше, чем для предыдущей модели. Это говорит нам о том, что эта модель хуже подходит к данным, чем предыдущая модель.
Резюме
Вот основные моменты, затронутые в этой статье:
- И RMSE, и R 2 количественно определяют, насколько хорошо модель регрессии соответствует набору данных.
- RMSE говорит нам, насколько хорошо модель регрессии может предсказать значение переменной отклика в абсолютном выражении, в то время как R 2 говорит нам, насколько хорошо модель может предсказать значение переменной отклика в процентном выражении.
- Полезно рассчитать как RMSE, так и R 2 для данной модели, поскольку каждая метрика дает нам полезную информацию.
Дополнительные ресурсы
Введение в множественную линейную регрессию
R против R-Squared: в чем разница?
Что такое хорошее значение R-квадрата?