RMSE против R-Squared: какую метрику следует использовать?

Модели регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Всякий раз, когда мы подбираем регрессионную модель, мы хотим понять, насколько хорошо модель «соответствует» данным. Другими словами, насколько хорошо модель может использовать значения переменных-предикторов для предсказания значения переменной ответа ?

Две метрики, которые статистики часто используют для количественной оценки того, насколько хорошо модель соответствует набору данных, — это среднеквадратическая ошибка (RMSE) и R-квадрат (R 2 ), которые рассчитываются следующим образом:

RMSE : метрика, которая сообщает нам, насколько в среднем прогнозируемые значения отличаются от наблюдаемых значений в наборе данных. Чем ниже RMSE, тем лучше модель соответствует набору данных.

Он рассчитывается как:

СКО = √ Σ(P i – O i ) 2 / n

куда:

Σ — это символ, который означает «сумма»
P i - прогнозируемое значение для i -го наблюдения
O i - наблюдаемое значение для i -го наблюдения
n - размер выборки

R 2 : Метрика, которая сообщает нам долю дисперсии переменной отклика регрессионной модели, которая может быть объяснена предикторными переменными. Это значение находится в диапазоне от 0 до 1. Чем выше значение R 2 , тем лучше модель соответствует набору данных.

Он рассчитывается как:

R 2 = 1 – (РСС/ТСС)

куда:

RSS представляет собой сумму квадратов остатков
TSS представляет собой общую сумму квадратов

RMSE против R 2 : какую метрику следует использовать?

При оценке того, насколько хорошо модель соответствует набору данных, полезно рассчитать как RMSE, так и значение R 2 , потому что каждая метрика говорит нам о чем-то своем.

С одной стороны, RMSE сообщает нам типичное расстояние между прогнозируемым значением, сделанным моделью регрессии, и фактическим значением.

С другой стороны, R 2 говорит нам, насколько хорошо переменные-предикторы могут объяснить изменение переменной отклика.

Например, предположим, что у нас есть следующий набор данных, который показывает информацию о домах в определенном городе:

Теперь предположим, что мы хотим использовать квадратные метры, количество ванных комнат и количество спален, чтобы предсказать цену дома.

Мы можем подобрать следующую регрессионную модель:

Цена = β 0 + β 1 (кв.м) + β 2 (кол-во ванных комнат) + β 3 (кол-во спален)

Теперь предположим, что мы подгоняем эту модель, а затем вычисляем следующие показатели, чтобы оценить качество подгонки модели:

Среднеквадратичное отклонение : 14 342
R 2 : 0,856

Значение RMSE говорит нам, что среднее отклонение между прогнозируемой ценой дома, сделанной моделью, и фактической ценой дома составляет 14 342 доллара.

Значение R 2 говорит нам о том, что переменные-предикторы в модели (квадратные метры, количество ванных комнат и количество спален) способны объяснить 85,6% колебаний цен на жилье.

Определяя, являются ли эти значения «хорошими» или нет, мы можем сравнить эти показатели с альтернативными моделями.

Например, предположим, что мы подбираем другую модель регрессии, которая использует другой набор предикторов, и вычисляем следующие показатели для этой модели:

Среднеквадратичное отклонение : 19 355
R 2 : 0,765

Мы видим, что значение RMSE для этой модели больше, чем для предыдущей модели. Мы также можем видеть, что значение R 2 для этой модели меньше, чем для предыдущей модели. Это говорит нам о том, что эта модель хуже подходит к данным, чем предыдущая модель.

Резюме

Вот основные моменты, затронутые в этой статье:

И RMSE, и R 2 количественно определяют, насколько хорошо модель регрессии соответствует набору данных.
RMSE говорит нам, насколько хорошо модель регрессии может предсказать значение переменной отклика в абсолютном выражении, в то время как R 2 говорит нам, насколько хорошо модель может предсказать значение переменной отклика в процентном выражении.
Полезно рассчитать как RMSE, так и R 2 для данной модели, поскольку каждая метрика дает нам полезную информацию.

Дополнительные ресурсы

Введение в множественную линейную регрессию
R против R-Squared: в чем разница?
Что такое хорошее значение R-квадрата?