RMSE против R-Squared: какую метрику следует использовать?

RMSE против R-Squared: какую метрику следует использовать?

Модели регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Всякий раз, когда мы подбираем регрессионную модель, мы хотим понять, насколько хорошо модель «соответствует» данным. Другими словами, насколько хорошо модель может использовать значения переменных-предикторов для предсказания значения переменной ответа ?

Две метрики, которые статистики часто используют для количественной оценки того, насколько хорошо модель соответствует набору данных, — это среднеквадратическая ошибка (RMSE) и R-квадрат (R 2 ), которые рассчитываются следующим образом:

RMSE : метрика, которая сообщает нам, насколько в среднем прогнозируемые значения отличаются от наблюдаемых значений в наборе данных. Чем ниже RMSE, тем лучше модель соответствует набору данных.

Он рассчитывается как:

СКО = √ Σ(P i – O i ) 2 / n

куда:

  • Σ — это символ, который означает «сумма»
  • P i - прогнозируемое значение для i -го наблюдения
  • O i - наблюдаемое значение для i -го наблюдения
  • n - размер выборки

R 2 : Метрика, которая сообщает нам долю дисперсии переменной отклика регрессионной модели, которая может быть объяснена предикторными переменными. Это значение находится в диапазоне от 0 до 1. Чем выше значение R 2 , тем лучше модель соответствует набору данных.

Он рассчитывается как:

R 2 = 1 – (РСС/ТСС)

куда:

  • RSS представляет собой сумму квадратов остатков
  • TSS представляет собой общую сумму квадратов

RMSE против R 2 : какую метрику следует использовать?

При оценке того, насколько хорошо модель соответствует набору данных, полезно рассчитать как RMSE, так и значение R 2 , потому что каждая метрика говорит нам о чем-то своем.

С одной стороны, RMSE сообщает нам типичное расстояние между прогнозируемым значением, сделанным моделью регрессии, и фактическим значением.

С другой стороны, R 2 говорит нам, насколько хорошо переменные-предикторы могут объяснить изменение переменной отклика.

Например, предположим, что у нас есть следующий набор данных, который показывает информацию о домах в определенном городе:

Теперь предположим, что мы хотим использовать квадратные метры, количество ванных комнат и количество спален, чтобы предсказать цену дома.

Мы можем подобрать следующую регрессионную модель:

Цена = β 0 + β 1 (кв.м) + β 2 (кол-во ванных комнат) + β 3 (кол-во спален)

Теперь предположим, что мы подгоняем эту модель, а затем вычисляем следующие показатели, чтобы оценить качество подгонки модели:

  • Среднеквадратичное отклонение : 14 342
  • R 2 : 0,856

Значение RMSE говорит нам, что среднее отклонение между прогнозируемой ценой дома, сделанной моделью, и фактической ценой дома составляет 14 342 доллара.

Значение R 2 говорит нам о том, что переменные-предикторы в модели (квадратные метры, количество ванных комнат и количество спален) способны объяснить 85,6% колебаний цен на жилье.

Определяя, являются ли эти значения «хорошими» или нет, мы можем сравнить эти показатели с альтернативными моделями.

Например, предположим, что мы подбираем другую модель регрессии, которая использует другой набор предикторов, и вычисляем следующие показатели для этой модели:

  • Среднеквадратичное отклонение : 19 355
  • R 2 : 0,765

Мы видим, что значение RMSE для этой модели больше, чем для предыдущей модели. Мы также можем видеть, что значение R 2 для этой модели меньше, чем для предыдущей модели. Это говорит нам о том, что эта модель хуже подходит к данным, чем предыдущая модель.

Резюме

Вот основные моменты, затронутые в этой статье:

  • И RMSE, и R 2 количественно определяют, насколько хорошо модель регрессии соответствует набору данных.
  • RMSE говорит нам, насколько хорошо модель регрессии может предсказать значение переменной отклика в абсолютном выражении, в то время как R 2 говорит нам, насколько хорошо модель может предсказать значение переменной отклика в процентном выражении.
  • Полезно рассчитать как RMSE, так и R 2 для данной модели, поскольку каждая метрика дает нам полезную информацию.

Дополнительные ресурсы

Введение в множественную линейную регрессию
R против R-Squared: в чем разница?
Что такое хорошее значение R-квадрата?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.