Что такое хорошее значение R-квадрата?


R-квадрат — это мера того, насколько хорошо модель линейной регрессии «соответствует» набору данных. Также обычно называемый коэффициентом детерминации , R-квадрат представляет собой долю дисперсии в переменной отклика, которая может быть объяснена предикторной переменной.

Значение для R-квадрата может варьироваться от 0 до 1. Значение 0 указывает, что переменная отклика вообще не может быть объяснена предикторной переменной. Значение 1 указывает, что переменная отклика может быть полностью объяснена без ошибок с помощью переменной-предиктора.

На практике вы, скорее всего, никогда не увидите значения 0 или 1 для R-квадрата. Вместо этого вы, вероятно, столкнетесь с некоторым значением между 0 и 1.

Например, предположим, что у вас есть набор данных, содержащий численность населения и количество цветочных магазинов в 30 разных городах. Вы подгоняете простую модель линейной регрессии к набору данных, используя размер популяции в качестве переменной-предиктора и цветочные магазины в качестве переменной-ответа. В выводе результатов регрессии вы видите, что R 2 = 0,2. Это указывает на то, что 20% дисперсии количества цветочных магазинов можно объяснить численностью населения.

Это приводит к важному вопросу: является ли это «хорошим» значением для R-квадрата?

Ответ на этот вопрос зависит от вашей цели для регрессионной модели. А именно:

1. Заинтересованы ли вы в объяснении взаимосвязи между предиктором(ами) и переменной отклика?

ИЛИ ЖЕ

2. Заинтересованы ли вы в прогнозировании переменной отклика?

В зависимости от цели ответ на вопрос «Каково хорошее значение R-квадрата? » будет другим.

Объяснение взаимосвязи между предиктором(ами) и переменной отклика

Если ваша основная цель для вашей регрессионной модели состоит в том, чтобы объяснить взаимосвязь между предиктором (предикторами) и переменной отклика, R-квадрат в основном не имеет значения.

Например, предположим, что в приведенном выше примере регрессии вы видите, что коэффициент для размера популяции предикторов равен 0,005 и что он статистически значим. Это означает, что увеличение численности населения на единицу связано со средним увеличением на 0,005 количества цветочных магазинов в конкретном городе. Кроме того, численность населения является статистически значимым предиктором количества цветочных магазинов в городе.

Независимо от того, равно ли значение R-квадрата для этой регрессионной модели 0,2 или 0,9, эта интерпретация не меняется. Поскольку вас интересует просто отношение между численностью населения и количеством цветочных магазинов, вам не нужно слишком беспокоиться о значении R-квадрата модели.

Прогнозирование переменной отклика

Если ваша основная цель состоит в том, чтобы точно предсказать значение переменной отклика с помощью переменной-предиктора, то R-квадрат важен.

В общем, чем больше значение R-квадрата, тем точнее переменные-предикторы способны предсказать значение переменной отклика.

Насколько высоким должно быть значение R-квадрата, зависит от того, насколько точным вы должны быть. Например, в научных исследованиях может потребоваться, чтобы R-квадрат был выше 0,95, чтобы регрессионная модель считалась надежной. В других областях R-квадрат всего 0,3 может быть достаточным, если в наборе данных существует крайняя изменчивость.

Чтобы выяснить, что считается «хорошим» значением R-квадрата, вам нужно будет изучить, какие значения R-квадрата общеприняты в вашей конкретной области исследования. Если вы проводите регрессионный анализ для клиента или компании, вы можете спросить их, какое значение R-квадрата считается приемлемым.

Интервалы прогнозирования

Интервал прогнозирования указывает диапазон, в который может попасть новое наблюдение, на основе значений переменных-предикторов. Более узкие интервалы прогнозирования указывают на то, что переменные-предикторы могут предсказывать переменную отклика с большей точностью.

Часто интервал прогнозирования может быть более полезным, чем значение R-квадрата, потому что он дает вам точный диапазон значений, в который может попасть новое наблюдение. Это особенно полезно, если вашей основной целью регрессии является прогнозирование новых значений переменной отклика.

Например, предположим, что численность населения в 40 000 человек дает интервал прогнозирования от 30 до 35 цветочных магазинов в определенном городе. Это может считаться или не считаться приемлемым диапазоном значений, в зависимости от того, для чего используется регрессионная модель.

Вывод

В общем, чем больше значение R-квадрата, тем точнее переменные-предикторы способны предсказать значение переменной отклика.

Насколько высоким должно быть значение R-квадрата, чтобы считаться «хорошим», зависит от области. Некоторые поля требуют более высокой точности, чем другие.

Чтобы узнать, что считается «хорошим» значением R-квадрата, рассмотрите, что общепринято в той области, в которой вы работаете, спросите у кого-нибудь, кто разбирается в конкретной предметной области, или спросите клиента/компанию, в которой вы проводите регрессионный анализ. за то, что они считают приемлемым.

Если вы заинтересованы в объяснении взаимосвязи между предиктором и переменной отклика, R-квадрат в значительной степени не имеет значения, поскольку он не влияет на интерпретацию регрессионной модели.

Если вы заинтересованы в прогнозировании переменной отклика, интервалы прогнозирования обычно более полезны, чем значения R-квадрата.

Дальнейшее чтение:

Коэффициент корреляции Пирсона
Введение в простую линейную регрессию

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.