R-квадрат — это мера того, насколько хорошо модель линейной регрессии «соответствует» набору данных. Также обычно называемый коэффициентом детерминации , R-квадрат представляет собой долю дисперсии в переменной отклика, которая может быть объяснена предикторной переменной.
Значение для R-квадрата может варьироваться от 0 до 1. Значение 0 указывает, что переменная отклика вообще не может быть объяснена предикторной переменной. Значение 1 указывает, что переменная отклика может быть полностью объяснена без ошибок с помощью переменной-предиктора.
На практике вы, скорее всего, никогда не увидите значения 0 или 1 для R-квадрата. Вместо этого вы, вероятно, столкнетесь с некоторым значением между 0 и 1.
Например, предположим, что у вас есть набор данных, содержащий численность населения и количество цветочных магазинов в 30 разных городах. Вы подгоняете простую модель линейной регрессии к набору данных, используя размер популяции в качестве переменной-предиктора и цветочные магазины в качестве переменной-ответа. В выводе результатов регрессии вы видите, что R 2 = 0,2. Это указывает на то, что 20% дисперсии количества цветочных магазинов можно объяснить численностью населения.
Это приводит к важному вопросу: является ли это «хорошим» значением для R-квадрата?
Ответ на этот вопрос зависит от вашей цели для регрессионной модели. А именно:
1. Заинтересованы ли вы в объяснении взаимосвязи между предиктором(ами) и переменной отклика?
ИЛИ ЖЕ
2. Заинтересованы ли вы в прогнозировании переменной отклика?
В зависимости от цели ответ на вопрос «Каково хорошее значение R-квадрата? » будет другим.
Объяснение взаимосвязи между предиктором(ами) и переменной отклика
Если ваша основная цель для вашей регрессионной модели состоит в том, чтобы объяснить взаимосвязь между предиктором (предикторами) и переменной отклика, R-квадрат в основном не имеет значения.
Например, предположим, что в приведенном выше примере регрессии вы видите, что коэффициент для размера популяции предикторов равен 0,005 и что он статистически значим. Это означает, что увеличение численности населения на единицу связано со средним увеличением на 0,005 количества цветочных магазинов в конкретном городе. Кроме того, численность населения является статистически значимым предиктором количества цветочных магазинов в городе.
Независимо от того, равно ли значение R-квадрата для этой регрессионной модели 0,2 или 0,9, эта интерпретация не меняется. Поскольку вас интересует просто отношение между численностью населения и количеством цветочных магазинов, вам не нужно слишком беспокоиться о значении R-квадрата модели.
Прогнозирование переменной отклика
Если ваша основная цель состоит в том, чтобы точно предсказать значение переменной отклика с помощью переменной-предиктора, то R-квадрат важен.
В общем, чем больше значение R-квадрата, тем точнее переменные-предикторы способны предсказать значение переменной отклика.
Насколько высоким должно быть значение R-квадрата, зависит от того, насколько точным вы должны быть. Например, в научных исследованиях может потребоваться, чтобы R-квадрат был выше 0,95, чтобы регрессионная модель считалась надежной. В других областях R-квадрат всего 0,3 может быть достаточным, если в наборе данных существует крайняя изменчивость.
Чтобы выяснить, что считается «хорошим» значением R-квадрата, вам нужно будет изучить, какие значения R-квадрата общеприняты в вашей конкретной области исследования. Если вы проводите регрессионный анализ для клиента или компании, вы можете спросить их, какое значение R-квадрата считается приемлемым.
Интервалы прогнозирования
Интервал прогнозирования указывает диапазон, в который может попасть новое наблюдение, на основе значений переменных-предикторов. Более узкие интервалы прогнозирования указывают на то, что переменные-предикторы могут предсказывать переменную отклика с большей точностью.
Часто интервал прогнозирования может быть более полезным, чем значение R-квадрата, потому что он дает вам точный диапазон значений, в который может попасть новое наблюдение. Это особенно полезно, если вашей основной целью регрессии является прогнозирование новых значений переменной отклика.
Например, предположим, что численность населения в 40 000 человек дает интервал прогнозирования от 30 до 35 цветочных магазинов в определенном городе. Это может считаться или не считаться приемлемым диапазоном значений, в зависимости от того, для чего используется регрессионная модель.
Вывод
В общем, чем больше значение R-квадрата, тем точнее переменные-предикторы способны предсказать значение переменной отклика.
Насколько высоким должно быть значение R-квадрата, чтобы считаться «хорошим», зависит от области. Некоторые поля требуют более высокой точности, чем другие.
Чтобы узнать, что считается «хорошим» значением R-квадрата, рассмотрите, что общепринято в той области, в которой вы работаете, спросите у кого-нибудь, кто разбирается в конкретной предметной области, или спросите клиента/компанию, в которой вы проводите регрессионный анализ. за то, что они считают приемлемым.
Если вы заинтересованы в объяснении взаимосвязи между предиктором и переменной отклика, R-квадрат в значительной степени не имеет значения, поскольку он не влияет на интерпретацию регрессионной модели.
Если вы заинтересованы в прогнозировании переменной отклика, интервалы прогнозирования обычно более полезны, чем значения R-квадрата.
Дальнейшее чтение:
Коэффициент корреляции Пирсона
Введение в простую линейную регрессию