Корреляция против регрессии: в чем разница?

Корреляция против регрессии: в чем разница?

Корреляция и регрессия — два термина в статистике, которые связаны, но не совсем одно и то же.

В этом руководстве мы дадим краткое объяснение обоих терминов и объясним, чем они похожи и чем отличаются.

Что такое корреляция?

Корреляция измеряет линейную связь между двумя переменными, x и y.Он имеет значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
  • 0 указывает на отсутствие линейной корреляции между двумя переменными
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Например, предположим, что у нас есть следующий набор данных, который содержит две переменные: (1) количество часов обучения и (2) баллы за экзамен, полученные для 20 разных студентов:

Если бы мы построили диаграмму рассеяния часов обучения по сравнению с баллами за экзамен, вот как она выглядела бы:

Просто взглянув на сюжет, мы можем сказать, что студенты, которые учатся больше, как правило, получают более высокие баллы на экзаменах. Другими словами, мы можем визуально увидеть, что между двумя переменными существует положительная корреляция .

Используя калькулятор, мы можем найти, что корреляция между этими двумя переменными составляет r = 0,915.Поскольку это значение близко к 1, это подтверждает наличие сильной положительной корреляции между двумя переменными.

Что такое регрессия?

Регрессия — это метод, который мы можем использовать, чтобы понять, как изменение значений переменной x влияет на значения переменной y .

Модель регрессии использует одну переменную x в качестве предиктора и другую переменную y в качестве переменной отклика.Затем он находит уравнение со следующей формой, которая лучше всего описывает взаимосвязь между двумя переменными:

ŷ = б 0 + б 1 х

куда:

  • ŷ: Прогнозируемое значение переменной ответа
  • b 0 : y-отрезок (значение y, когда x равен нулю)
  • b 1 : Коэффициент регрессии (среднее увеличение y при увеличении x на одну единицу)
  • x: значение переменной-предиктора

Например, рассмотрим наш набор данных ранее:

Используя калькулятор линейной регрессии , мы обнаруживаем, что следующее уравнение лучше всего описывает взаимосвязь между этими двумя переменными:

Прогнозируемый балл за экзамен = 65,47 + 2,58 * (учебные часы)

Способ интерпретации этого уравнения следующий:

  • Предполагаемый балл на экзамене для студента, изучающего ноль часов, составляет 65,47 .
  • Среднее увеличение экзаменационного балла, связанное с одним дополнительным часом обучения, составляет 2,58 .

Мы также можем использовать это уравнение, чтобы спрогнозировать оценку, которую получит учащийся в зависимости от количества часов обучения.

Например, ожидается, что студент, изучающий 6 часов, получит 80,95 баллов :

Прогнозируемый балл за экзамен = 65,47 + 2,58*(6) = 80,95 .

Мы также можем изобразить это уравнение в виде линии на диаграмме рассеяния:

Корреляция против линии регрессии на диаграмме рассеяния

Мы видим, что линия регрессии достаточно хорошо «вписывается» в данные.

Напомним ранее, что корреляция между этими двумя переменными составила r = 0,915.Оказывается, мы можем возвести это значение в квадрат и получить число, называемое «r-квадрат», которое описывает общую долю дисперсии в переменной ответа, которую можно объяснить переменной-предиктором.

В этом примере r 2 = 0,915 2 = 0,837.Это означает, что 83,7% различий в экзаменационных баллах можно объяснить количеством часов обучения.

Корреляция против регрессии: сходства и различия

Вот краткое изложение сходств и различий между корреляцией и регрессией:

Сходства:

  • Оба количественно определяют направление связи между двумя переменными.
  • Оба количественно определяют силу связи между двумя переменными.

Отличия:

  • Регрессия способна показать причинно-следственную связь между двумя переменными. Корреляция этого не делает.
  • Регрессия может использовать уравнение для прогнозирования значения одной переменной на основе значения другой переменной. Корреляция этого не делает.
  • Регрессия использует уравнение для количественной оценки взаимосвязи между двумя переменными. Корреляция использует одно число.

Дополнительные ресурсы

Следующие руководства предлагают более подробные объяснения тем, затронутых в этом посте.

Введение в коэффициент корреляции Пирсона
Введение в простую линейную регрессию
Простой калькулятор линейной регрессии
Что такое хорошее значение R-квадрата?

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.