Как выполнить линейную регрессию в Google Sheets

Линейная регрессия — это метод, который можно использовать для количественной оценки взаимосвязи между одной или несколькими независимыми переменными и переменной отклика .

Мы используем простую линейную регрессию, когда есть только одна независимая переменная, и множественную линейную регрессию, когда есть две или более объясняющих переменных.

Можно выполнить оба типа регрессии с помощью функции ЛИНЕЙН() в Google Таблицах, которая использует следующий синтаксис:

ЛИНЕЙН(известные_данные_y, известные_данные_x, вычислить_b, подробно)

куда:

known_data_y: Массив значений ответа
known_data_x: массив пояснительных значений
calculate_b: указывает, следует ли вычислять точку пересечения по оси y. По умолчанию это TRUE, и мы оставляем его таким для линейной регрессии.
verbose: указывает, следует ли предоставлять дополнительную статистику регрессии помимо наклона и точки пересечения. По умолчанию это ЛОЖЬ, но в наших примерах мы укажем, что это ИСТИНА.

В следующих примерах показано, как использовать эту функцию на практике.

Простая линейная регрессия в Google Sheets

Предположим, нас интересует взаимосвязь между количеством часов обучения и экзаменационным баллом. исследования для сдачи экзамена и экзаменационную оценку, которую они получают.

Чтобы исследовать эту взаимосвязь, мы можем выполнить простую линейную регрессию, используя часы обучения в качестве независимой переменной и экзаменационный балл в качестве переменной ответа.

На следующем снимке экрана показано, как выполнить простую линейную регрессию, используя набор данных из 20 учащихся со следующей формулой, используемой в ячейке D2:

= ЛИНЕЙН ( B2:B21 , A2:A21 , ИСТИНА , ИСТИНА )

На следующем снимке экрана представлены аннотации для вывода:

Вот как интерпретировать наиболее релевантные числа в выводе:

R-квадрат: 0,72725.Это известно как коэффициент детерминации. Это доля дисперсии переменной отклика, которая может быть объяснена объясняющей переменной. В этом примере примерно 72,73 % различий в баллах за экзамены можно объяснить количеством часов обучения.

Стандартная ошибка: 5.2805.Это среднее расстояние, на которое наблюдаемые значения отходят от линии регрессии. В этом примере наблюдаемые значения отклоняются от линии регрессии в среднем на 5,2805 единиц.

Коэффициенты: коэффициенты дают нам числа, необходимые для написания оценочного уравнения регрессии. В этом примере оцененное уравнение регрессии:

Экзаменационный балл = 67,16 + 5,2503*(часов)

Мы интерпретируем коэффициент для часов как означающий, что за каждый дополнительный час обучения ожидается увеличение экзаменационного балла в среднем на 5,2503.Мы интерпретируем коэффициент для перехвата как означающий, что ожидаемая оценка экзамена для студента, который изучает ноль часов, составляет 67,16 .

Мы можем использовать это оценочное уравнение регрессии для расчета ожидаемого экзаменационного балла для учащегося на основе количества часов, которые он изучает. Например, ожидается, что студент, который занимается три часа, получит на экзамене 82,91 балла:

Экзаменационный балл = 67,16 + 5,2503*(3) = 82,91.

Множественная линейная регрессия в Google Sheets

Предположим, мы хотим знать, влияет ли количество часов, потраченных на учебу, и количество сданных подготовительных экзаменов на балл, который студент получает на определенном вступительном экзамене в колледж.

Чтобы исследовать эту взаимосвязь, мы можем выполнить множественную линейную регрессию, используя часы обучения и подготовительные экзамены, взятые в качестве объясняющих переменных, и экзаменационный балл в качестве переменной ответа.

На следующем снимке экрана показано, как выполнить множественную линейную регрессию, используя набор данных из 20 учащихся со следующей формулой, используемой в ячейке E2:

= ЛИНЕЙН ( C2:C21 , A2:B21 , ИСТИНА , ИСТИНА )

Множественная линейная регрессия в Google Sheets

Вот как интерпретировать наиболее релевантные числа в выводе:

R-квадрат: 0,734.Это известно как коэффициент детерминации. Это доля дисперсии переменной отклика, которая может быть объяснена объясняющими переменными. В этом примере 73,4% вариаций в экзаменационных баллах можно объяснить количеством часов обучения и количеством сданных подготовительных экзаменов.

Стандартная ошибка: 5,3657.Это среднее расстояние, на которое наблюдаемые значения отходят от линии регрессии. В этом примере наблюдаемые значения отклоняются от линии регрессии в среднем на 5,3657 единиц.

Расчетное уравнение регрессии: мы можем использовать коэффициенты из выходных данных модели, чтобы создать следующее расчетное уравнение регрессии:

Экзаменационный балл = 67,67 + 5,56*(часы) – 0,60*(подготовительные экзамены)

Мы можем использовать это оценочное уравнение регрессии, чтобы рассчитать ожидаемый балл экзамена для учащегося на основе количества часов, которые он изучает, и количества подготовительных экзаменов, которые он сдает. Например, студент, который занимается три часа и сдает один подготовительный экзамен, должен получить 83,75 балла:

Экзаменационный балл = 67,67 + 5,56*(3) – 0,60*(1) = 83,75

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в Google Таблицах:

Как выполнить полиномиальную регрессию в Google Sheets
Как создать остаточный график в Google Sheets

Как выполнить линейную регрессию в Google Sheets

Простая линейная регрессия в Google Sheets

Множественная линейная регрессия в Google Sheets

Дополнительные ресурсы

Редакция Кодкампа