Как рассчитать SST, SSR и SSE в Excel

Как рассчитать SST, SSR и SSE в Excel

Мы часто используем три разных значения суммы квадратов , чтобы измерить, насколько хорошо линия регрессии действительно соответствует набору данных:

1. Общая сумма квадратов (SST) – сумма квадратов разностей между отдельными точками данных (y i ) и средним значением переменной ответа ( y ).

  • SST = Σ(y i – y ) 2

2. Регрессия суммы квадратов (SSR) – сумма квадратов разностей между прогнозируемыми точками данных (ŷ i ) и средним значением переменной ответа ( y ).

  • SSR = Σ(ŷ i – y ) 2

3. Ошибка суммы квадратов (SSE) – сумма квадратов разностей между предсказанными точками данных (ŷ i ) и наблюдаемыми точками данных (y i ).

  • SSE = Σ(ŷ i – y i ) 2

В следующем пошаговом примере показано, как рассчитать каждую из этих метрик для заданной модели регрессии в Excel.

Шаг 1: Создайте данные

Во-первых, давайте создадим набор данных, который содержит количество часов обучения и экзаменационные баллы, полученные для 20 разных учеников в определенной школе:

Шаг 2: Подгонка регрессионной модели

В верхней ленте Excel перейдите на вкладку « Данные » и нажмите « Анализ данных».Если вы не видите эту опцию, вам необходимо сначала установить бесплатный пакет инструментов анализа .

Опция анализа данных в Excel

Как только вы нажмете « Анализ данных», появится новое окно. Выберите «Регрессия» и нажмите «ОК».

В появившемся новом окне заполните следующую информацию:

Как только вы нажмете OK , появится результат регрессии.

Шаг 3: проанализируйте результат

Три показателя суммы квадратов — SST, SSR и SSE — можно увидеть в столбце SS таблицы ANOVA :

SST, SSR и SSE в Excel

Получаются следующие показатели:

  • Общая сумма квадратов (SST): 1248,55
  • Сумма квадратов регрессии (SSR): 917,4751
  • Ошибка суммы квадратов (SSE): 331,0749

Мы можем убедиться, что SST = SSR + SSE:

  • SST = SSR + SSE
  • 1248,55 = 917,4751 + 331,0749

Мы также можем вручную рассчитать R-квадрат регрессионной модели:

  • R-квадрат = SSR / SST
  • R-квадрат = 917,4751/1248,55
  • R-квадрат = 0,7348

Это говорит нам о том, что 73,48% различий в экзаменационных баллах можно объяснить количеством часов обучения.

Дополнительные ресурсы

Как выполнить простую линейную регрессию в Excel
Как выполнить множественную линейную регрессию в Excel
Как выполнить полиномиальную регрессию в Excel
Как выполнить экспоненциальную регрессию в Excel

Замечательно! Вы успешно подписались.
Добро пожаловать обратно! Вы успешно вошли
Вы успешно подписались на кодкамп.
Срок действия вашей ссылки истек.
Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.
Успех! Ваша платежная информация обновлена.
Ваша платежная информация не была обновлена.