Что такое смещение агрегации? (Пояснение и пример)

Смещение агрегирования возникает, когда ошибочно предполагается, что тенденции, наблюдаемые в агрегированных данных, также применимы к отдельным точкам данных.

Проще всего понять этот тип предвзятости на простом примере.

Пример: смещение агрегации

Предположим, исследователи хотят понять взаимосвязь между средним количеством лет образования и средним доходом домохозяйства в определенном штате. Они получают агрегированные данные по 4 разным городам штата и рассчитывают корреляцию между средним уровнем образования и средним доходом домохозяйства.

Получается, что корреляция между средним количеством лет образования и средним доходом домохозяйства составляет 0,9632.Это очень положительный коэффициент корреляции.

Исследователи даже создают диаграмму рассеяния , чтобы визуализировать взаимосвязь между средним количеством лет образования и средним доходом домохозяйства:

На самом деле, не рассматривая индивидуальные данные, они могут опубликовать отчет, в котором утверждается, что большее количество лет образования сильно положительно коррелирует с доходом домохозяйства.

Однако предположим, что год спустя появляется новый исследователь и получает данные по отдельным домохозяйствам в том же наборе городов. Предположим, она создает следующую диаграмму рассеяния данных:

Она вычисляет корреляцию между двумя переменными и обнаруживает, что на самом деле она составляет всего 0,1788 — все еще положительная корреляция, но не такая сильная, как корреляция , обнаруженная предыдущими исследователями.

Оказывается, когда данные были агрегированы, они охватили истинную тенденцию между образованием и доходом, которая имела место на индивидуальном уровне.

На самом деле, когда мы смотрим на диаграмму рассеяния по городам, связь между образованием и доходом на самом деле отрицательная!

Пример систематической ошибки агрегирования в статистике

Эффекты смещения агрегации

Смещение агрегирования довольно часто встречается в исследованиях просто потому, что часто ошибочно предполагается, что тенденции, проявляющиеся на агрегированном уровне, должны также проявляться на индивидуальном уровне. К сожалению, это не всегда так, как показал предыдущий пример.

Предвзятость агрегирования может привести к тому, что результаты исследования сделают неверные выводы и могут ввести в заблуждение. Этот тип предвзятости особенно вреден, когда он касается корреляций между переменными.

Даже если корреляция между агрегированными данными двух переменных положительна, основная корреляция между двумя переменными на уровне отдельного наблюдения может фактически быть:

Отрицательная корреляция
Нет корреляции
Положительная корреляция

Способ избежать этого типа систематической ошибки заключается в проведении исследований с использованием отдельных точек данных, а не агрегированных точек данных, чтобы можно было обнаружить истинную взаимосвязь между двумя переменными.

Что такое смещение агрегации? (Пояснение и пример)

Пример: смещение агрегации

Эффекты смещения агрегации

Редакция Кодкампа