Смещение пропущенной переменной возникает, когда релевантная независимая переменная не включена в регрессионную модель , что может привести к смещению коэффициента одной или нескольких независимых переменных в модели.
Пропущенная переменная часто не учитывается в регрессионной модели по одной из двух причин:
1. Данных по переменной просто нет.
2. Влияние объясняющей переменной на переменную отклика неизвестно.
Чтобы пропущенная переменная действительно смещала коэффициенты в модели, должны быть выполнены следующие два требования:
1. Пропущенная переменная должна быть коррелирована с одной или несколькими независимыми переменными в модели.
2. Пропущенная переменная должна быть коррелирована с переменной отклика в модели.
Эффекты пропущенной переменной смещения
Предположим, у нас есть две независимые переменные, A и B, и одна переменная отклика, Y. Предположим, что мы подгоняем простую модель линейной регрессии с A в качестве единственной независимой переменной и оставляем B вне модели.
Если B коррелирует с A и коррелирует с Y, то это приведет к смещению оценки коэффициента A. На следующей диаграмме показано, как оценка коэффициента A будет смещена в зависимости от характера связи с B:
Пример: пропущенная переменная смещения
Предположим, мы хотим изучить влияние квадратных метров на цену дома, поэтому мы подгоняем следующую простую модель линейной регрессии:
Цена дома = B 0 + B 1 (квадратные метры)
Предположим, мы находим оценочную модель:
Цена дома = 40 203,91 + 118,31 (квадратный метр)
То, как мы интерпретируем коэффициент для площади в квадратных футах, заключается в том, что каждая дополнительная единица увеличения площади в квадратных футах связана с увеличением цены дома в среднем на 118,31 доллара.
Однако предположим, что мы опустим объясняющую переменную возраста , которая, как оказалось, сильно отрицательно коррелирует с площадью жилья и сильно отрицательно коррелирует с ценой на жилье. Эта переменная должна быть в модели, но ее нет. Таким образом, оценка коэффициента для площади в квадратных футах, вероятно, будет необъективной.
Основываясь на том факте, что возраст отрицательно коррелирует как с объясняющей переменной, так и с переменной отклика в модели, мы ожидаем, что оценка коэффициента для площади в квадратных футах будет смещена положительно:
Предположим, мы находим данные о возрасте дома, а затем включаем их в модель. Затем модель становится:
Цена дома = B 0 + B 1 (квадратные метры) + B 2 (возраст)
Предположим, мы находим оценочную модель:
Цена дома = 123 426,20 + 81,06 (квадратный метр) – 1 291,04 (возраст)
Обратите внимание, что оценка коэффициента для площади в квадратных футах значительно снизилась, что означает, что в предыдущей модели она была смещена в положительную сторону.
То, как мы интерпретируем коэффициент площади в квадратных футах в этой модели, состоит в том, что каждая дополнительная единица увеличения площади в квадратных футах связана со средним увеличением цены дома на 81,06 доллара при условии, что возраст остается постоянным.
Что делать с пропущенной переменной смещения
К сожалению, смещение опущенной переменной часто встречается в реальном мире, потому что обычно есть некоторые переменные, которые должны быть включены в модель регрессии, но не включены, потому что данные для них недоступны или связь между ними и переменной отклика неизвестна.
Если возможно, вы должны попытаться включить все релевантные независимые переменные в регрессионную модель, чтобы вы могли понять истинную связь между независимыми переменными и переменной отклика.
Исключение из модели релевантных объясняющих переменных может существенно повлиять на интерпретацию модели, как мы видели в предыдущем примере с ценами на жилье.
Дополнительные ресурсы
Что такое скрытая переменная?
Что такое смешанная переменная?