Пропущенная переменная смещения: определение и примеры


Смещение пропущенной переменной возникает, когда релевантная независимая переменная не включена в регрессионную модель , что может привести к смещению коэффициента одной или нескольких независимых переменных в модели.

Пропущенная переменная часто не учитывается в регрессионной модели по одной из двух причин:

1. Данных по переменной просто нет.

2. Влияние объясняющей переменной на переменную отклика неизвестно.

Чтобы пропущенная переменная действительно смещала коэффициенты в модели, должны быть выполнены следующие два требования:

1. Пропущенная переменная должна быть коррелирована с одной или несколькими независимыми переменными в модели.

2. Пропущенная переменная должна быть коррелирована с переменной отклика в модели.

Эффекты пропущенной переменной смещения

Предположим, у нас есть две независимые переменные, A и B, и одна переменная отклика, Y. Предположим, что мы подгоняем простую модель линейной регрессии с A в качестве единственной независимой переменной и оставляем B вне модели.

Если B коррелирует с A и коррелирует с Y, то это приведет к смещению оценки коэффициента A. На следующей диаграмме показано, как оценка коэффициента A будет смещена в зависимости от характера связи с B:

Пример: пропущенная переменная смещения

Предположим, мы хотим изучить влияние квадратных метров на цену дома, поэтому мы подгоняем следующую простую модель линейной регрессии:

Цена дома = B 0 + B 1 (квадратные метры)

Предположим, мы находим оценочную модель:

Цена дома = 40 203,91 + 118,31 (квадратный метр)

То, как мы интерпретируем коэффициент для площади в квадратных футах, заключается в том, что каждая дополнительная единица увеличения площади в квадратных футах связана с увеличением цены дома в среднем на 118,31 доллара.

Однако предположим, что мы опустим объясняющую переменную возраста , которая, как оказалось, сильно отрицательно коррелирует с площадью жилья и сильно отрицательно коррелирует с ценой на жилье. Эта переменная должна быть в модели, но ее нет. Таким образом, оценка коэффициента для площади в квадратных футах, вероятно, будет необъективной.

Основываясь на том факте, что возраст отрицательно коррелирует как с объясняющей переменной, так и с переменной отклика в модели, мы ожидаем, что оценка коэффициента для площади в квадратных футах будет смещена положительно:

Предположим, мы находим данные о возрасте дома, а затем включаем их в модель. Затем модель становится:

Цена дома = B 0 + B 1 (квадратные метры) + B 2 (возраст)

Предположим, мы находим оценочную модель:

Цена дома = 123 426,20 + 81,06 (квадратный метр) – 1 291,04 (возраст)

Обратите внимание, что оценка коэффициента для площади в квадратных футах значительно снизилась, что означает, что в предыдущей модели она была смещена в положительную сторону.

То, как мы интерпретируем коэффициент площади в квадратных футах в этой модели, состоит в том, что каждая дополнительная единица увеличения площади в квадратных футах связана со средним увеличением цены дома на 81,06 доллара при условии, что возраст остается постоянным.

Что делать с пропущенной переменной смещения

К сожалению, смещение опущенной переменной часто встречается в реальном мире, потому что обычно есть некоторые переменные, которые должны быть включены в модель регрессии, но не включены, потому что данные для них недоступны или связь между ними и переменной отклика неизвестна.

Если возможно, вы должны попытаться включить все релевантные независимые переменные в регрессионную модель, чтобы вы могли понять истинную связь между независимыми переменными и переменной отклика.

Исключение из модели релевантных объясняющих переменных может существенно повлиять на интерпретацию модели, как мы видели в предыдущем примере с ценами на жилье.

Дополнительные ресурсы

Что такое скрытая переменная?
Что такое смешанная переменная?