Смещение пропущенной переменной

редактировать

В статистика, систематическая ошибка пропущенной переменной (OVB ) возникает, когда статистическая модель не учитывает одну или несколько релевантных переменных. Смещение приводит к тому, что модель объясняет влияние отсутствующих переменных на те, которые были включены.

Более конкретно, OVB - это смещение, которое появляется в оценках параметров в регрессионном анализе, когда предполагаемая спецификация неверен в том смысле, что в нем не указана независимая переменная, которая является определяющим фактором зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными.

Содержание

1 В линейной регрессии
- 1.1 Интуиция
- 1.2 Детальный анализ
2 Эффект в обычном методе наименьших квадратов
3 См. Также
4 Ссылки

В линейной регрессии

Интуиция

Предположим, что истинная причинно-следственная связь задается следующим образом:

y = a + bx + cz + u {\ displaystyle y = a + bx + cz + u}

y = a + bx + cz + u

с параметрами a, b, c, зависимой переменной y, независимыми переменными x и z и членом ошибки u. Мы хотим знать влияние самого x на y (то есть мы хотим получить оценку b).

Для существования смещения пропущенной переменной в линейной регрессии :

должны выполняться два условия: пропущенная переменная должна быть определителем зависимой переменной (т. Е. Ее истинный коэффициент регрессии не должен быть нулевым) ; и
пропущенная переменная должна быть коррелирована с независимой переменной, указанной в регрессии (т. е. cov (z, x) не должно равняться нулю).

Предположим, мы опускаем z из регрессии, и предположим, что отношение между x и z задается формулой

z = d + fx + e {\ displaystyle z = d + fx + e}

z = d + fx + e

с параметрами d, f и членом ошибки e. Подстановка второго уравнения в первое дает

y = (a + c d) + (b + c f) x + (u + c e). {\ displaystyle y = (a + cd) + (b + cf) x + (u + ce).}

y = ( a + cd) + (b + cf) x + (u + ce).

Если регрессия y проводится только по x, это последнее уравнение является оценочным, а коэффициент регрессии на x фактически является оценкой (b + cf), дающей не просто оценку желаемого прямого воздействия x на y (которое есть b), но скорее его суммы с косвенным эффектом (влияние f x на z умноженное на влияние c z на y). Таким образом, исключив переменную z из регрессии, мы оценили полную производную y по x, а не его частную производную по x. Они различаются, если и c, и f не равны нулю.

Направление и степень смещения содержатся в cf, поскольку искомый эффект равен b, но регрессия оценивает b + cf. Степень смещения - это абсолютное значение cf, а направление смещения - вверх (в сторону более положительного или менее отрицательного значения), если cf>0 (если направление корреляции между y и z такое же, как и между x и z), в противном случае - вниз.

Подробный анализ

В качестве примера рассмотрим линейную модель вида

yi = xi β + zi δ + ui, i = 1,…, n {\ displaystyle y_ {i} = x_ {i} \ beta + z_ {i} \ delta + u_ {i}, \ qquad i = 1, \ dots, n}

y_ {i} = x_ {i} \ beta + z_ {i} \ delta + u_ {i}, \ qquad i = 1, \ dots, n

, где

xi- это 1 × p вектор-строка значений p независимых переменных, наблюдаемых в момент времени i или для i-го участника исследования;
β - вектор-столбец ap × 1 ненаблюдаемых параметров (коэффициенты отклика зависимой переменной для каждой из p независимых переменных в x i), подлежащих оценке;
ziявляется скаляром и представляет собой значение другой независимой переменной, которая наблюдается в момент времени i или для участника исследования i;
δ - это скаляр и ненаблюдаемый параметр (коэффициент отклика зависимой переменной на z i), который необходимо оценить;
ui- ненаблюдаемый член ошибки, возникающий во время i или для i-го участника исследования; это ненаблюдаемая реализация случайной величины, имеющей ожидаемое значение 0 (условно x i и z i);
yi- это наблюдение зависимой переменная в момент времени i или для участника исследования i.

Мы собираем наблюдения всех переменных с индексами i = 1,..., n и складываем их друг под другом, чтобы получить матрицу X и векторы Y, Z и U:

X = [x 1 ⋮ xn] ∈ R n × p, {\ displaystyle X = \ left [{\ begin {array} {c} x_ {1} \\\ vdots \\ x_ {n} \ end {array}} \ right] \ in \ mathbb {R} ^ {n \ times p},}

X = \ left [{\ begin {array} {c} x_ {1} \\\ vdots \\ x_ {n } \ end {array}} \ right] \ in {\ mathbb {R}} ^ {{n \ times p}},

Y знак равно [y 1 ⋮ yn], Z = [z 1 ⋮ zn], U = [u 1 ⋮ un] ∈ R n × 1. {\ displaystyle Y = \ left [{\ begin {array} {c} y_ { 1} \\\ vdots \\ y_ {n} \ end {array}} \ right], \ quad Z = \ left [{\ begin {array} {c} z_ {1} \\\ vdots \\ z_ { n} \ end {array}} \ right], \ quad U = \ left [{\ begin {array} {c} u_ {1} \\\ vdots \\ u_ {n} \ end {array}} \ right ] \ in \ mathbb {R} ^ {n \ times 1}.}

Y = \ left [{\ begin {array} {c} y_ {1} \\\ vdots \\ y_ {n} \ end {array}} \ right], \ quad Z = \ left [{\ begin {array} {c} z_ {1} \\\ vdots \\ z_ {n} \ end {array}} \ right], \ quad U = \ left [ {\ begin {array} {c} u_ {1} \\\ vdots \\ u_ {n} \ end {array}} \ right] \ in {\ mathbb {R}} ^ {{n \ times 1}}.

Если независимая переменная z не включена в регрессию, то оценочные значения параметра ответа Остальные независимые переменные будут вычислены обычным методом наименьших квадратов,

β ^ = (X ′ X) - 1 X ′ Y {\ displaystyle {\ widehat {\ beta}} = (X'X) ^ {- 1} X'Y \,}

{\widehat {\beta }}=(X'X)^{-1}X'Y\,

(где «штрих» обозначает транспонирование матрицы, а верхний индекс -1 означает инверсия матрицы ).

Замена Y на основе предполагаемой линейной модели,

β ^ = (X ′ X) - 1 X ′ (X β + Z δ + U) = (X ′ X) - 1 X ′ X β + (X ′ X) - 1 X ′ Z δ + (X ′ X) - 1 X ′ U = β + (X ′ X) - 1 X ′ Z δ + (X ′ X) - 1 X ′ U. {\ displaystyle {\ begin {align} {\ widehat {\ beta}} = (X'X) ^ {- 1} X '(X \ beta + Z \ delta + U) \\ = (X'X) ^ {- 1} X'X \ beta + (X'X) ^ {- 1} X'Z \ delta + (X'X) ^ {- 1} X'U \\ = \ beta + (X 'X) ^ {- 1} X'Z \ delta + (X'X) ^ {- 1} X'U. \ End {align}}}

{\begin{aligned}{\widehat {\beta }}=(X'X)^{-1}X'(X\beta +Z\delta +U)\\=(X'X)^{-1}X'X\beta +(X'X)^{-1}X'Z\delta +(X'X)^{-1}X'U\\=\beta +(X'X)^{-1}X'Z\delta +(X'X)^{-1}X'U.\end{aligned}}

Если брать ожидания, вклад последнего члена равен нулю ; это следует из предположения, что U не коррелирован с регрессорами X. При упрощении остальных членов:

E [β ^ ∣ X] = β + (X ′ X) - 1 E [X ′ Z ∣ X] δ = β + смещение. {\ displaystyle {\ begin {align} E [{\ widehat {\ beta}} \ mid X] = \ beta + (X'X) ^ {- 1} E [X'Z \ mid X] \ delta \ \ = \ beta + {\ text {bias}}. \ end {align}}}

{\begin{aligned}E[{\widehat {\beta }}\mid X]=\beta +(X'X)^{-1}E[X'Z\mid X]\delta \\=\beta +{\text{bias}}.\end{aligned}}

Второй член после знака равенства - это смещение пропущенной переменной в этом случае, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрицу X (то есть, если X′Z не равен вектору нулей). Обратите внимание, что смещение равно взвешенной части z i, что «объясняется» x i.

Эффектом в обычных методах наименьших квадратов

Теорема Гаусса – Маркова утверждает, что регрессионные модели, которые соответствуют допущениям классической модели линейной регрессии, предоставляют наиболее эффективные, линейные и несмещенные оценки. В обычном методе наименьших квадратов соответствующее предположение классической модели линейной регрессии состоит в том, что член ошибки не коррелирует с регрессорами.

Наличие систематической ошибки пропущенной переменной нарушает это конкретное предположение. Нарушение приводит к смещению оценки OLS и несогласованности. Направление смещения зависит от оценок, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что МНК-оценка коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, приняв математическое ожидание параметра, как показано в предыдущем разделе.

См. Также

Смешивающая переменная

Ссылки

Баррето; Хауленд (2006). «Пропущенная переменная смещения». Вводная эконометрика: использование моделирования Монте-Карло с Microsoft Excel. Издательство Кембриджского университета.
Кларк, Кевин А. (2005). «Скрытая угроза: пропущенные переменные предубеждения в эконометрических исследованиях». Управление конфликтами и наука о мире. 22 (4): 341–352. doi : 10.1080 / 07388940500339183.
Грин, В. Х. (1993). Эконометрический анализ (2-е изд.). Макмиллан. стр. 245–246.
Вулдридж, Джеффри М. (2009). «Пропущенная переменная смещения: простой случай». Вводная эконометрика: современный подход. Мейсон, Огайо: Обучение Cengage. С. 89–93. ISBN 9780324660548.