В статистика, систематическая ошибка пропущенной переменной (OVB ) возникает, когда статистическая модель не учитывает одну или несколько релевантных переменных. Смещение приводит к тому, что модель объясняет влияние отсутствующих переменных на те, которые были включены.
Более конкретно, OVB - это смещение, которое появляется в оценках параметров в регрессионном анализе, когда предполагаемая спецификация неверен в том смысле, что в нем не указана независимая переменная, которая является определяющим фактором зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными.
Предположим, что истинная причинно-следственная связь задается следующим образом:
с параметрами a, b, c, зависимой переменной y, независимыми переменными x и z и членом ошибки u. Мы хотим знать влияние самого x на y (то есть мы хотим получить оценку b).
Для существования смещения пропущенной переменной в линейной регрессии :
Предположим, мы опускаем z из регрессии, и предположим, что отношение между x и z задается формулой
с параметрами d, f и членом ошибки e. Подстановка второго уравнения в первое дает
Если регрессия y проводится только по x, это последнее уравнение является оценочным, а коэффициент регрессии на x фактически является оценкой (b + cf), дающей не просто оценку желаемого прямого воздействия x на y (которое есть b), но скорее его суммы с косвенным эффектом (влияние f x на z умноженное на влияние c z на y). Таким образом, исключив переменную z из регрессии, мы оценили полную производную y по x, а не его частную производную по x. Они различаются, если и c, и f не равны нулю.
Направление и степень смещения содержатся в cf, поскольку искомый эффект равен b, но регрессия оценивает b + cf. Степень смещения - это абсолютное значение cf, а направление смещения - вверх (в сторону более положительного или менее отрицательного значения), если cf>0 (если направление корреляции между y и z такое же, как и между x и z), в противном случае - вниз.
В качестве примера рассмотрим линейную модель вида
, где
Мы собираем наблюдения всех переменных с индексами i = 1,..., n и складываем их друг под другом, чтобы получить матрицу X и векторы Y, Z и U:
и
Если независимая переменная z не включена в регрессию, то оценочные значения параметра ответа Остальные независимые переменные будут вычислены обычным методом наименьших квадратов,
(где «штрих» обозначает транспонирование матрицы, а верхний индекс -1 означает инверсия матрицы ).
Замена Y на основе предполагаемой линейной модели,
Если брать ожидания, вклад последнего члена равен нулю ; это следует из предположения, что U не коррелирован с регрессорами X. При упрощении остальных членов:
Второй член после знака равенства - это смещение пропущенной переменной в этом случае, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрицу X (то есть, если X′Z не равен вектору нулей). Обратите внимание, что смещение равно взвешенной части z i, что «объясняется» x i.
Теорема Гаусса – Маркова утверждает, что регрессионные модели, которые соответствуют допущениям классической модели линейной регрессии, предоставляют наиболее эффективные, линейные и несмещенные оценки. В обычном методе наименьших квадратов соответствующее предположение классической модели линейной регрессии состоит в том, что член ошибки не коррелирует с регрессорами.
Наличие систематической ошибки пропущенной переменной нарушает это конкретное предположение. Нарушение приводит к смещению оценки OLS и несогласованности. Направление смещения зависит от оценок, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что МНК-оценка коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, приняв математическое ожидание параметра, как показано в предыдущем разделе.