Оценка инструментальных чисел

редактировать

В статистика, эконометрика, эпидемиология и т.п. дисциплин, метод инструментальных чисел (IV) используется для оценки причинно-следственных связей, когда контролируемые эксперименты неосуществимы или когда лечение проводится успешно в каждом подразделении в рандомизированном эксперименте. Интуитивно IV используется, когда интересующаянезависимая переменная коррелирует с термином ошибки, и в этом случае обычный метод наименьших квадратов и ANOVA дает смещенные результаты. Действующий инструмент, влияющий на зависимую переменную, позволяющий исследователю выявить влияющую на зависимую переменную.

Методы инструментальных чисел позволяют выполнять согласованную оценку, когда независимые переменные (ковариаты) коррелированы с ошибками в регрессионноймодели . Такая корреляция может иметь место, когда:

изменения в зависимой переменной изменяют значение по крайней мере одной из ковариат («обратная» причинность),
есть пропущенные переменные, которые влияют на зависимые переменные,
ковариаты подвержены неслучайной ошибке измерения.

Объясняющие переменные, которые страдают от одной или нескольких проблем в контексте регрессии, иногда называют эндогенной. В этой ситуацииобычный метод наименьших квадратов дает смещенные и непоследовательные оценки. Однако при наличии инструмента согласованные оценки все же могут быть получены. Инструмент - это переменная, которая сама по себе не входит в объясняющее уравнение, но коррелирует с эндогенными объясняющими переменными, при условии, что значения других ковариант.

В независимых моделях есть два основных требования для использования IV:

Инструмент должен быть коррелирован сэндогеннымипеременными, при условии, что другие ковариаты. Если эта корреляция сильная, то говорят, что инструмент имеет сильную первую стадию . Слабая корреляция может привести к ошибочным выводам оценкам параметров и стандартных ошибок.
Инструмент не может быть коррелирован с ошибкой в пояснительном уравнении, при условии, что другие ковариаты. Другими словами, инструмент не может иметь тех же проблем, что и исходная прогнозирующая переменная. Если это условиевыполнено, считается,что прибор удовлетворяет ограничению исключения .

Содержание

1 Введение
2 Пример
3 Графическое определение
- 3.1 Выбор подходящих инструментов
4 Оценка
5 Интерпретация двухэтапным методом наименьших квадратов
6 Непараметрический анализ
7 Интерпретация в условиях неоднородности воздействия лечения
8 Проблема слабых инструментов
- 8.1 Тестирование слабых инструментов
9 Статистический вывод и проверка гипотез
10Проверка ограниченияисключения
11 Применение к моделям со случайными и фиксированными эффектами
12 Методы для обобщенных линейных моделей
- 12.1 Пуассоновская регрессия
13 См. также
14 Ссылки
15 Дополнительная литература
16 Библиография
17 Ссылки

Введение

Концепция инструментальных постоянно получена Филипом Дж. Райтом, возможно, в соавторстве со своим сыном Сьюэлл Райт, в контексте одинаковых уравнений в егокниге 1928 года Тариф«Животные и растительные масла». В 1945 году Олав Рейерсол применил тот же подход в контексте моделей ошибок в том числе в своей диссертации, назвав этот метод своим именем.

Хотя идеи за IV распространяется на широкий класс моделей, очень распространенным контекстом для IV является линейная регрессия. Традиционно инструментальная переменная определяет как переменная Z, которая коррелирована с независимой переменной X и коррелирована с «членомошибки» U в линейномуравнении

Y = X β + U {\ displaystyle Y = X \ beta + U}

{\ displaystyle Y = X \ beta + U }

$Y { \ displaystyle Y}$ $Y$ - вектор. $X {\ displaystyle X}$ $X$ - матрица, обычно со столбцами и, возможно, дополнительными столбцами для других ковариат. Рассмотрим, как инструмент позволяет восстановить $β {\ displaystyle \ beta}$ $\ beta$ . Напомним, что OLS решает для $β ^ {\ displaystyle {\ widehat {\ beta}}}$ ${ \ displaystyle {\ widehat {\ beta}}}$ такое, что $cov ⁡ (X, U ^) = 0 {\ displaystyle \operatorname {cov} (X,{\ widehat {U}}) = 0}$ ${\ displaystyle \ operatorname {cov} (X, {\ widehat {U}}) = 0}$ (когда мы минимизируем сумму квадратов ошибок, $min β ^ (Y - β ^ X) '(Y - β ^ X) {\ Displaystyle \ min _ {\ widehat {\ beta}} (Y - {\ widehat {\ beta}} X)' (Y - {\ widehat {\ beta}} X)}$ $\min _{\widehat {\beta }}(Y-{\widehat {\beta }}X)'(Y-{\widehat {\beta }}X)$ , условие первого порядка в точности равно $X ′ (Y - β ^ X) = X ′ U ^ = 0 {\ displaystyle X '(Y - {\ widehat {\ beta}} X) = X '{\ widehat {U}} = 0}$ $X'(Y-{\widehat {\beta }}X)=X'{\widehat {U}}=0$ .) Если признана истинная модель имеет $cov ⁡ (X, U) ≠ 0 {\ displaystyle \operatorname {cov} (X, U)\ neq 0}$ ${\ displaystyle \ operatornam e {cov} (X, U) \ neq 0}$ по любому из причин, перечисленных выше, например, если существует пропущенная переменная, которая влияет на оба $X {\ displaystyle X}$ $X$ и $Y {\ displaystyle Y}$ $Y$ по отдельной - тогда эта процедура OLS не приведет к кному влиянию $X {\ displ аистиль X}$ $X$ на $Y {\ displaystyle Y}$ $Y$ . OLS просто выберет параметр, который заставляет результирующие ошибки казаться некоррелированнымис $X {\ displaystyle X}$ $X$ .

. Рассмотрим для простоты случай с одной типовой. Предположим, мы рассматриваем регрессию с той же константой (возможно, никакие другие ковариаты не нужны, или, возможно, мы частично исключили любые другие соответствующие ковариаты):

y = α + β x + u {\ displaystyle y = \ alpha + \ beta x + u}

y = \ alpha + \ beta x + u

В этом случае коэффициент на интересующем регрессоре равенстве $β ^ = cov ⁡ (x, y) var ⁡ (x) {\ displaystyle {\ widehat { \ beta}} = {\ frac {\operatorname {cov} (x, y)} {\operatorname {var} (x)}}}$ ${\ displaystyle {\ widehat {\ beta}} = {\ frac {\ operatorname {cov} ( x, y)} {\ operatorname {var} (x)}}}$ . Замена на $y {\ displaystyle y}$ $y$ дает

β ^ = cov ⁡ (x, y) var ⁡ (x) = cov ⁡ (x, α + β x + u) var ⁡ (x) = cov ⁡ (x, α + β x) var ⁡ (x) + cov ⁡ (x, u) var ⁡ (x) = β ∗ + cov ⁡ (x, u) var ⁡ (x), {\ displaystyle {\ begin {align} {\ widehat {\ beta}} = {\ frac {\ operatorname {cov} (x, y)} {\ operatorname {var} (x)}} = {\ frac { \ operatorname {cov} (x, \ alpha + \ beta x + u)} {\ operatorname {var} (x)}} \\ [6pt]= {\ frac {\ operatorname{cov} (x, \ alpha + \ beta x)} {\ operatorname {var} (x)}} + {\ frac {\ operatorname {cov} (x, u)} {\ operatorname {var} (x)}} = \ beta ^ {* } + {\ frac {\ operatorname {cov} (x, u)} {\ operatorname {var} (x)}}, \ end {align}}}

{\ displaystyle {\ begin{align} {\ widehat {\ beta}} = {\ frac {\ operatorname {cov} ( x, y)} {\ operatorname {var} (x)}} = {\ frac {\ operatorname {cov} (x, \ alpha + \ beta x + u)} {\ operatorname {var} (x)}} \\ [6pt] = {\ frac {\ operatorname {cov} (x, \ alpha + \beta x)} {\ operatorname {var} (x)}} + {\ frac {\ operatorname {cov} (x, u)} {\ operatorname {var} (x)}} = \ beta ^ {*} + {\ frac {\ operatorname {cov} (x, u)}{\ operatorname {var} (х)}}, \ конец {выровнено}}

где $β ∗ {\ displaystyle \ beta ^ {*}}$ $\ beta ^ {*}$ - это то, чем был бы оценочный коэффициент коэффициентов, если бы x не коррелировал с u. В этом случае можно показать, что $β ∗ {\ displaystyle \ beta ^ {*}}$ $\ beta ^ {*}$ являетсянесмещенной оцененной $β. {\displaystyle \ beta.}$ ${\ displaystyle \ beta.}$ Если $cov ⁡ (x, u) ≠ 0 {\ displaystyle \ operatorname {cov} (x, u) \ neq 0}$ ${\ displaystyle \ operatorname {cov} (x, и) \ neq 0}$ в Базовая модель, в которую мы верим, то OLS дает коэффициент, который не отражает лежащий в основе эффекта интереса. IV помогает решить эту проблему, определяя параметры $β → {\ displaystyle {\ vec {\ beta}}}$ ${\ vec {\ beta}}$ не в зависимости от, $x {\ displaystyle x}$ $x$ не коррелирует с $u {\ displaystyle u}$ $u$ , но зависит от того, некоррелирует ли другую переменную $z {\ displaystyle z}$ $z$ с $и {\ Displaystyle u}$ $u$ . Если теория предполагает, что $z {\ displaystyle z}$ $z$ связано с $x {\ displaystyle x}$ $x$ (первая стадия), но не коррелирует с $u {\ displaystyle u}$ $u$ (ограничение исключения), тогда IV может идентифицировать интересующий причинный параметр, когда OLS не работает. Существует несколько способов использования оценок IV даже влинейном случае (IV, 2SLS, GMM), мы сохраняем дальнейшее обсуждение для раздела Оценка ниже.

Пример

Неформально, испытать влияние одной X на другую Y, инструментальное влияние на Y, которое влияет на Y только через свое на X. Например, Предположим, исследователь хочет испытать влияние на Y только через свое влияние на X. оценить влияние курения на общее состояние здоровья. Корреляция между здоровьем и курением означает, что курение вызывает здоровье, потому чтоэто может влиять на здоровье, так ина курение, потому что это может влиять на курение. В лучшем случае и дорого проводят контролируемые эксперименты по изучению статуса курения среди населения в целом. Исследователь может попытаться оценить влияние курения на здоровье на основе наблюдений, используя налоги на табачные изделия в качестве инструмента для курения. Ставка налога на табачные изделия - разумный выбор для инструмента, поскольку исследователь предполагает, что ее можно соотнести создоровьем через ее влияние на курение.Если исследователь обнаружит, это можно рассматривать как доказательство того, что курение вызывает изменения в здоровье.

Angrist и Krueger (2001) представляют обзор истории и использования методов инструментальных чисел.

Графическое определение

Конечно, методы IV были разработаны среди гораздо более широкого класса нелинейных моделей. Общие определения инструментальных средств с использованием контрфактического играфического формализма были даны Перлом (Pearl, 2000; с. 248). Графическое определение требует, чтобы удовлетворить следующие условия:

(Z ⊥ ⊥ Y) GX ¯ (Z ⧸ ⊥ ⊥ X) G {\ displaystyle (Z \ perp \! \! \! \ Perp Y) _ {G_ { \ overline {X}}} \ qquad (Z \ not \! \! {\ perp \! \! \! \ perp} X) _ {G}}

(Z \ perp \! \! \! \ perp Y) _ {{G _ {{\ overline{X}}}}} \ qquad (Z \ not \! \! {\ perp \! \! \! \ perp} X) _ {G}

где $⊥ ⊥ {\ displaystyle \ perp \! \! \! \ perp}$ $\ perp \! \! \! \ perp$ означает d-разделение и $GX ¯ {\ displaystyle G _ {\ overline {X}}}$ $G _ {\ overline {X}}$ обозначает график, накотором все стрелки, входящие в X, обрезаны.

Контрфактическое определение требует, чтобы удовлетворяла

(Z ⊥ ⊥ Y x) (Z ⧸ ⊥ ⊥ X) {\ displaystyle (Z \ perp \! \! \! \ Perp Y_ {x}) \ qquad (Z \ not \! \! {\ perp \! \! \! \ perp} X)}

(Z \ perp \! \! \!\ перп Y_ {x}) \ qquad (Z \ not \! \! {\ perp \! \! \! \ perp} X)

где Y x обозначает значение, которое Y получил бы, если бы X был x и $⊥ ⊥ {\ displaystyle \ perp \! \! \! \ Perp}$ $\ perp \! \! \! \ perp$ означает независимость.

Если есть дополнительные ковариаты W, то приведенные выше определениямодифицируются так, что Z квалифицируется как инструмент,если данные выполняются условно на W.

Суть определения Перла такова:

Представляющие интересующие уравнения являются «Структурными», а не «регрессионными».
Параметр ошибки U обозначает все внешние факторы, влияющие на Y, когда X остается постоянным.
Инструмент Z должен быть независимым от U.
Инструмент Z не должен влиять на Y, когда X остается постоянным (ограничение исключения).
Инструмент Z не должен быть независимым от X.

Эти условияне зависят от конкретной формулы функциональной и применимы к нелинейным уравнениям, где U может быть неаддитивным (см. Непараметрический анализ). Они также применимы к системе местного использования, в которой X (и другие факторы) влияют на Y через несколько промежуточных чисел. Инструментальная переменная не должна обязательно быть причиной X; может также доверить доверенное лицо такой причины, если оно удовлетворяет условиям 1-5.Ограничение исключения (условие 4) является избыточным; этоследует из условий 2 и 3.

Выбор подходящих инструментов

Временное положение не требуется, чтобы Z не зависело от U, не может быть выведено из структур модели, т.е. процесс генерации данных. Причинно-следственные диаграммы представляют эту структуру, и приведенное выше графическое определение можно использовать для быстрого определения, чтобы получить квалифицирующую переменную Z как инструментальнуюпеременную с учетом набора ковариат W. увидеть, как это сделать,рассмотрим следующий пример.

Рисунок 1: Близость квалифицируется как инструментальная переменная с учетом часов библиотеки
Рисунок 2: $GX ¯ {\ displaystyle G _ {\ overline {X}}}$ $G _ {\ overline {X}}$ , который используется для определения является ли близость инструментальной альтернативы.
Рисунок 3: Близость не квалифицируется как инструментальная переменная с учетом часов библиотеки
Рисунок 4: Близостьквалифицируется как инструментальная переменная, если мы не включаем часы работыбиблиотеки в качестве ковариаты.

Предположим, хотим оценить влияние программы репетиторства в университете среднего балл (GPA ). Взаимосвязь между посещением программы репетиторства и средним баллом успеваемости может быть нарушена рядом факторов. Учащиеся, посещающие программу репетиторства, могут больше заботиться о своих оценках или испытывать трудности с работой. Это смешение показано нарисунках 1-3 справа через двунаправленную дугу между программой обучения и средним баллом.Если студентов распределяют по общежитиям наугад, близость студенческого общежития к программе репетиторства является альтернативным кандидатом на роль инструментальной альтернативы.

Но что, если программа репетиторства находится в библиотеке колледжа? В этом случае может также побудить учащихся больше времени в библиотеке, в свою очередь, улучшить их средний балл (см. Рисунок 1). Используяпричинный граф, изображенный на рисунке 2, мы видим, что Proximity не квалифицируется какинструментальная переменная, потому что она связывает с GPA через путь Proximity $→ {\ displaystyle \ rightarrow}$ $\ rightarrow$ Часы работы библиотеки $→ {\ displaystyle \ rightarrow}$ $\ rightarrow$ GPA в $GX ¯ {\ displaystyle G _ {\ overline {X}}}$ $G _ {\ overline {X}}$ . Однако если мы контролируем часы работы библиотеки, добавляя их в качестве ковариаты, то Proximity становится инструментальной, близостьотделяется от GPA с учетом количества часов библиотеки в $GX ¯ {\ displaystyle G _ {\ overline{X}}}$ $G _ {\ overline {X}}$ .

Теперь предположим, что мы замечаем, что «естественные способности» студента влияют на его количество часов в библиотеке, а также на его или ее средний балл, как показано на рисунке 3. Используя причинно-следственный график, мы видим, что количество часов библиотеки является коллайдером. и кондиционирование на нем открывает путь Proximity $→ {\ displaystyle \ rightarrow}$ $\ rightarrow$ Часы работы библиотеки $↔ {\ displaystyle \ leftrightarrow}$ $\ leftrightarrow$ GPA. В результатеблизостьне может быть в качестве инструментальной альтернативы.

Наконец, предположим, что часы работы библиотеки на самом деле не имеют значения на средний балл, потому что студенты, которые не учатся в другом месте, как показано на рисунке 4. В случае контроль часов библиотека по-прежнему открывает ложный путь от близости к GPA. Однако, если мы не контролируем часы работы библиотеки иудаляем его как ковариату, то близость снова можно использовать в качестве инструментальнойальтернативы.

Оценка

Теперь мы вернемся к механике IV и подробнее остановимся на ней. Предположим, что данные генерируются процесса вида

yi = X i β + ei, {\ displaystyle y_ {i} = X_ {i} \ beta + e_ {i},}

{\ displaystyle y_ {i} = X_ {i} \ beta + e_ {i},}

где

i индексирует наблюдения,
$yi {\ displaystyle y_ {i}}$ $y_ {i}$ - i-е зависимой переменной,
$X i {\ displaystyle X_ {i}}$ $X_ {i}$ - вектор i-го значениянезависимой (ов) и константы,
$ei {\ displaystyle e_ {i}}$ $e_ { i}$ - я-е значениененаблюдаемой термин,представляющий все причины $yi {\ displaystyle y_ {i}}$ $y_ {i}$ кроме $X i {\ displaystyle X_ {i}}$ $X_ {i}$ и
$β {\ displaystyle \ beta}$ $\ beta$ - это ненаблюдаемый вектор параметров.

Вектор параметров $β {\ displaystyle \ beta}$ $\ beta$ - причинный эффект на $yi {\ displaystyle y_ {i}}$ $y_ {i}$ изменений на одну единицу в каждом элементе $X i {\ displ aystyle X_ {i}}$ $X_ {i}$ , все остальные причины $yi {\ displaystyle y_ {i}}$ $y_ {i}$ константа.Эконометрическая цель - оценить $β {\ displaystyle \ beta}$ $\ beta$ . Для простоты предположим, что значения e не коррелированы взяты из распределений с одинаковой дисперсией (то есть, что последовательно некоррелированы ошибки и гомоскедастичны ).

Предположим также, предложенный регрессионная модель номинально такой же формы. Учитывая случайную выборку Tнаблюдений из этого процесса, оценка обычным методом наименьших квадратов равна

β ^ OLS = (X′ X) - 1 X ′ y = (X ′ X) - 1 X ′ (Икс β + е) знак равно β + (Икс 'Икс) - 1 Икс' е {\ Displaystyle {\ widehat {\ бета}} _ {\ mathrm {OLS}} = (X'X) ^ {- 1} X ' y = (X'X) ^ {- 1} X '(X \ beta + e) ​​= \ beta + (X'X) ^ {- 1} X'e}

{\widehat {\beta }}_{\mathrm {OLS} }=(X'X)^{-1}X'y=(X'X)^{-1}X'(X\beta +e)=\beta +(X'X)^{-1}X'e

где X, y и e обозначают указание-столбцы длины T. Это уравнение на уравнение с участием $cov ⁡ (X, y) {\ displaystyle \ operatorname {cov} (X, y)}$ ${\ displaystyle \ operatorname {cov} (X, y)}$ во введении (это матричная версия этой версии уравнения). Когда X и e некоррелированы, приопределенных условиях регулярности второй член имеет ожидаемое значение, обусловленное нулем X, и сходится к нулю в пределе, поэтому оценка несмещена и согласована. Когда X и другие неизмеряемые, вызывают переменные, свернутые в члене, коррелируются, однако, оценка МНК обычно смещена и непоследовательна для β. В этом случае допустимо использовать оценку для прогнозированиязначений y при заданных значениях X, но оценка не восстанавливает причинное влияние Xна y.

Чтобывосстановить базовый параметр $β {\ displaystyle \ beta}$ $\ beta$ , мы вводим набор Z, который сильно коррелирует с каждым эндогенным компонентом X, но (в нашей модели) не коррелирует с e. Для простоты можно рассматривать X как матрицу T × 2, состоящую из столбца констант и одной эндогенной переменной, а Z как матрицу T × 2, состоящую из столбца констант и однойинструментальной переменной. Однако этот метод обобщается на X, являющийся матрицей констант и,скажем, 5 эндогенныхчисел, причем Z - это матрица, состоящая из константы и 5 инструментов. В последующем обсуждении мы будем предполагать, что X является матрицей размера T × K, и оставим это значение K неопределенным. Оценщик, в котором X и Z являются матрицами T × K, называется только что идентифицированным.

Предположим, что взаимосвязь между эндогенным компонентом x i иинструментами задается как

xi = Z i γ + vi, {\ displaystyle x_ {i} = Z_ {i} \ gamma + v_ {i},}

{\ displaystyle x_ {i} = Z_ {i} \ gamma + v_ {i},}

Наиболеераспространенная спецификация IV использует следующую оценку:

β ^ IV = (Z ′ X) - 1 Z ′ Y {\ displaystyle {\ widehat {\ beta}} _ {\ mathrm {IV}} = (Z'X) ^ {- 1} Z'y}

{\widehat {\beta }}_{\mathrm {IV} }=(Z'X)^{-1}Z'y

Эта спецификация подходит истинный параметр по мере увеличения выборки, если $Z ′ e = 0 {\ displaystyle Z'e = 0}$ $Z'e=0$ в истинной модели:

β ^ IV = (Z ′ Икс) - 1 Z ′ y = (Z ′ X) - 1 Z ′ Икс β + (Z′ X) - 1 Z ′ e → β {\ displaystyle {\ widehat {\ beta}} _ {\ mathrm {IV}} = (Z'X) ^ {- 1} Z 'y = (Z'X)^ {- 1} Z'X \beta + (Z'X) ^ {- 1} Z'e \ rightarrow \ beta}

{\widehat {\beta }}_{\mathrm {IV} }=(Z'X)^{-1}Z'y=(Z'X)^{-1}Z'X\beta +(Z'X)^{-1}Z'e\rightarrow \beta

Пока $Z' e = 0 { \ displaystyle Z'e = 0}$ $Z'e=0$ в базовом процессе, который генерирует данные, соответствующее использование оценщика IV будет опр еделят ь этот параметр. Это работает, потому что IV вычисляет уникальный параметр, который удовлетворяет $Z 'e = 0 {\ displaystyle Z'e = 0}$ $Z'e=0$ , и, следовательно,оттачивает истинный базовый параметр по мере увеличения размера выборки.

Теперь расширение:предположим, чтосуществует больше инструментов, чем ковариат в интересующем уравнении, так что Z является матрицей размером T × M с M>K. Это часто называют случаем чрезмерной идентификации . В этом случае можно использовать обобщенный метод моментов (GMM). Оценка GMM IV:

β ^ GMM = (X ′ PZX) - 1 X ′ PZ y, {\ displaystyle {\ widehat {\ beta}} _ {\ mathrm {GMM}} = (X'P_{Z } X) ^ {- 1} X'P_ {Z} y,}

{\widehat {\beta }}_{\mathrm {GMM} }=(X'P_{Z}X)^{-1}X'P_{Z}y,

где $PZ {\ displaystyle P_ {Z}}$ ${\ displaystyle P_ {Z}}$ относится к матрице проекции $PZ = Z (Z ′ Z) - 1 Z ′ {\ displaystyle P_ {Z} = Z (Z'Z) ^ {- 1} Z '}$ $P_{Z}=Z(Z'Z)^{-1}Z'$ .

Это выражение сворачивается до первого, когда количество инструментов равно количеству ковариат в интересующем уравнении. Таким образом, чрезмерно идентифицированная IV является обобщением только что идентифицированной IV.

Доказательство того, что β GMM коллапсирует до β IV в только что указанном случае

Разработка $β GMM {\ displaystyle \ beta _ {GMM}}$ $\bet a_{GMM}$ выражение:

β ^GMM = (XTZ (ZTZ) - 1 ZTX) - 1 XTZ (ZTZ) - 1 ZT y {\ displaystyle {\ widehat {\ beta}} _ {\ mathrm {GMM }} = (X ^ {\ mathrm {T}} Z (Z ^ {\ mathrm {T}} Z) ^ {- 1} Z ^ {\ mathrm {T}} X) ^ {- 1} X ^ { \ mathrm {T}} Z (Z ^ {\ mathrm {T}} Z) ^ {- 1} Z ^ {\ mathrm {T}} y}

\ widehat {\ beta} _ \ mathrm {GMM} = (X ^ \ mathrm {T} Z (Z ^ \ mathrm {T} Z) ^ {- 1} Z ^ \ mathrm {T} X) ^ {- 1} Икс ^ \ mathrm {T} Z (Z ^ \ mathrm{T} Z) ^ {- 1} Z ^ \ mathrm {T} y

В только что указанном случае у нас столько инструментов как ковариаты, так что размерность X такая же, каку Z. Следовательно, $XTZ, ZTZ {\ displaystyle X ^ {\ mathrm {T}} Z, Z ^ {\ mathrm {T}} Z}$ $X ^ \ math rm {T} Z, Z ^ \ mathrm {T} Z$ и $ZTX {\ displ aystyle Z ^ {\ mathrm {T}} X}$ $Z ^ \ mathrm {T} X$ - все квадратные матрицы одного измерения. Мы можем расширить обратное, используя тот факт, что для любых обратимых матриц размера n на n A и B, (AB ) = BA( см. Обратимая матрица # Свойства ):

β ^ GMM = (ZTX) - 1 (ZTZ) (XTZ) - 1 XTZ (ZTZ) - 1 ZT y = (ZTX) - 1 (ZTZ) (ZTZ) - 1 ZT y = (ZTX)- 1 ZT y = β ^ IV {\ displaystyle {\ begin {align} {\ widehat {\ beta}} _ {\ mathrm {GMM}} = (Z ^ { \ mathrm {T}} X) ^{- 1} (Z ^ {\ mathrm {T}} Z) (X ^ {\ mathrm {T}} Z) ^ {- 1} X ^ {\ mathrm {T} } Z (Z ^ {\ mathrm {T}} Z) ^ {- 1} Z ^ {\ mathrm {T}} y \\ = (Z ^ {\ mathrm {T}} X) ^ {- 1} (Z ^ {\ mathrm {T}} Z) (Z ^ {\ mathrm {T}} Z) ^ {- 1} Z ^ {\ mathrm {T}} y \\ = (Z ^ {\ mathrm { T}} X) ^ {- 1} Z ^ {\ mathrm {T}} y \\ = {\ widehat {\ beta}} _ {\ mathrm {IV}} \ end {align}}}

\ begin {align} \ widehat {\ beta} _ \ mathrm {GMM} = (Z ^ \ mathrm {T} X) ^ {-1} (Z ^ \ mathrm { T} Z) (X ^ \ mathrm {T} Z) ^ {- 1} X ^ \ mathrm {T} Z (Z ^ \ math rm {T} Z) ^ {- 1} Z ^ \ mathrm {T} y \\ = (Z ^ \ mathrm {T} X) ^ {- 1} (Z ^ \ mathrm {T} Z) (Z ^ \ mathrm {T} Z) ^ {- 1} Z ^ \ mathrm {T } y \ \ = (Z ^ \ mathrm {T} X) ^ {- 1} Z ^ \ mathrm {T} y \\ = \ widehat {\ beta} _ \ mathrm {IV} \ end {align}

Ссылка: см. Davidson and Mackinnnon (1993)

Существует эквивалентная недоидентифицированная оценка для случая,когда m < k. Since the parameters are the solutions to a set of linear equations, an under-identified model using the set of equations $Z 'v = 0 {\ displaystyle Z'v = 0}$ $Z'v=0$ не имеет единственного решения.

Интерпретация как двухэтапный метод наименьших квадратов

Одним из вычислительных методов, который можно использовать для вычисления оценок IV, является двухэтапный метод наименьших квадратов (2SLS или TSLS). На первом этапе каждая независимая переменная, котораяявляется эндогенной ковариатой в интересующем уравнении, подвергается регрессиипо всем экзогенным переменным в модели, включаякак экзогенные ковариаты в интересующем уравнении, так и исключенные инструменты. Прогнозируемые значения из этих регрессий получают:

Этап 1: Регрессируйте каждый столбец X на Z, ( $X = Z δ + ошибки {\ displaystyle X = Z \ delta + {\ text {errors}}}$ $X = Z \ de lta + \ text {errors}$ ):

δ ^ = (ZTZ) - 1 ZTX, {\ displaystyle {\ widehat {\ delta}} = (Z ^ {\mathrm {T}} Z) ^ {- 1} Z ^ {\ mathrm {T}} X, \,}

\ widehat {\ delta} = (Z ^ \ mathrm {T} Z) ^ {- 1} Z ^ \ mathrm {T} X, \,

и сохраните предсказанныезначения:

X ^ = Z δ ^ = Z ( ZTZ) - 1 ZTX =PZX. {\ displaystyle {\ widehat {X}} = Z {\ widehat {\ delta}} = {\ color {ProcessBlue} Z (Z ^ {\ mathrm {T}} Z) ^ {- 1} Z ^ {\ mathrm {T}}} X = {\ color {ProcessBlue} P_ {Z}} X. \,}

{\ dis playstyle {\ widehat {X}} = Z {\ widehat {\ delta}} = {\ color {ProcessBlue} Z (Z ^ {\ mathrm {T}} Z) ^ {- 1} Z ^ {\ mathrm {T }}} X = {\ color {ProcessBlue} P_ {Z}} X. \,}

На втором этапе интересующая регрессия оценивается как обычно, за исключением того, что на этом этапе каждая эндогенная ковариата заменяется с предсказанными значениями из первогоэтапа:

Этап 2: Регресс Y по прогнозируемым значениям из первогоэтапа:

Y = X ^ β + noise, {\ displaystyle Y= {\ widehat {X}} \ beta + \ mathrm {noise}, \,}

{\ displaystyle Y ={\ widehat {X}} \ beta + \ mathrm {noise}, \,}

, что дает

β 2 SLS = (XTPZX) - 1 XTPZY. {\ displaystyle \ beta _ {2SLS} = \ left (X ^ {\ mathrm {T}} {\ color {ProcessBlue} P_ {Z}} X \ right) ^ {- 1} X ^ {\ mathrm {T} } {\ color {ProcessBlue} P_ {Z}} Y.}

{\ Displaystyle \ бета_ {2SLS} = \ le ft (X ^ {\ mathrm {T}} {\ color {ProcessBlue} P_ {Z}} X \ right) ^ {- 1} X ^ {\ mathrm {T}} {\ color {ProcessBlue} P_ {Z} } Y.}

Доказательство: вычисление оценки 2SLS

Обычная оценка OLS: $(X ^ TX ^) - 1 X ^ TY {\displaystyle ({\ widehat {X}} ^ {\ mathrm {T}} {\ widehat {X}}) ^ {- 1} {\ widehat{X}} ^ {\ mathrm {T}} Y}$ $(\ widehatX ^ \ mathrm {T} \ widehat X) ^ {- 1} \ widehat X ^ \ mathrm {T} Y$ . Заменив $X ^= PZX {\ displaystyle {\ widehat {X}} = P_ {Z} X}$ $\ widehat X = P_Z X$ и отметив, что $PZ {\ displaystyle P_ {Z}}$ $P_Z$ - симметричная и идемпотентная матрица, так что $PZTPZ = PZPZ = PZ {\ displaystyle P_ {Z} ^ {\ mathrm {T}} P_ {Z} = P_ {Z} P_ {Z} = P_ {Z}}$ $P_Z ^ \ mathrm {T} P_Z = P_Z P_Z =P_Z$

β 2 SLS = (X ^ TX ^) - 1 X ^ TY = (XTPZTPZX) - 1 XTPZTY = (XTPZX) - 1 XTPZY. {\ displ aystyle \ beta _ {2SLS} = ({\ widehat {X}} ^ {\ mathrm {T}} {\ widehat {X}}) ^ {-1} {\ widehat {X}} ^ {\ mathrm {T}} Y = \ left (X ^ {\ m athrm {T}} P_ {Z} ^ {\ mathrm {T}} P_ {Z} X \ right) ^ {- 1} X ^ {\ mathrm {T }} P_ {Z} ^ {\ mathrm {T}} Y = \ left (X ^ {\ mathrm {T}} P_ {Z} X \ right) ^ {- 1} X ^ {\ mathrm {T}} P_ {Z} Y.}

{\ displaystyle \ beta _ {2SLS} = ({\ widehat {X}} ^ {\ mathrm {T}} {\ widehat {X}}) ^ {- 1} {\ widehat {X}} ^ {\ mathrm {T}} Y = \ left (X ^ {\ mathrm {T}} P_ {Z} ^ {\ mathrm {T}} P_ {Z} X \ right) ^ {- 1} X ^ {\ mathrm{T}} P_ {Z} ^ {\ mathrm {T}} Y = \ left (X ^ {\ mathrm {T}} P_ {Z} X \ right) ^ {- 1}X ^ {\ mathrm {T}} P_ {Z} Y.}

Результирующая оценка $β {\ displaystyle \ beta}$ $\ beta$ численно идентична приведенному выше выражению. Необходимо внести небольшую поправку в суммуквадратов остатков в подобранной модели второго этапа, чтобы ковариационная матрица $β{\ displaystyle \ beta}$ $\ beta$ рассчитываласьправильно.

Непараметрический анализ

Когда форма структурных уравнений неизвестна, инструментальная переменная $Z {\ displaystyle Z}$ $Z$ все еще может быть определена через уравнения:

x = g (z, u) {\ displaystyle x = g (z, u) \,}

x = g (z, u) \,

y = f (x, u) {\ displaystyle y = f (x, u) \,}

y = f (х, и) \,

где $f {\ displaystyle f}$ $е$ и $g {\ displaystyle g}$ $g$ - две произвольные функции, а $Z {\ displaystyl e Z }$ $Z$ не зависит от $U {\ displaystyl e U}$ $U$ . Однако, в отличие от линейных моделей, измерения $Z, X {\ displaystyle Z, X}$ $Z, X$ и $Y {\ displaystyle Y}$ $Y$ не позволяют идентифицировать средний причинный эффект $X {\ displaystyle X}$ $X$ на $Y {\ displaystyle Y}$ $Y$ , обозначенный ACE

ACE = Pr (y ∣ do ( x)) = E u ⁡ [f (x, u)]. {\ displayst yle {\ text {ACE}} = \ Pr (y \ mid {\ text {do}} (x)) = \ operatorname {E} _ {u} [f (x, u)].}

{\ text {ACE}} = \ Pr (y \ mid {\ text {do}} (x)) = \ operatorname {E} _ {u} [f (x, u)].

Balke и Pearl [1997] получили жесткие границыдля ACE и показали, что они могут предоставить ценную информацию о знаке и размере ACE.

В линейном анализе нет теста, опровергающего предположение, что $Z {\ displaystyle Z}$ $Z$ является инструментом относительно пары $(X, Y) {\ displaystyle (X, Y)}$ $(X, Y)$ . Это не тот случай, когда $X {\ displaystyle X}$ $X$ дискретный. Перл (2000) показал, что для всех $f {\ displaystyle f}$ $е$ и $g {\ displ aystyle g}$ $g$ следующее ограничение, называемое«Инструментальное неравенство "должно выполняться всякий раз, когда $Z {\ displaystyle Z}$ $Z$ удовлетворяет двум приведенным выше уравнениям:

max x ∑ y [max z Pr (y, x ∣ z)] ≤ 1. {\ displaystyle \ max _ {x} \ sum _ {y} [\ max _ {z} \ Pr (y, x \ mid z)] \ leq 1.}

\ max _ {x}\ sum _ {y} [\ max _ {z} \ Pr (y, x \ mid z)] \ leq 1.

Интерпретация при неоднородности воздействия обработки

Изложение выше предполагает, что интересующий причинный эффект не меняется в зависимости отнаблюдений, то есть $β {\ displaystyle \ beta}$ $\ beta$ является константой. Как правило, разные субъекты по-разному реагируют на изменения в «лечении» x. Когда эта возможность признается, средний эффект изменения x на y в популяции может отличаться от эффекта в данной подгруппе населения. Например, средний эффект программы профессионального обучения может существенно различаться для группылюдей, которые факт ически проходят обучение, и для группы, которая решает не проходить обучение. Поэтим причинам методы IV используют неявные предположения оповеденческой реакции или, в более общем плане, предположения о корреляции между реакцией на лечение и склонностью к лечению.

Стандартная оценка IV может восстановить локальные средние эффекты лечения (ПОЗДНЕЕ), а не средний эффект лечения (ATE). Имбенс и Ангрист (1994) демонстрируют, что линейная оценка IVможет быть интерпретирована в слабых условиях как средневзвешенное значение локальных среднихэффектов лечения, где веса зависят от эластичности эндогенногорегрессора к изменениям инструментальных переменных. Грубо говоря, это означает, что влияние переменной выявляется только для субпопуляций, затронутых наблюдаемыми изменениями в инструментах, и что субпопуляции, которые больше всего реагируют на изменения в инструментах, будут иметь наибольшее влияние на величину оценки IV.

Например, если исследователь использует наличие колледжа, предоставившего землю, в качествеинструмента для получения высшего образования в регрессии доходов, онопределяет влияние колледжа на заработки в подгруппе населения, которая получила бы высшее образование, если бы колледж присутствует, но который не получил бы степени, если колледж отсутствует. Этот эмпирический подход без дополнительных предположений ничего не говорит исследователю о влиянии колледжа на людей, которые либо всегда,либо никогда не получат его, независимо от того, существует ли местный колледж.

Проблема со слабыми инструментами

Как отмечают Bound, Jaeger и Baker (1995), проблема вызвана выбором «слабых» инструментов, плохих инструментов предикторы предиктора эндогенного вопроса в уравнении первого этапа. В этом случае инструмент прогнозирования вопроса будет плохим, и прогнозируемые значения будут иметь очень небольшие вариации. Следовательно, они вряд ли добьются большогоуспеха в предсказании окончательного результата, если они используются для замены предикторавопроса в уравнении второго этапа.

В контексте рассмотренного вышепримера курения и здоровья, налоги на табак являются слабым инструментом для курения, если статус курения в значительной степени не реагирует на изменения налогов. Если более высокие налоги не побуждают людей бросить курить (или не начать курить), то изменение налоговых ставок ничего не говорит нам о влиянии курения наздоровье. Если налоги влияют на здоровье по каналам, отличным от их воздействия на курение, тогдаинструменты недействительны, и подход с использованием инструментальныхпеременных может привести к неверным результатам. Например, места и время с относительно заботящимся о своем здоровье населением могут как ввести высокие налоги на табак, так и продемонстрировать лучшее здоровье, даже при сохранении постоянного уровня курения, поэтому мы наблюдали бы корреляцию между налогами на здоровье итабачными изделиями, даже если бы курение не имело эффекта на здоровье. В этом случае было бы ошибкойсделать вывод о причинном влиянии курения на здоровье на основенаблюдаемой корреляции между налогами на табак и здоровьем.

Тестирование слабых инструментов

Сила инструментов может быть оценена напрямую, потому что и эндогенные ковариаты, и инструменты наблюдаемы. Общее практическое правило для моделей с одним эндогенным регрессором: F-статистика против null, что исключенные инструменты не имеют отношения к регрессии на первом этапе, должно быть больше10.

Статистический вывод и проверка гипотез

Когда ковариаты являются экзогенными, свойства малой выборки оценщика МНК могут быть получены прямым способом путем вычисления моментов оценщика, обусловленного X. Когда некоторые из ковариат являются эндогенными, так что оценка инструментальных переменных реализуется, простые выражения для моментов оценки не могут быть полученытаким образом. Generally, instrumental variables estimators only have desirable asymptotic, not finiteвыборка, свойства и вывод основаны на асимптотической аппроксимации, которая обычно далеко от истинного значения параметра.

Проверка ограничения исключения

Предположение, что инструменты не коррелированы с член ошибки в интересующем уравнении не поддается проверке в точно идентифицированных моделях. Если модель переопределена, имеется информация, которая может бытьиспользована для проверки этого предположения. Самый распространенный тест этих ограничений на сверхидентификацию, cal Тест Саргана – Хансена основан на наблюдении, что остатки не должны коррелировать с набором экзогенных переменных, если инструменты действительно экзогенные. Статистику критерия Саргана – Хансена можно рассчитать как $TR 2 {\ displaystyle TR ^ {2}}$ $TR ^ 2$ (количество наблюдений, умноженное на коэффициент детерминации ) из МНК-регрессия остатков намножество экзогенных переменных. Эта статистика будет асимптотически вычислена хи-квадрат с m - k степеней свободы при нулевом значении, когда ошибка не коррелирует с приборами.

Применение к моделям со случайными и фиксированными эффектами

В стандартных моделях случайных эффектов (RE) и с фиксированными эффектами (FE) для панельные данные, предполагается, что независимые переменные не коррелируют с ошибками. При наличии действительныхинструментов методы RE и FE распространяются на случай, когда некоторым независимым переменным разрешено быть эндогенными. x i t {\displaystyle x_{it}} $x _ {{it}}$ can be correlated with $u i s {\displaystyle u_{is}}$ ${\ displaystyle u_ {is}}$ for s possibly different from t. Suppose there exists a set of valid instruments $z i = ( z i 1, …, z i t) {\displaystyle z_{i}=(z_{i1},\ldots,z_{it})}$ ${\ displ aystyle z_ {i} = (z_ {i1}, \ ldots, z_ {it})}$ .

In REIV setting, key assumptions include that $z i {\displaystyle z_{i}}$ $z_{{i}}$ is uncorrelated wit h $c i {\displaystyle c_{i}}$ $c_ {i}$ as well as $u i t {\displ aystyle u_ {it}}$ $u _ {{it}}$ для $t = 1,…, T {\displaystyle t = 1, \ ldots, T}$ $t = 1, \ ldots, T$ . Фактически, длятого, чтобы оценка REIV была эффективной, необходимы условия более сильные, чем некоррелированность между инструментами и ненаблюдаемый эффект.

С другой стороны, оценщик FEIV требует только, чтобы инструменты были экзогенными с ошибочными членами после обусловливания ненаблюдаемого эффекта, т.е. $E[uit ∣ zi, ci] = 0 [1] {\ displaystyle E [u_ {it} \ mid z_ {i}, c_ {i}] = 0 [1]}$ ${\ displaystyleE [u_ {it} \ mid z_ {i}, c_ {i}] = 0 [1]}$ . Условие FEIV допускаетпроизвольную корреляцию между инструментами и ненаблюдаемым эффектом.Однако эта общность не дается даром: не допускаются инвариантные во времени объясняющие и инструментальные переменные. Как и в обычном методе FE, оценщик использует зависимые от времени переменные, чтобы удалить ненаблюдаемый эффект. Следовательно, оценка FEIV будет иметь ограниченное применение, еслиинтересующие нас переменные будут включать переменные, не зависящие от времени.

Вышеупомянутое обсуждение имеетпараллель с экзогенным случаем моделей RE и FE. В экзогенном случае REпредполагает некоррелированность между независимыми переменными и ненаблюдаемым эффектом, а FE допускает произвольную корреляцию между ними. Подобно стандартному случаю, REIV имеет тенденцию быть более эффективным, чем FEIV, при условии, что выполняются соответствующие предположения.

Методы дляобобщенных линейных моделей

Были разработаны методы для расширения оценки инструментальных чисел до обобщенных линейных моделей.

регрессия Пуассона

Вулдридж и Терцапредоставят методологию как для работы, так и для тестирования для эндогенности в рамках экспоненциальной регрессии, в которой следует последующее обсуждение. Хотя в данном случае особое внимание уделяется модели регрессии Пуассона, ее можно обобщить на другие модели экспоненциальнойрегрессии, хотя это может происходить за счет предположений (например, для моделей двоичного ответа или цензурированныхмоделей данных).

Предположим следующая модель экспоненциальной регрессии,где $a i {\ displaystyle a_ {i}}$ $a_ {i}$ - это ненаблюдаемый член в скрытой переменной. Мы допускаем корреляцию между $ai {\ displaystyle a_ {i}}$ $a_ {i}$ и $xi {\ displaystyle x_ {i}}$ $x_ {i}$ (подразумевается $xi {\ displaystyle x_ {i}}$ $x_ {i}$ , возможно, эндогенный),но не допускает такую корреляции между $ai {\ displaystyle a_ {i}}$ $a_ {i}$ и $zi {\ displaystyle z_ {i}}$ $z_ {i}$ .

E ⁡ [yi ∣ xi, zi, ai] = exp ⁡ (xib 0 + zic 0 + ai) {\ displaystyle \ operatorname{E} [y_ {i} \ mid x_ {i}, z_ {i}, a_ {i}] = \ exp (x_ {i} b_ {0} + z_ {i} c_ {0} + a_ {i})}

{\ displaystyle \ operatorname {E} [y_ {i} \ mid x_ {i}, z_ {i}, a_ {i}] = \ exp (x_ {i} b_ {0} + z_ {i} c_ {0} + a_ {i})}

Переменные $zi {\ displaystyle z_ {i}}$ $z_ {i}$ Найти инструментальными переменными для раннего эндогенного $xi {\ displaystyle x_ {i}}$ $x_ {i}$ . Можно предположить линейную зависимостьмежду этими двумя переменными или альтернативно, спроецировать эндогенную переменную $xi {\ displaystyle x_ {i}}$ $x_ {i}$ на инструменты, чтобы получить следующее уравнение сокращенной формы:

xi =zi Π + vi {\ displaystyle x_ {i} = z_ {i} \ Pi + v_ {i}}

{\ displaystyle x_ {i} = z_ {i} \ Pi + v_ {i}}

(1)

Обычное условие ранжирования необходимо для определения личности. Эндогенность моделируется следующим образом, где $ρ {\ displaystyle \ rho}$ $\ rho$ определяет серьезность эндогенности, а $vi {\ displaystyle v_{i}}$ $v_{i}$ независимым от $ei {\ displaystyle e_ {i}}$ $e_ { i}$ .

ai = vi ρ + ei {\ displaystyle a_ {i} = v_ {i} \ rho +e_ {i}}

{\ displaystyle a_ {i} = v_ {i} \ rho + e_ {i}}

Принятие этих допущений при условии, что модели указаны, и нормализация $E ⁡ [exp ⁡ (ei)] = 1 {\ displaystyle \ operatorname {E} [\ exp (e_ {i})] = 1}$ $\ operatorname {E} [\ exp (e_ {i})] = 1$ , мы можем правильно переписать условное среднее следующим образом:

E ⁡ [yi ∣ xi, zi, vi] = exp ⁡ (xib 0 + zic 0 + vi ρ) {\ displaystyle \ operatorname {E} [y_ {i} \ mid x_ { i}, z_ {i}, v_{i}] = \ exp (x_ {i} b_ {0} + z_ {i} c_ {0} + v_ {i} \ rho)}

{\ displaystyle \ operatorname {E} [y_ {i} \ mid x_ {i}, z_ {i}, v_ {i}] = \ exp (x_ {i} b_ {0} + z_ {i} c_ {0} + v_ {i } \ rho)}

(2)

Если бы $vi {\ displaystyle v_ {i}}$ $v_{i}$ был известен в этот момент, можно было бы оценить соответствующие параметры с квази -Оценка верхнего правдоподобия (QMLE). Следуя двухшаговой методике, Вулдридж и Терца постановление оценки (1) с помощью обыкновенных наименьших квадратов. Подобные остатки этой регрессии могут быть включены в уравнение оценки (2), и QMLE приведут ксогласованным оценкам интересующих параметров. Затем можно использовать тесты значимости для $ρ ^ {\ displaystyle {\ hat {\ rho}}}$ ${\ hat {\ rho}}$ для проверки эндогенности в модели.

См. Также

Ссылки

Дополнительная литература

Грин, Уильям Х. (2008). Эконометрический анализ (Шестое изд.). Река Аппер Сэдл: ПирсонПрентис-Холл. Стр. 314 –353. ISBN 978-0-13-600383-0.
Гуджарати, Дамодар Н. ; Портер, Доун С. (2009).Основы эконометрики (Пятое изд.). Нью-Йорк: Макгроу-Хилл Ирвин. Стр.711 –736. ISBN 978-0-07-337577-9.
Сарган, Денис (1988). Лекции по углубленной эконометрической теории. Оксфорд: Бэзил Блэквелл. С. 42–67. ISBN 978-0-631-14956-9.
Вулдридж, Джеффри М. (2013). Вводная эконометрика: современныйподход (Пятое международное издание). Мейсон, Огайо: Юго-запад. С. 490–528. ISBN 978-1-111-53439-4.

Библиография

Вулдридж, Дж. (1997): Методы квази-правдоподобия для подсчета данных, Справочник поприкладной эконометрике, Том 2, изд. М. Х. Песаран и П. Шмидт, Оксфорд, Блэквелл, стр. 352–406
Терца, Дж. В. (1998): «Оценка подсчета с эндогенным переключением: отбор образцов и эндогенные эффекты лечения». Journal of Econometrics (84), стр. 129–154
Вулдридж, Дж. (2002): «Эконометрический анализ данных поперечного сечения и панелей», MIT Press, Кембридж, Массачусетс.

Внешние ссылки