Обобщенный метод моментов

редактировать

Методика оценки параметров в статистике, особенно в эконометрике

В эконометрике и статистика, обобщенный метод моментов (GMM ) - это общий метод оценки параметров в статистических моделях. Обычно он применяется в контексте полупараметрических моделей, где интересующий параметр является конечномерным, тогда как полная форма функции распределения данных может быть неизвестна, и поэтому оценка максимального правдоподобия не применимо.

Метод требует, чтобы для модели было указано определенное количество моментов. Эти моментные условия являются функциями параметров модели и данных, так что их ожидание равно нулю при истинных значениях параметров. Затем метод GMM минимизирует определенную норму выборочных средних значений моментов, и поэтому его можно рассматривать как частный случай оценки минимального расстояния.

Оценщики GMM известны как непротиворечивые, асимптотически нормальные и эффективные в классе всех оценок, которые не используют никаких дополнительных информация помимо той, что содержится в настоящих условиях. GMM был предложен Ларсом Питером Хансеном в 1982 году как обобщение метода моментов, введенного Карлом Пирсоном в 1894 году. Однако эти оценки математически эквивалентны к тем, которые основаны на «условиях ортогональности» (Sargan, 1958, 1959) или «уравнениях несмещенной оценки» (Huber, 1967; Wang et al., 1997).

Содержание

1 Описание
2 Свойства
- 2.1 Согласованность
- 2.2 Асимптотическая нормальность
- 2.3 Эффективность
3 Реализация
4 J-тест Саргана – Хансена
5 Область применения
6 Реализации
7 См. Также
8 Ссылки
9 Дополнительная литература

Описание

Предположим, что доступные данные состоят из T наблюдений {Y t}t = 1,..., T, где каждое наблюдение Y t является n-мерной многомерной случайной величиной. Мы предполагаем, что данные поступают из некой статистической модели, определенной с точностью до неизвестного параметра θ ∈ Θ. Цель задачи оценки - найти «истинное» значение этого параметра, θ 0, или, по крайней мере, достаточно близкую оценку.

Общее предположение GMM состоит в том, что данные Y t генерируются слабо стационарным эргодическим случайным процессом. (Случай независимых и одинаково распределенных (iid) переменных Y t является частным случаем этого условия.)

Чтобы применить GMM, нам необходимо имеют "моментные условия", то есть нам нужно знать вектор-функцию g (Y, θ) такую, что

m (θ 0) ≡ E ⁡ [g (Y t, θ 0)] знак равно 0, {\ Displaystyle м (\ theta _ {0}) \ Equiv \ OperatorName {E} [\, g (Y_ {t}, \ theta _ {0}) \,] = 0,}

m (\ theta _ {0}) \ Equiv \ имя оператора {E} [\, g (Y_ {t}, \ theta _ {0}) \,] = 0,

, где E обозначает ожидание, а Y t является общим наблюдением. Более того, функция m (θ) должна отличаться от нуля для θ ≠ θ 0, в противном случае параметр θ не будет идентифицирован в точке- .

Основная идея GMM заключается в замене теоретической математическое ожидание E [⋅] с его эмпирическим аналогом - выборочное среднее:

m ^ (θ) ≡ 1 T ∑ t = 1 T g (Y t, θ) {\ displaystyle {\ hat {m}} (\ theta) \ Equiv {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta)}

{\ hat {m}} (\ theta) \ Equiv {\ frac {1} {T}} \ sum _ {{t = 1}} ^ {T} g (Y_ {t}, \ theta)

, а затем минимизировать норму этого выражения относительно к θ. Минимизирующее значение θ - это наша оценка для θ 0.

. По закону больших чисел, $m ^ (θ) ≈ E ⁡ [g (Y t, θ)] = m (θ) {\ Displaystyle \ scriptstyle {\ шляпа {м}} (\ theta) \, \ ок \; \ OperatorName {E} [g (Y_ {t}, \ theta)] \, = \, m (\ theta) }$ $\ scriptstyle {\ hat {m}} (\ theta) \, \ приблизительно \; \ OperatorName {E} [g (Y_ {t}, \ theta)] \, = \, m (\ theta)$ для больших значений T, поэтому мы ожидаем, что $m ^ (θ 0) ≈ m (θ 0) = 0 {\ displaystyle \ scriptstyle {\ hat {m}} (\ theta _ {0}) \; \ приблизительно \; m (\ theta _ {0}) \; = \; 0}$ $\ scriptstyle {\ hat {m}} (\ theta _ {0}) \; \ приблизительно \; м (\ theta _ {0}) \; = \; 0$ . Обобщенный метод моментов ищет число $θ ^ {\ displaystyle \ scriptstyle {\ hat {\ theta}}}$ $\ scriptstyle {\ hat {\ theta }}$ , которое составило бы $m ^ (θ ^) {\ displaystyle \ стиль сценария {\ hat {m}} (\; \! {\ hat {\ theta}} \; \!)}$ $\ scriptstyle {\ hat {m}} (\; \! {\ hat \ theta} \; \!)$ как можно ближе к нулю. Математически это эквивалентно минимизации определенной нормы $m ^ (θ) {\ displaystyle \ scriptstyle {\ hat {m}} (\ theta)}$ $\ scriptstyle {\ hat {m}} (\ theta)$ (норма m, обозначается как | | m ||, измеряет расстояние между m и нулем). Свойства полученной оценки будут зависеть от конкретного выбора функции нормы, и поэтому теория GMM рассматривает все семейство норм, определяемое как

‖ m ^ (θ) ‖ W 2 = m ^ (θ) TW m ^ (θ), {\ displaystyle \ | {\ hat {m}} (\ theta) \ | _ {W} ^ {2} = {\ hat {m}} (\ theta) ^ {\ mathsf { T}} \, W {\ hat {m}} (\ theta),}

{\ displaystyle \ | { \ hat {m}} (\ theta) \ | _ {W} ^ {2} = {\ hat {m}} (\ theta) ^ {\ mathsf {T}} \, W {\ hat {m}} (\ theta),}

, где W - положительно-определенная матрица весов, а $m T {\ displaystyle m ^ { \ mathsf {T}}}$ ${\ displaystyle m ^ {\ mathsf {T}}}$ обозначает транспонирование. На практике весовая матрица W вычисляется на основе доступного набора данных, который будет обозначаться как $W ^ {\ displaystyle \ scriptstyle {\ hat {W}}}$ $\ scriptstyle {\ hat {W}}$ . Таким образом, оценка GMM может быть записана как

θ ^ = arg ⁡ min θ ∈ Θ (1 T ∑ t = 1 T g (Y t, θ)) TW ^ (1 T ∑ t = 1 T g (Y t, θ)) {\ displaystyle {\ hat {\ theta}} = \ operatorname {arg} \ min _ {\ theta \ in \ Theta} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} {\ bigg (} {\ frac {1 } {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}

{\ displaystyle {\ hat {\ theta} } = \ operatorname {arg} \ min _ {\ theta \ in \ Theta} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t }, \ theta) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}

При подходящих условиях эта оценка непротиворечива, асимптотически нормальный и с правильным выбором матрицы весов $W ^ {\ displaystyle \ scriptstyle {\ hat {W}}}$ $\ scriptstyle {\ hat {W}}$ также асимптотически эффективный.

Свойства

Согласованность

Согласованность - это статистическое свойство оценщика, указывающее, что, имея достаточное количество наблюдений, оценщик сходится с вероятностью к истинному значению параметра:

θ ^ → p θ 0 при T → ∞. {\ displaystyle {\ hat {\ theta}} {\ xrightarrow {p}} \ theta _ {0} \ {\ text {as}} \ T \ to \ infty.}

{\ displaystyle {\ hat {\ theta}} {\ xrightarrow {p}} \ theta _ {0} \ {\ text {as}} \ T \ to \ infty.}

Достаточные условия для оценки GMM быть последовательными:

$W ^ T → p W, {\ displaystyle {\ hat {W}} _ {T} {\ xrightarrow {p}} W,}$ ${\ hat {W}} _ {T} {\ xrightarrow {p }} W,$ где W положительная полуопределенная матрица,
$WE ⁡ [g (Y t, θ)] = 0 {\ displaystyle \, W \ operatorname {E} [\, g (Y_ {t}, \ theta) \, ] = 0}$ $\, W \ operatorname {E} [\, g (Y_ {t}, \ theta) \,] = 0$ только для $θ = θ 0, {\ displaystyle \, \ theta = \ theta _ {0},}$ $\, \ theta = \ theta _ {0},$
пробел возможных параметров $Θ ⊂ R К {\ Displaystyle \ Theta \ subset \ mathbb {R} ^ {k}}$ $\ Theta \ subset {\ mathbb {R}} ^ {{k}}$ компактный,
$g (Y, θ) {\ displaystyle \, g (Y, \ theta)}$ $\, g (Y, \ theta)$ непрерывно в каждом θ с вероятностью единица,
$E ⁡ [sup θ ∈ Θ ‖ g (Y, θ) ‖] < ∞. {\displaystyle \operatorname {E} [\,\textstyle \sup _{\theta \in \Theta }\lVert g(Y,\theta)\rVert \,]<\infty.}$ $\ operatorname {E} [\, \ textstyle \ sup _ {{\ theta \ in \ Theta}} \ lVert g (Y, \ theta) \ rVert \,] <\ infty.$

Второе условие здесь (так -названное условие глобальной идентификации ) часто особенно трудно проверить. Существуют более простые необходимые, но недостаточные условия, которые могут использоваться для обнаружения проблемы, не связанной с идентификацией:

Условие заказа . Размерность моментной функции m (θ) должна быть по крайней мере такой же, как размерность вектора параметров θ.
Локальная идентификация . Если g (Y, θ) непрерывно дифференцируем в окрестности $θ 0 {\ displaystyle \ theta _ {0}}$ $\ theta _ {0}$ , то матрица $WE ⁡ [∇ θ g (Y t, θ 0)] {\ displaystyle W \ operatorname {E} [\ nabla _ {\ theta} g (Y_ {t}, \ theta _ {0})]}$ $W \ operatorname {E} [\ nabla _ {\ theta} g (Y_ {t}, \ theta _ {0})]$ должен иметь полный ранг столбца.

На практике эконометристы-прикладники часто просто предполагают, что глобальная идентификация верна, не доказывая ее на самом деле.

Асимптотическая нормальность

Асимптотическая нормальность - полезное свойство, поскольку оно позволяет нам построить доверительные интервалы для оценщика и проведите различные тесты. Прежде чем мы сможем сделать утверждение об асимптотическом распределении оценки GMM, нам нужно определить две вспомогательные матрицы:

G = E ⁡ [∇ θ g (Y t, θ 0)], Ω = E ⁡ [g ( Y T, θ 0) g (Y t, θ 0) T] {\ displaystyle G = \ operatorname {E} [\, \ nabla _ {\! \ Theta} \, g (Y_ {t}, \ theta _ {0}) \,], \ qquad \ Omega = \ operatorname {E} [\, g (Y_ {t}, \ theta _ {0}) g (Y_ {t}, \ theta _ {0}) ^ {\ mathsf {T}} \,]}

{\ displaystyle G = \ ope ratorname {E} [\, \ nabla _ {\! \ theta} \, g (Y_ {t}, \ theta _ {0}) \,], \ qquad \ Omega = \ operatorname {E} [\, g (Y_ {t}, \ theta _ {0}) g (Y_ {t}, \ theta _ {0}) ^ {\ mathsf {T}} \,]}

Тогда при условиях 1–6, перечисленных ниже, оценка GMM будет асимптотически нормальной с предельным распределением :

$T (θ ^ - θ 0) → d N [0, (GTWG) - 1 GTW Ω WTG (GTWTG) - 1]. {\ displaystyle {\ sqrt {T}} {\ big (} {\ hat {\ theta}} - \ theta _ {0} {\ big)} \ {\ xrightarrow {d}} \ {\ mathcal {N} } {\ big [} 0, (G ^ {\ mathsf {T}} WG) ^ {- 1} G ^ {\ mathsf {T}} W \ Omega W ^ {\ mathsf {T}} G (G ^ {\ mathsf {T}} W ^ {\ mathsf {T}} G) ^ {- 1} {\ big]}.}$ ${\ displaystyle {\ sqrt {T}} {\ big (} {\ hat {\ theta}} - \ theta _ {0} {\ big)} \ {\ xrightarrow {d}} \ {\ mathcal { N}} {\ big [} 0, (G ^ {\ mathsf {T}} WG) ^ {- 1} G ^ {\ mathsf {T}} W \ Omega W ^ {\ mathsf {T}} G ( G ^ {\ mathsf {T}} W ^ {\ mathsf {T}} G) ^ {- 1} {\ big]}.}$

Условия:

$θ ^ {\ displaystyle {\ hat {\ theta} }}$ ${\ hat {\ theta}}$ согласован (см. Предыдущий раздел),
Набор возможных параметров $Θ ⊂ R k {\ displaystyle \ Theta \ subset \ mathbb {R} ^ {k} }$ $\ Theta \ subset {\ mathbb {R}} ^ {{k}}$ является компактным,
$g (Y, θ) {\ displaystyle \, g (Y, \ theta)}$ $\, g (Y, \ theta)$ непрерывно дифференцируемо в некоторой окрестности N из $θ 0 {\ displaystyle \ theta _ {0}}$ $\ theta _ {0}$ с вероятностью один,
$E ⁡ [‖ g (Y t, θ) ‖ 2] < ∞, {\displaystyle \operatorname {E} [\,\lVert g(Y_{t},\theta)\rVert ^{2}\,]<\infty,}$ $\ operatorname {E} [\, \ lVert g (Y_ {t}, \ theta) \ rVert ^ {2} \,] <\ infty,$
$E ⁡ [sup θ ∈ N ‖ ∇ θ g (Y t, θ) ‖] < ∞, {\displaystyle \operatorname {E} [\,\textstyle \sup _{\theta \in N}\lVert \nabla _{\theta }g(Y_{t},\theta)\rVert \,]<\infty,}$ $\ operatorname {E} [\, \ textstyle \ sup _ {{\ theta \ in N}} \ lVert \ nabla _ {\ theta} g (Y_ {t}, \ theta) \ rVert \,] <\ infty,$
матрица $G ′ WG {\ displaystyle G'WG}$ $G'WG$ неособая.

Эффективность

Итак о выборе матрицы W мы пока ничего не сказали, за исключением того, что она должна быть положительно полуопределенной. Фактически, любая такая матрица будет давать непротиворечивую и асимптотически нормальную оценку GMM, единственная разница будет в асимптотической дисперсии этой оценки. Можно показать, что выбор

W ∝ Ω - 1 {\ displaystyle W \ propto \ \ Omega ^ {- 1}}

W \ propto \ \ Omega ^ {{- 1}}

приведет к наиболее эффективной оценке в классе всех асимптотически нормальных оценок. Эффективность в этом случае означает, что такая оценка будет иметь наименьшую возможную дисперсию (мы говорим, что матрица A меньше, чем матрица B, если B – A является положительно полуопределенным).

В этом случае формула для асимптотического распределения оценки GMM упрощается до

T (θ ^ - θ 0) → d N [0, (GT Ω - 1 G) - 1] {\ displaystyle {\ sqrt {T}} {\ big (} {\ hat {\ theta}} - \ theta _ {0} {\ big)} \ {\ xrightarrow {d}} \ {\ mathcal {N}} { \ big [} 0, (G ^ {\ mathsf {T}} \, \ Omega ^ {- 1} G) ^ {- 1} {\ big]}}

{\ displaystyle {\ sqrt {T}} {\ big (} {\ hat {\ theta}} - \ theta _ {0} {\ big)} \ {\ xrightarrow {d}} \ {\ mathcal {N}} {\ big [} 0, (G ^ {\ mathsf {T}} \, \ Omega ^ {- 1} G) ^ {- 1 } {\ big]}}

Доказательство того, что такой выбор весовой матрицы действительно оптимально, часто принимается с небольшими изменениями при установлении эффективности других оценщиков. Как показывает опыт, матрица взвешивания является оптимальной, когда она превращает «формулу сэндвича» для сжатия дисперсии в более простое выражение.

Доказательство . Мы рассмотрим разницу между асимптотической дисперсией с произвольным W и асимптотической дисперсией с $W = Ω - 1 {\ displaystyle W = \ Omega ^ {- 1}}$ $W = \ Omega ^ {{- 1}}$ . Если мы сможем разложить эту разницу на симметричное произведение формы CC 'для некоторой матрицы C, то это будет гарантировать, что эта разница неотрицательно определена, и, следовательно, $W = Ω - 1 {\ displaystyle W = \ Omega ^ {-1}}$ $W = \ Omega ^ {{- 1}}$ будет оптимальным по определению.
$V (W) - V (Ω - 1) {\ displaystyle \, V (W) -V (\ Omega ^ {- 1})}$ $\, V (W) -V (\ Omega ^ {{- 1}})$	$= (GTWG) - 1 GTW Ω WG (GTWG) - 1 - (GT Ω - 1 G) - 1 {\ displaystyle \, = (G ^ {\ mathsf {T}} WG) ^ {- 1} G ^ {\ mathsf {T}} W \ Omega WG (G ^ {\ mathsf {T}} WG) ^ {- 1} - (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1}}$ ${\ displaystyle \, = (G ^ { \ mathsf {T}} WG) ^ {- 1} G ^ {\ mathsf {T}} W \ Omega WG (G ^ {\ mathsf {T}} WG) ^ {- 1} - (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1}}$
	$= (GTWG) - 1 (GTW Ω WG - GTWG (GT Ω - 1 G) - 1 GTWG) (GTWG) - 1 {\ displaystyle \, = (G ^ {\ mathsf {T}} WG) ^ {- 1} {\ Big (} G ^ {\ mathsf {T}} W \ Omega WG-G ^ {\ mathsf {T}} WG (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1} G ^ {\ mathsf {T}} WG {\ Big)} (G ^ {\ mathsf {T}} WG) ^ {- 1}}$ ${\ displaystyle \, = (G ^ {\ mathsf {T}} WG) ^ {- 1} {\ Big (} G ^ {\ mathsf {T}} W \ Omega WG- G ^ {\ mathsf {T}} WG (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1} G ^ {\ mathsf {T}} WG {\ Big)} ( G ^ {\ mathsf {T}} WG) ^ {- 1}}$
	$= (GTWG) - 1 GTW Ω 1/2 (I - Ω - 1/2 G (GT Ω - 1 G) - 1 GT Ω - 1/2) Ω 1/2 WG (GTWG) - 1 {\ displaystyle \, = (G ^ {\ mathsf {T}} WG) ^ { -1} G ^ {\ mathsf {T}} W \ Omega ^ {1/2} {\ Big (} I- \ Omega ^ {- 1/2} G (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1} G ^ {\ mathsf {T}} \ Omega ^ {- 1/2} {\ Big)} \ Omega ^ {1/2} WG (G ^ {\ mathsf {T}} WG) ^ {- 1}}$ ${\ displaystyle \, = (G ^ {\ mathsf { T}} WG) ^ {- 1} G ^ {\ mathsf {T}} W \ Omega ^ {1/2} {\ Big (} I- \ Omega ^ {- 1/2} G (G ^ {\ mathsf {T}} \ Omega ^ {- 1} G) ^ {- 1} G ^ {\ mathsf {T}} \ Omega ^ {- 1/2} {\ Big)} \ Omega ^ {1/2} WG (G ^ {\ mathsf {T}} WG) ^ {- 1}}$
	$= A (I - B) AT, {\ displaystyle \, = A (IB) A ^ {\ mathsf {T}},}$ ${\ displaystyle \, = A (IB) A ^ {\ mathsf {T}},}$
где мы ввели матрицы A и B, чтобы немного si упростить обозначение; I - это единичная матрица. Мы видим, что матрица B здесь симметрична и идемпотентна : $B 2 = B {\ displaystyle B ^ {2} = B}$ $B ^ {2} = В$ . Это означает, что I − B также симметричен и идемпотентен: $I - B = (I - B) (I - B) T {\ displaystyle IB = (IB) (IB) ^ {\ mathsf {T}}}$ ${\ displaystyle IB = (IB) ( IB) ^ {\ mathsf {T}}}$ . Таким образом, мы можем продолжить факторизацию предыдущего выражения как
	$= A (I - B) (I - B) TAT = (A (I - B)) (A (I - B)) T ≥ 0 {\ displaystyle \, = A (IB) (IB) ^ {\ mathsf {T}} A ^ {\ mathsf {T}} = {\ Big (} A (IB) {\ Big)} {\ Big (} A (IB) {\ Big)} ^ {\ mathsf {T}} \ geq 0}$ ${\ displaystyle \, = A (IB) (IB) ^ {\ mathsf {T}} A ^ {\ mathsf {T}} = {\ Big (} A (IB) {\ Big)} {\ Big (} A (IB) {\ Big)} ^ {\ mathsf {T}} \ geq 0}$

Реализация

Одна из трудностей с реализацией описанного метода состоит в том, что мы не можем взять W = Ω, потому что по определению матрицы Ω, нам нужно знать значение θ 0, чтобы вычислить эту матрицу, а θ 0 - это именно та величина, которую мы не знаем и пытаемся оценить в первую очередь. В случае, когда Y t является iid, мы можем оценить W как

W ^ T (θ ^) = (1 T ∑ t = 1 T g (Y t, θ ^) g (Y t, θ ^) T) - 1. {\ displaystyle {\ hat {W}} _ {T} ({\ hat {\ theta}}) = {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ { T} g (Y_ {t}, {\ hat {\ theta}}) g (Y_ {t}, {\ hat {\ theta}}) ^ {\ mathsf {T}} {\ bigg)} ^ {- 1}.}

{\ displaystyle {\ hat {W}} _ {T} ({\ hat {\ theta}}) = {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, {\ hat {\ theta}}) g (Y_ {t }, {\ hat {\ theta}}) ^ {\ mathsf {T}} {\ bigg)} ^ {- 1}.}

Существует несколько подходов для решения этой проблемы, первый из которых является наиболее популярным:

Двухэтапный допустимый GMM :
- Шаг 1: Возьмите W = I (единичная матрица ) или другую положительно-определенную матрицу и вычислить предварительную оценку GMM $θ ^ (1) {\ displaystyle \ scriptstyle {\ hat {\ theta}} _ {(1)}}$ $\ scriptstyle {\ hat \ theta} _ {{(1)}}$ . Эта оценка согласована для θ 0, хотя и неэффективна.
- Шаг 2: $W ^ T (θ ^ (1)) {\ displaystyle {\ hat {W}} _ {T} ({\ hat {\ theta}} _ {(1)})}$ ${\ displaystyle {\ hat {W}} _ {T} ({\ hat {\ theta }} _ {(1)})}$ сходится по вероятности к Ω и, следовательно, если мы вычислим $θ ^ {\ displaystyle \ scriptstyle {\ hat {\ theta}}}$ $\ scriptstyle {\ hat {\ theta }}$ с этой взвешивающей матрицей оценка будет асимптотически эффективной.
Итерированной GMM . По сути, та же процедура, что и двухэтапный GMM, за исключением того, что матрица $W ^ T {\ displaystyle {\ hat {W}} _ {T}}$ ${\ hat {W}} _ {T}$ пересчитывается несколько раз. То есть оценка, полученная на шаге 2, используется для вычисления весовой матрицы для шага 3 и так далее, пока не будет выполнен некоторый критерий сходимости.
$θ ^ (i + 1) = arg ⁡ min θ ∈ Θ (1 T ∑ t = 1 T g (Y t, θ)) TW ^ T (θ ^ (i)) (1 T ∑ t = 1 T g (Y t, θ)) {\ displaystyle {\ hat {\ theta}} _ {(i + 1)} = \ operatorname {arg} \ min _ {\ theta \ in \ Theta} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W }} _ {T} ({\ hat {\ theta}} _ {(i)}) {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}$ ${\ displaystyle {\ hat {\ theta}} _ {(i + 1)} = \ operatorname {arg} \ min _ {\ theta \ in \ Theta } {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)} ^ {\ mathsf {T} } {\ hat {W}} _ {T} ({\ hat {\ theta}} _ {(i)}) {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1 } ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}$
Асимптотически никакое улучшение не может быть достигнуто с помощью таких итераций, хотя некоторые эксперименты Монте-Карло показывают, что свойства этой оценки с конечной выборкой немного лучше.
Постоянное обновление GMM (CUGMM или CUE). Оценка $θ ^ {\ displaystyle \ scriptstyle {\ hat {\ theta}}}$ $\ scriptstyle {\ hat {\ theta }}$ одновременно с оценкой весовой матрицы W:
$θ ^ = arg ⁡ min θ ∈ Θ (1 T ∑ T знак равно 1 T g (Y t, θ)) TW ^ T (θ) (1 T ∑ T = 1 T g (Y t, θ)) {\ displaystyle {\ hat {\ theta}} = \ operatorname {arg } \ min _ {\ theta \ in \ Theta} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) { \ bigg)} ^ {\ mathsf {T}} {\ hat {W}} _ {T} (\ theta) {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}$ ${\ displaystyle {\ hat {\ theta}} = \ operatorname {arg} \ min _ {\ theta \ in \ Theta} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} _ {T} (\ theta) {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, \ theta) {\ bigg)}}$
В экспериментах Монте-Карло этот метод продемонстрировал лучшую производительность, чем традиционный двухшаговый GMM: оценка имеет меньшее медианное смещение (хотя более толстые хвосты), а J-тест для переопределения ограничений во многих случаях был более надежным.

Еще одна важная проблема в реализации процедуры минимизации заключается в том, что функция должна искать (возможно, многомерное) пространство параметров Θ и находить значение θ, которое минимизирует целевую функцию. Общих рекомендаций по такой процедуре не существует, это является предметом отдельной области, численная оптимизация.

J-тест Саргана – Хансена

Когда количество моментов больше, чем размер вектор параметров θ, модель называется переидентифицированной. Сарган (1958) предложил тесты для чрезмерной идентификации ограничений, основанные на оценках инструментальных переменных, которые распределяются в больших выборках как переменные хи-квадрат со степенями свободы, которые зависят от количества чрезмерно идентифицируемых ограничений. Впоследствии Хансен (1982) применил этот тест к математически эквивалентной формулировке оценок GMM. Обратите внимание, однако, что такая статистика может быть отрицательной в эмпирических приложениях, где модели указаны неправильно, и тесты отношения правдоподобия могут дать понимание, поскольку модели оцениваются как при нулевой, так и при альтернативной гипотезе (Bhargava and Sargan, 1983).

Концептуально мы можем проверить, достаточно ли близко $m ^ (θ ^) {\ displaystyle {\ hat {m}} ({\ hat {\ theta}})}$ ${\ hat {m}} ({\ hat \ theta})$ до нуля, чтобы предположить, что модель хорошо соответствует данным. Затем метод GMM заменил задачу решения уравнения $m ^ (θ) = 0 {\ displaystyle {\ hat {m}} (\ theta) = 0}$ ${\ hat {m}} (\ theta) = 0$ , которое выбирает $θ {\ displaystyle \ theta}$ $\ theta$ , чтобы точно соответствовать ограничениям, вычислением минимизации. Минимизацию всегда можно выполнить, даже если не существует $θ 0 {\ displaystyle \ theta _ {0}}$ $\ theta _ {0}$ , такое что $m (θ 0) = 0 {\ displaystyle m (\ theta _ {0}) = 0}$ $m (\ theta _ {0}) = 0$ . Это то, что делает J-test. J-тест также называется тестом на переопределение ограничений.

Формально мы рассматриваем две гипотезы :

$H 0: m (θ 0) = 0 {\ displaystyle H_ {0}: \ m (\ theta _ {0}) = 0}$ $H_ {0}: \ m (\ theta _ {0}) = 0$ (нулевая гипотеза о том, что модель «действительна») и
$H 1: m (θ) ≠ 0, ∀ θ ∈ Θ {\ displaystyle H_ {1}: \ m (\ theta) \ neq 0, \ \ forall \ theta \ in \ Theta}$ $H_ {1}: \ m (\ theta) \ neq 0, \ \ forall \ theta \ in \ Theta$ (альтернативная гипотеза, эта модель «недействительна»; данные не подходят для соответствия ограничения)

Согласно гипотезе $H 0 {\ displaystyle H_ {0}}$ $H_ {0}$ следующая так называемая J-статистика асимптотически хи-квадрат распределена с k –L степеней свободы. Определим J как:

J ≡ T ⋅ (1 T ∑ t = 1 T g (Y t, θ ^)) TW ^ T (1 T ∑ t = 1 T g (Y t, θ ^)) → d χ К - ℓ 2 {\ Displaystyle J \ Equiv T \ cdot {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, { \ hat {\ theta}}) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} _ {T} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, {\ hat {\ theta}}) {\ bigg)} \ {\ xrightarrow {d}} \ \ chi _ {k- \ ell} ^ { 2}}

{\ displaystyle J \ Equiv T \ cdot {\ bigg (} {\ frac { 1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, {\ hat {\ theta}}) {\ bigg)} ^ {\ mathsf {T}} {\ hat {W}} _ {T} {\ bigg (} {\ frac {1} {T}} \ sum _ {t = 1} ^ {T} g (Y_ {t}, {\ hat {\ theta}}) {\ bigg)} \ {\ xrightarrow {d}} \ \ chi _ {k- \ ell} ^ {2}}

под

H 0, {\ displaystyle H_ {0},}

H_ {0},

где $θ ^ {\ displaystyle {\ hat {\ theta}}}$ ${\ hat {\ theta}}$ - оценка GMM параметра $θ 0 {\ displaystyle \ theta _ {0}}$ $\ theta _ {0}$ , k - количество моментов (размерность вектора g), l - число оцениваемых параметров (размерность вектора θ). Матрица $W ^ T {\ displaystyle {\ hat {W}} _ {T}}$ ${\ hat {W}} _ {T}$ должна сходиться по вероятности к $Ω - 1 {\ displaystyle \ Omega ^ {- 1}}$ $\ Omega ^ {{- 1}}$ , эффективная матрица весов (обратите внимание, что ранее мы требовали только, чтобы W была пропорциональна $Ω - 1 {\ displaystyle \ Omega ^ {- 1}}$ $\ Omega ^ {{- 1}}$ , чтобы оценка была эффективно, однако для проведения J-теста W должно быть точно равно $Ω - 1 {\ displaystyle \ Omega ^ {- 1}}$ $\ Omega ^ {{- 1}}$ , а не просто пропорционально).

Согласно альтернативной гипотезе $H 1 {\ displaystyle H_ {1}}$ $H_ {1}$ , J-статистика асимптотически неограничена:

J → p ∞ {\ displaystyle J \ {\ xrightarrow {p}} \ \ infty}

J \ {\ xrightarrow {p}} \ \ infty

H 1 {\ displaystyle H_ {1}}

H_ {1}

Для проведения теста мы вычисляем значение J на основе данных. Это неотрицательное число. Мы сравниваем его (например) с квантилем 0,95 из $χ k - ℓ 2 {\ displaystyle \ chi _ {k- \ ell} ^ {2}}$ $\ chi _ {{k- \ ell}} ^ {2}$ распределение:

Область действия

Многие другие популярные методы оценки могут быть применены с точки зрения оптимизации GMM:

Обычные наименьшие квадраты (OLS) эквивалентно GMM с условиями момента:
$E ⁡ [xt (yt - xt T β)] = 0 {\ displaystyle \ operatorname {E} [\, x_ {t} (y_ {t} - x_ {t} ^ {\ mathsf {T}} \ beta) \,] = 0}$ ${\ displaystyle \ operatorname {E} [\, x_ {t} (y_ {t} -x_ {t} ^ {\ mathsf {T}} \ beta) \,] = 0}$
Взвешенный метод наименьших квадратов (WLS)
$E ⁡ [xt (yt - xt T β) / σ 2 (XT)] знак равно 0 {\ Displaystyle \ OperatorName {E } [\, x_ {t} (y_ {t} -x_ {t} ^ {\ mathsf {T}} \ beta) / \ sigma ^ {2} (x_ {t}) \,] = 0}$ ${\ displaystyle \ operatorname {E} [\, x_ {t} (y_ {t} -x_ {t} ^ {\ mathsf {T}} \ beta) / \ sigma ^ {2} (x_ {t}) \,] = 0}$
Инструментальные переменные регрессия (IV)
$E ⁡ [zt (yt - xt T β)] = 0 {\ displaystyle \ operatorname {E} [\, z_ {t} (y_ {t} -x_ {t} ^ {\ mathsf {T}} \ beta) \,] = 0}$ ${\ displaystyle \ operatorname {E} [\, z_ {t} (y_ {t} -x_ {t}) ^ {\ mathsf {T}} \ beta) \,] = 0}$
Нелинейный метод наименьших квадратов (NLLS):
$E ⁡ [∇ β g ( xt, β) ⋅ (yt - g (xt, β))] знак равно 0 {\ displaystyle \ operatorname {E} [\, \ nabla _ {\! \ beta} \, g (x_ {t}, \ beta) \ cdot (y_ {t} -g (x_ {t}, \ beta)) \,] = 0}$ $\ operatorname {E} [\, \ nabla _ {{\! \ beta}} \, g (x_ {t}, \ beta) \ cdot (y_ {t} -g (x_ {t}, \ beta)) \,] = 0$
Оценка максимального правдоподобия (MLE):
$E ⁡ [∇ θ ln ⁡ е (xt, θ)] знак равно 0 {\ displaystyle \ operatorname {E} [\, \ nabla _ {\! \ Theta} \ ln f (x_ {t}, \ theta) \,] = 0}$ $\ operatorname {E} [\, \ nabla _ {{\! \ Theta}} \ ln f (x_ { t}, \ theta) \,] = 0$

Реализации

См. Также

Ссылки

Дополнительная литература

Huber, P. (1967). Поведение оценок максимального правдоподобия в нестандартных условиях. Труды Пятого симпозиума Беркли по математической статистике и вероятности 1, 221-233.

Ньюи У., Макфадден Д. (1994). Оценка большой выборки и проверка гипотез, Справочник по эконометрике, глава 36. Elsevier Science.

Imbens, Guido W. ; Spady, Ричард Х.; Джонсон, Филлип (1998). «Теоретико-информационные подходы к выводу в моделях моментных состояний» (PDF). Econometrica. 66 (2): 333–357. DOI : 10.2307 / 2998561. JSTOR 2998561. CS1 maint: ref = harv (ссылка )

Сарган, Дж. Д. (1958). Оценка экономических отношений с использованием инструментальных переменных. Econometrica, 26, 393-415.

Sargan, JD (1959). Оценка взаимосвязей с автокоррелированными остатками с помощью инструментальных переменных. Journal of the Royal Statistical Society B, 21, 91-105.

Wang, CY, Wang, S., and Carroll, R. (1997). Оценка в выборке на основе выбора с ошибкой измерения и бутстрап-анализом. Journal of Econometrics, 77, 65-86.

Bhargava, A., and Sargan, JD (1983). Оценка динамических случайных эффектов на основе панельных данных, охватывающих короткие периоды времени. Econometrica, 51, 6, 1635-1659.

Hayashi, Fumio (2000). Econometrics. Princeton: Princeton University Press. ISBN 0-691-01018-8.
Хансен, Ларс Питер (2002). «Метод моментов». В Смелсер, штат Нью-Джерси ; Бейтс, ПБ (ред.). Международная энциклопедия Социальные и поведенческие науки. Oxford: Pergamon.
Hall, Аластер Р. (2005). Обобщенный метод моментов. Продвинутые тексты по эконометрике. Издательство Оксфордского университета. ISBN 0-19-877520-2.
Faciane, Кирби Адам младший (2006). Статистика для эмпирических и количественных финансов. Статистика для эмпирических и количественных финансов. H.C. Бэрд. ISBN 0-9788208-9-4.
Специальные выпуски журнала Business and Economic Statistics: vol. 14, вып. 3 и т. 20, нет. 4.