Обобщенный метод наименьших квадратов

редактировать

В статистика, обобщенный метод наименьших квадратов (GLS ) - это метод оценки неизвестных параметров в модели линейной регрессии, когда существует определенная степень корреляции между остатками в регрессионная модель. В этих случаях обычный метод наименьших квадратов и взвешенный метод наименьших квадратов может быть статистически неэффективным или даже давать вводящие в заблуждение выводы. GLS был впервые описан Александром Эйткеном в 1936 году.

Содержание

  • 1 Схема метода
    • 1.1 Свойства
  • 2 Взвешенный метод наименьших квадратов
  • 3 Возможный обобщенный метод наименьших квадратов
  • 4 См. Также
  • 5 Ссылки
  • 6 Дополнительная литература

Схема метода

В стандартных моделях линейной регрессии мы наблюдаем данные {yi, xij} i = 1, …, N, j = 2,…, k {\ displaystyle \ {y_ {i}, x_ {ij} \} _ {i = 1, \ dots, n, j = 2, \ dots, k}}{ \ displaystyle \ {y_ {i}, x_ {ij} \} _ {i = 1, \ dots, n, j = 2, \ dots, k}} на n статистических единицах. Значения ответа помещаются в вектор y = (y 1,…, yn) T {\ displaystyle \ mathbf {y} = \ left (y_ {1}, \ dots, y_ {n} \ right) ^ {\ mathsf {T}}}{\ displaystyle \ mathbf {y} = \ left (y_ {1}, \ dots, y_ {n} \ right) ^ {\ mathsf {T}}} , а значения предикторов помещаются в матрицу плана X = (x 1 T,…, xn T) T {\ displaystyle \ mathbf {X} = \ left (\ mathbf {x} _ {1} ^ {\ mathsf {T}}, \ dots, \ mathbf {x} _ {n} ^ {\ mathsf {T}} \ right) ^ {\ mathsf {T}}}{ \ Displaystyle \ mathbf {X} = \ left (\ mathbf {x} _ {1} ^ {\ mathsf {T}}, \ dots, \ mathbf {x} _ {n} ^ {\ mathsf {T}} \ справа) ^ {\ mathsf {T}}} , где xi = (1, xi 2,…, xik) {\ displaystyle \ mathbf {x} _ {i} = \ left (1, x_ {i2}, \ dots, x_ {ik} \ right)}{\ displaystyle \ mathbf {x} _ {i} = \ left (1, x_ {i2}, \ dots, x_ {ik} \ right)} - вектор из k переменных-предикторов (включая константу) для i-го блока. Модель вынуждает использовать условное среднее для y {\ displaystyle \ mathbf {y}}\ mathbf {y} с заданным X {\ displaystyle \ mathbf {X}}\ mathbf {X} является линейной функцией от X {\ displaystyle \ mathbf {X}}\ mathbf {X} и предполагает условную дисперсию члена ошибки, заданного X {\ displaystyle \ mathbf {X}}\ mathbf {X} - известная невырожденная ковариационная матрица Ω {\ displaystyle \ mathbf {\ Omega}}\ mathbf {\ Omega} . Обычно это записывается как

y = X β + ε, E ⁡ [ε ∣ X] = 0, Cov ⁡ [ε ∣ X] = Ω. {\ displaystyle \ mathbf {y} = \ mathbf {X} \ mathbf {\ beta} + \ mathbf {\ varepsilon}, \ qquad \ operatorname {E} [\ varepsilon \ mid \ mathbf {X}] = 0, \ \ operatorname {Cov} [\ varepsilon \ mid \ mathbf {X}] = \ mathbf {\ Omega}.}{\ displaystyle \ mathbf {y} = \ mathbf {X} \ mathbf {\ beta} + \ mathbf {\ varepsilon}, \ qquad \ operatorname {E} [\ varepsilon \ mid \ mathbf {X}] = 0, \ \ operatorname {Cov} [\ varepsilon \ mid \ mathbf {X}] = \ mathbf {\ Omega}.}

Здесь β ∈ R k {\ displaystyle \ beta \ in \ mathbb {R} ^ { k}}{\ displaystyle \ beta \ in \ mathbb {R} ^ {k}} - вектор неизвестных констант (известных как «коэффициенты регрессии»), которые необходимо оценить на основе данных.

Предположим, что b {\ displaystyle \ mathbf {b}}\ mathbf {b} является приблизительной оценкой для β {\ displaystyle \ mathbf {\ beta}}\ mathbf {\ beta} . Тогда вектор остатка для b {\ displaystyle \ mathbf {b}}\ mathbf {b} будет y - X b {\ displaystyle \ mathbf {y} - \ mathbf {X} \ mathbf {b}}{\ displaystyle \ mathbf {y} - \ mathbf {X} \ mathbf {b}} . Обобщенный метод наименьших квадратов оценивает β {\ displaystyle \ mathbf {\ beta}}\ mathbf {\ beta} путем минимизации квадрата длины Махаланобиса этого остаточного вектора:

β ^ = argmin б (Y - Икс б) T Ω - 1 (Y - Икс б), {\ Displaystyle \ mathbf {\ hat {\ beta}} = {\ underset {b} {\ operatorname {argmin}}} \, (\ mathbf {y} - \ mathbf {X} \ mathbf {b}) ^ {\ mathsf {T}} \, \ mathbf {\ Omega} ^ {- 1} (\ mathbf {y} - \ mathbf {X} \ mathbf {b}),}{\ displaystyle \ mathbf {\ hat {\ beta}} = {\ underset {b} {\ operatorname {argmin}}} \, (\ mathbf {y} - \ mathbf {X} \ mathbf {b}) ^ {\ mathsf {T}} \, \ mathbf {\ Omega} ^ {- 1} (\ mathbf {y} - \ mathbf {X} \ mathbf {b}),}

Поскольку цель представляет собой квадратичную форму в b {\ displaystyle \ mathbf {b}}\ mathbf {b} , оценка имеет явную формулу:

β ^ = (XT Ω - 1 X) - 1 XT Ω - 1 y. {\ displaystyle \ mathbf {\ hat {\ beta}} = \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {\ Omega} ^ {- 1} \ mathbf {X} \ right) ^ {-1} \ mathbf {X} ^ {\ mathsf {T}} \ mathbf {\ Omega} ^ {- 1} \ mathbf {y}.}{\ displaystyle \ mathbf {\ hat {\ beta}} = \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {\ Omega } ^ {- 1} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ mathsf {T}} \ mathbf {\ Omega} ^ {- 1} \ mathbf {y}.}

Свойства

Оценка GLS: несмещенный, согласованный, эффективный и асимптотически нормальный с E ⁡ [β ^ ∣ X] = β {\ displaystyle \ имя оператора {E} [{\ hat {\ beta}} \ mid \ mathbf {X}] = \ beta}{\ displaystyle \ operatorname {E} [{\ hat {\ beta}} \ mid \ mathbf {X}] = \ бета} и Cov ⁡ [β ^ ∣ X] = (XT Ω - 1 X) - 1 {\ displaystyle \ operatorname {Cov} [{\ hat {\ beta}} \ mid \ mathbf {X}] = (\ mathbf {X} ^ {\ mathsf {T}} \ Omega ^ {- 1} \ mathbf {X}) ^ {- 1}}{\ displaystyle \ operatorname {Cov} [{\ hat {\ beta}} \ mid \ mathbf {X}] = (\ mathbf {X} ^ {\ mathsf {T }} \ Omega ^ {- 1} \ mathbf {X}) ^ {- 1}} . GLS эквивалентен применению обычного метода наименьших квадратов к линейно преобразованной версии данных. Чтобы увидеть это, множите Ω = CCT {\ displaystyle \ mathbf {\ Omega} = \ mathbf {C} \ mathbf {C} ^ {\ mathsf {T}}}{\ displaystyle \ mathbf {\ Omega} = \ mathbf {C} \ mathbf {C} ^ {\ mathsf {T}}} , например, используя разложение Холецкого. Затем, если мы предварительно умножим обе части уравнения , y = X β + ε {\ displaystyle \ mathbf {y} = \ mathbf {X} \ mathbf {\ beta} + \ mathbf {\ varepsilon}}{\ displaystyle \ mathbf {y } = \ mathbf {X} \ mathbf {\ beta} + \ mathbf {\ varepsilon}} по C - 1 {\ displaystyle \ mathbf {C} ^ {- 1}}{\ displaystyle \ mathbf {C} ^ {- 1}} , мы получаем эквивалентную линейную модель y ∗ = X ∗ β + ε ∗ {\ displaystyle \ mathbf {y} ^ {*} = \ mathbf {X} ^ {*} \ mathbf {\ beta} + \ mathbf {\ varepsilon} ^ {*}}{\ displaystyle \ mathbf {y} ^ {*} = \ mathbf {X} ^ { *} \ mathbf {\ beta} + \ mathbf {\ varepsilon} ^ {*}} где y ∗ знак равно C - 1 Y {\ Displaystyle \ mathbf {y} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {y}}{\ displaystyle \ mathbf {y} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {y}} , X ∗ = C - 1 X {\ Displaystyle \ mathbf {X} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {X}}{\ displaystyle \ mathbf {X} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {X}} и ε ∗ = C - 1 ε {\ displaystyle \ mathbf {\ varepsilon} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {\ varepsilon}}{\ displaystyle \ mathbf {\ varepsilon} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {\ varepsilon}} . В этой модели Var ⁡ [ε ∗ ∣ X] = C - 1 Ω (C - 1) T = I {\ displaystyle \ operatorname {Var} [\ varepsilon ^ {*} \ mid \ mathbf {X}] = \ mathbf {C} ^ {- 1} \ mathbf {\ Omega} \ left (\ mathbf {C} ^ {- 1} \ right) ^ {\ mathsf {T}} = \ mathbf {I}}{\ displaystyle \ operatorname {Var} [ \ varepsilon ^ {*} \ mid \ mathbf {X}] = \ mathbf {C} ^ {- 1} \ mathbf {\ Omega} \ left (\ mathbf {C} ^ {- 1} \ right) ^ {\ mathsf {T}} = \ mathbf {I}} , где I {\ displaystyle \ mathbf {I}}\ mathbf {I} - это единичная матрица. Таким образом, мы можем эффективно оценить β {\ displaystyle \ mathbf {\ beta}}\ mathbf {\ beta} , применив OLS к преобразованным данным, что требует минимизации

(y ∗ - X ∗ β) T (y ∗ - X ∗ β) = (y - X b) T Ω - 1 (y - X b). {\ displaystyle \ left (\ mathbf {y} ^ {*} - \ mathbf {X} ^ {*} \ mathbf {\ beta} \ right) ^ {\ mathsf {T}} (\ mathbf {y} ^ { *} - \ mathbf {X} ^ {*} \ mathbf {\ beta}) = (\ mathbf {y} - \ mathbf {X} \ mathbf {b}) ^ {\ mathsf {T}} \, \ mathbf {\ Omega} ^ {- 1} (\ mathbf {y} - \ mathbf {X} \ mathbf {b}).}{\ displaystyle \ left (\ mathbf {y} ^ {*} - \ mathbf {X} ^ {*} \ mathbf {\ beta} \ right) ^ {\ mathsf {T}} (\ mathbf {y} ^ {*} - \ mathbf {X} ^ {* } \ mathbf {\ beta}) = (\ mathbf {y} - \ mathbf {X} \ mathbf {b}) ^ {\ mathsf {T}} \, \ mathbf {\ Omega} ^ {- 1} (\ mathbf {y} - \ mathbf {X} \ mathbf {b}).}

Это приводит к стандартизации масштаба ошибок и их «декорреляции». Поскольку OLS применяется к данным с гомоскедастическими ошибками, применяется теорема Гаусса – Маркова, и поэтому оценка GLS является наилучшей линейной несмещенной оценкой для β.

Взвешенный метод наименьших квадратов

Особый случай GLS, называемый взвешенным методом наименьших квадратов (WLS), возникает, когда все недиагональные элементы Ω равны 0. Эта ситуация возникает, когда дисперсии наблюдаемых значений неравны (т.е. присутствует гетероскедастичность ), но между наблюдаемыми отклонениями нет корреляции. Вес для единицы i пропорционален обратной величине дисперсии ответа для единицы i.

Возможный обобщенный метод наименьших квадратов

Если ковариация ошибок Ω {\ displaystyle \ Omega}\ Omega неизвестно, можно получить согласованную оценку Ω {\ displaystyle \ Omega}\ Omega , скажем, Ω ^ {\ displaystyle {\ widehat {\ Omega }}}\ widehat \ Omega с использованием реализуемой версии GLS, известной как возможная обобщенная оценка методом наименьших квадратов (FGLS ). В FGLS моделирование осуществляется в два этапа: (1) модель оценивается с помощью OLS или другого согласованного (но неэффективного) средства оценки, а остатки используются для построения согласованного средства оценки ковариационной матрицы ошибок (для этого часто требуется для исследования модели с добавлением дополнительных ограничений, например, если ошибки следуют процессу временных рядов, статистику обычно требуются некоторые теоретические допущения по этому процессу, чтобы гарантировать, что доступна согласованная оценка); и (2) используя согласованную оценку ковариационной матрицы ошибок, можно реализовать идеи GLS.

В то время как GLS более эффективен, чем OLS при гетероскедастичности или автокорреляции, это неверно для FGLS. Возможная оценка - при условии, что ковариационная матрица ошибок оценивается последовательно, асимптотически более эффективна, но для выборки малого или среднего размера она может быть на самом деле менее эффективной, чем OLS. Вот почему некоторые авторы предпочитают использовать OLS и переформулировать свои выводы, просто рассматривая альтернативную оценку дисперсии оценки, устойчивую к гетероскедастичности или последовательной автокорреляции. Но для больших выборок FGLS предпочтительнее OLS при гетероскедастичности или серийной корреляции. Следует предупредить о том, что оценка FGLS не всегда согласована. Один случай, в котором FGLS может быть непоследовательным, - это наличие отдельных конкретных фиксированных эффектов.

В целом этот оценщик имеет другие свойства, чем GLS. Для больших выборок (т. Е. Асимптотически) все свойства (при соответствующих условиях) являются общими по отношению к GLS, но для конечных выборок свойства оценок FGLS неизвестны: они сильно различаются для каждой конкретной модели, и, как правило, их точные распределения не может быть получен аналитически. Для конечных выборок FGLS в некоторых случаях может быть даже менее эффективным, чем OLS. Таким образом, хотя GLS можно сделать выполнимым, не всегда разумно применять этот метод, когда образец небольшой. Метод, который иногда используется для повышения точности оценок в конечных выборках, заключается в повторении, то есть взятии остатков из FGLS для обновления оценки ковариации ошибок, а затем обновлении оценки FGLS, итеративно применяя ту же идею до тех пор, пока оценки не изменятся меньше, чем некоторые толерантность. Но этот метод не обязательно сильно повышает эффективность оценщика, если исходная выборка была небольшой. Разумным вариантом, когда выборки не слишком большие, является применение OLS, но отказ от классической оценки дисперсии

σ 2 ∗ (X ′ X) - 1 {\ displaystyle \ sigma ^ {2} * (X'X) ^ {-1}}\sigma ^{2}*(X'X)^{{-1}}

(что несовместимо в этой структуре) и с использованием оценки HAC (согласованность гетероскедастичности и автокорреляции). Например, в контексте автокорреляции мы можем использовать оценку Бартлетта (часто известную как оценка Ньюи-Уэста, поскольку эти авторы популяризовали использование этой оценки среди эконометристов в своей статье Econometrica 1987 года), а в гетероскедастическом контексте мы можем использовать Eicker –Оценщик белого. Этот подход намного безопаснее, и это подходящий путь, если только выборка не большая, а «большой» иногда является скользкой проблемой (например, если распределение ошибок асимметрично, требуемая выборка будет намного больше).

Оценка методом наименьших квадратов (OLS) вычисляется как обычно:

β ^ OLS = (X ′ X) - 1 X ′ y {\ displaystyle {\ widehat {\ beta}} _ {\ text {OLS}} = (X'X) ^ {- 1} X'y}{\displaystyle {\widehat {\beta }}_{\text{OLS}}=(X'X)^{-1}X'y}

и оценки остатков u ^ j = (Y - X β ^ OLS) j {\ displaystyle {\ widehat {u}} _ {j} = (YX {\ widehat {\ beta}} _ {\ text {OLS}}) _ {j}}{\ displaystyle {\ widehat {u}} _ { j} = (YX {\ widehat {\ beta}} _ {\ text {OLS}}) _ {j}} .

Для простоты рассмотрим модель гетероскедастических ошибок. Предположим, что ковариационная матрица Ω {\ displaystyle \ Omega}\ Omega вектора ошибок диагональна, или, что то же самое, ошибки отдельных наблюдений некоррелированы. Тогда каждая диагональная запись может быть оценена с помощью подобранных остатков u ^ j {\ displaystyle {\ widehat {u}} _ {j}}\ widehat {u} _ {j} , поэтому Ω ^ OLS {\ displaystyle {\ widehat {\ Omega}} _ {OLS}}\ widehat {\ Omega} _ {{OLS}} может быть построен с помощью

Ω ^ OLS = diag ⁡ (σ ^ 1 2, σ ^ 2 2,…, σ ^ n 2). {\ displaystyle {\ widehat {\ Omega}} _ {\ text {OLS}} = \ operatorname {diag} ({\ widehat {\ sigma}} _ {1} ^ {2}, {\ widehat {\ sigma} } _ {2} ^ {2}, \ dots, {\ widehat {\ sigma}} _ {n} ^ {2}).}{\ displaystyle {\ widehat {\ Omega}} _ {\ text {OLS }} = \ operatorname {diag} ({\ widehat {\ sigma}} _ {1} ^ {2}, {\ widehat {\ sigma}} _ {2} ^ {2}, \ dots, {\ widehat { \ sigma}} _ {n} ^ {2}).}

Важно отметить, что возведенные в квадрат остатки не могут использоваться в предыдущем выражение; нам нужна оценка дисперсии ошибок. Для этого мы можем использовать параметрическую модель гетероскедастичности или непараметрическую оценку. После выполнения этого шага мы можем продолжить:

Оценить β FGLS 1 {\ displaystyle \ beta _ {FGLS1}}\ beta _ {{FGLS1}} с использованием Ω ^ OLS {\ displaystyle { \ widehat {\ Omega}} _ {\ text {OLS}}}{\ displaystyle {\ widehat {\ Omega}} _ {\ text {OLS}}} с использованием взвешенных наименьших квадратов

β ^ FGLS 1 = (X ′ Ω ^ OLS - 1 X) - 1 X ′ Ω ^ OLS - 1 y {\ displaystyle {\ widehat {\ beta}} _ {FGLS1} = (X '{\ widehat {\ Omega}} _ {\ text {OLS}} ^ {- 1} X) ^ {-1} X '{\ widehat {\ Omega}} _ {\ text {OLS}} ^ {- 1} y}{\displaystyle {\widehat {\beta }}_{FGLS1}=(X'{\widehat {\Omega }}_{\text{OLS}}^{-1}X)^{-1}X'{\widehat {\Omega }}_{\text{OLS}}^{-1}y}

Процедуру можно повторять. Первая итерация задается следующим образом:

u ^ FGLS 1 = Y - X β ^ FGLS 1 {\ displaystyle {\ widehat {u}} _ {FGLS1} = YX {\ widehat {\ beta}} _ {FGLS1}}\ widehat {u} _ {{FGLS1}} = YX \ widehat \ beta _ {{FGLS1}}
Ω ^ FGLS 1 = диаг ⁡ (σ ^ FGLS 1, 1 2, σ ^ FGLS 1, 2 2,…, σ ^ FGLS 1, n 2) {\ displaystyle {\ widehat {\ Omega}} _ { FGLS1} = \ operatorname {diag} ({\ widehat {\ sigma}} _ {FGLS1,1} ^ {2}, {\ widehat {\ sigma}} _ {FGLS1,2} ^ {2}, \ dots, {\ widehat {\ sigma}} _ {FGLS1, n} ^ {2})}\ widehat {\ Omega} _ {{FGLS1}} = \ operatorname {diag} (\ widehat {\ sigma} _ {{FGLS1,1}} ^ {2}, \ widehat {\ sigma} _ {{FGLS1,2}} ^ {2}, \ dots, \ widehat {\ sigma} _ {{FGLS1, n} } ^ {2})
β ^ FGLS 2 = (X ′ Ω ^ FGLS 1 - 1 X) - 1 X ′ Ω ^ FGLS 1 - 1 y {\ displaystyle {\ widehat {\ beta}} _ {FGLS2} = (X '{\ widehat {\ Omega}} _ {FGLS1} ^ {- 1} X) ^ {- 1} X' {\ widehat {\ Omega}} _ {FGLS1} ^ {- 1} y}\widehat \beta _{{FGLS2}}=(X'\widehat {\Omega }_{{FGLS1}}^{{-1}}X)^{{-1}}X'\widehat {\Omega }_{{FGLS1}}^{{-1}}y

Эту оценку Ω ^ {\ displaystyle {\ widehat {\ Omega}}}\ widehat {\ Omega} можно повторить до сходимости.

В условиях регулярности любая оценка FGLS (или оценка любой из ее итераций, если мы повторяем конечное число раз) асимптотически распределена как

n (β ^ FGLS - β) → d N (0, V). {\ displaystyle {\ sqrt {n}} ({\ hat {\ beta}} _ {FGLS} - \ beta) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \! \ left (0, \, V \ right).}{\ sqrt {n}} ({\ hat \ beta} _ {{FGLS}} - \ beta) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \! \ left (0, \, V \ right).

где n - размер выборки, а

V = p - lim ⁡ (X ′ Ω - 1 X / T) {\ displaystyle V = \ operatorname {p-lim} ( X '\ Omega ^ {- 1} X / T)}{\displaystyle V=\operatorname {p-lim} (X'\Omega ^{-1}X/T)}

здесь p-lim означает предел вероятности

См. Также

Литература

Дополнительная литература

Последняя правка сделана 2021-05-21 14:49:15
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте