Статистика Дарбина – Уотсона

редактировать

Тестовая статистика

В статистика, статистика Дарбина – Ватсона - это тестовая статистика, используемая для обнаружения наличия автокорреляции с запаздыванием 1 в остатках (ошибки прогноза) из регрессионного анализа. Он назван в честь Джеймса Дурбина и Джеффри Уотсона. Распределение малой выборки этого отношения было получено Джоном фон Нейманом (von Neumann, 1941). Дурбин и Уотсон (1950, 1951) применили эту статистику к остаткам регрессий наименьших квадратов и разработали тесты границ для нулевой гипотезы о том, что ошибки серийно не коррелируют с альтернативой, что они следуйте процессу авторегрессии первого порядка . Позже Джон Денис Сарган и Алок Бхаргава разработали несколько статистических критериев типа фон Неймана – Дурбина – Ватсона для нулевой гипотезы о том, что ошибки в регрессионной модели следуют процессу с единичный корень против альтернативной гипотезы о том, что ошибки следуют стационарной авторегрессии первого порядка (Sargan and Bhargava, 1983). Обратите внимание, что распределение этой тестовой статистики не зависит от оцененных коэффициентов регрессии и дисперсии ошибок.

Аналогичная оценка может быть проведена также с помощью теста Бреуша – Годфри и тест Люнга – Бокса.

Содержание

1 Вычисление и интерпретация статистики Дарбина – Ватсона
2 h-статистика Дарбина
3 Тест Дарбина – Ватсона для панельных данных
4 Реализации в статистике пакеты
5 См. также
6 Примечания
7 Ссылки
8 Внешние ссылки

Вычисление и интерпретация статистики Дарбина – Ватсона

Если e t равно остаток, заданный как $et = ρ et - 1 + ν t, {\ displaystyle e_ {t} = \ rho e_ {t-1} + \ nu _ {t},}$ ${\ displaystyle e_ {t} = \ rho e_ {t- 1} + \ nu _ {t},}$ Статистика Дарбина-Уотсона утверждает, что нулевая гипотеза: $ρ = 0 {\ displaystyle \ rho = 0}$ ${\ displaystyle \ rho = 0}$ , альтернативная гипотеза $ρ ≠ 0 {\ displaystyle \ rho \ neq 0 }$ ${\ displaystyle \ rho \ neq 0}$ , тогда статистика теста будет

d = ∑ t = 2 T (et - et - 1) 2 ∑ t = 1 T et 2, {\ displaystyle d = {\ sum _ {t = 2} ^ {T} ( e_ {t} -e_ {t-1}) ^ {2} \ over {\ sum _ {t = 1} ^ {T} e_ {t} ^ {2}}},}

d = {\ sum _ {{t = 2}} ^ {T} (e_ {t} -e _ {{t-1}}) ^ {2} \ over {\ sum _ {{t = 1}} ^ {T} e_ {t} ^ { 2}}},

где T - количество наблюдений. Если у вас есть длинная выборка, то ее можно линейно сопоставить с корреляцией Пирсона данных временного ряда с его лагами. Поскольку d приблизительно равно 2 (1 - $ρ ^ {\ displaystyle {\ hat {\ rho}}}$ ${\ displaystyle {\ hat {\ rho}}}$ ), где $ρ ^ {\ displaystyle {\ hat {\ rho }}}$ ${\ displaystyle {\ hat {\ rho}}}$ - выборочная автокорреляция остатков, d = 2 указывает на отсутствие автокорреляции. Значение d всегда находится между 0 и 4. Если статистика Дарбина – Ватсона существенно меньше 2, есть свидетельство положительной серийной корреляции. Как правило, если значение Дарбина – Ватсона меньше 1,0, это может быть поводом для беспокойства. Небольшие значения d указывают на положительную корреляцию последовательных ошибок. Если d>2, последовательные ошибки отрицательно коррелируют. В регрессиях это может означать недооценку уровня статистической значимости.

Для проверки положительной автокорреляции при значении α, тестовая статистика d сравнивается с нижним и верхним критическими значениями (d L, α и d U, α):

Если d < dL, α, есть статистические доказательства того, что члены ошибки положительно автокоррелированы.
Если d>d U, α, нет статистических свидетельств того, что члены ошибки положительно автокоррелированы.
Если d L, α < d < dU, α, тест неубедителен.

Положительная серийная корреляция - это последовательная корреляция, при которой положительная ошибка для одного наблюдения увеличивает шансы на положительную ошибку для другого наблюдения.

Чтобы проверить отрицательную автокорреляцию при значении α, статистику теста (4 - d) сравнивают с нижним и верхним критическими значениями (d L, α и d U, α):

Если (4 - d) < dL, α, существует статистическое свидетельство того, что члены ошибки имеют отрицательную автокорреляцию.
Если ( 4 - d)>d U, α, нет статистических свидетельств того, что члены ошибки имеют отрицательную автокорреляцию.
Если d L, α < (4 − d) < dU, α, тест неубедителен.

Отрицательная серийная корреляция означает, что положительная ошибка для одного наблюдения увеличивает вероятность отрицательной ошибки для другого наблюдения, а отрицательная ошибка для одного наблюдения увеличивает шансы на положительную ошибку для другого.

Критические значения, d L, α и d U, α, варьируются в зависимости от уровня значимости (α) и степеней свободы в уравнении регрессии. Их вывод сложен - статистики обычно получают их из приложений к статистическим текстам.

Если матрица плана $X {\ displaystyle \ mathbf {X}}$ $\ mathbf {X}$ регрессии известна, точные критические значения для распределения $d {\ displaystyle d}$ $d$ при нулевой гипотезе о том, что серийная корреляция не может быть вычислена. При нулевой гипотезе $d {\ displaystyle d}$ $d$ распределяется как

∑ i = 1 n - k ν i ξ i 2 ∑ i = 1 n - k ξ i 2, {\ displaystyle {\ frac {\ sum _ {i = 1} ^ {nk} \ nu _ {i} \ xi _ {i} ^ {2}} {\ sum _ {i = 1} ^ {nk} \ xi _ {i} ^ {2}}},}

{\ frac {\ sum _ {{i = 1}} ^ {{nk}} \ nu _ {i} \ xi _ {i} ^ {2}} {\ sum _ {{i = 1}} ^ {{nk}} \ xi _ {i} ^ {2}}},

где n - количество наблюдений, а k - количество регрессионных переменных; $ξ i {\ displaystyle \ xi _ {i}}$ $\ xi _ { i}$ - независимые стандартные нормальные случайные величины; а $ν я {\ displaystyle \ nu _ {i}}$ $\ nu _ {i}$ - ненулевые собственные значения $(I - X (XTX) - 1 XT) A, {\ displaystyle (\ mathbf {I} - \ mathbf {X} (\ mathbf {X} ^ {T} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {T}) \ mathbf {A},}$ $({\ mathbf {I}} - {\ mathbf {X}} ({\ mathbf {X}} ^ {T} {\ mathbf {X}}) ^ {{- 1}} {\ mathbf {X}} ^ {T}) {\ mathbf {A}},$ где $A {\ displaystyle \ mathbf {A}}$ $\ mathbf {A}$ - матрица, преобразующая остатки в статистику $d {\ displaystyle d}$ $d$ , т. Е. $d = e TA e. {\ displaystyle d = \ mathbf {e} ^ {T} \ mathbf {A} \ mathbf {e}.}$ $d = {\ mathbf {e}} ^ {T} {\ mathbf {A}} {\ mathbf {e}}.$ . Доступен ряд вычислительных алгоритмов для поиска процентилей этого распределения.

Хотя последовательная корреляция не влияет на согласованность оцененных коэффициентов регрессии, она влияет на нашу способность проводить достоверные статистические тесты. Во-первых, F-статистика для проверки общей значимости регрессии может быть завышена при положительной серийной корреляции, потому что среднеквадратичная ошибка (MSE) будет иметь тенденцию недооценивать дисперсию ошибок генеральной совокупности. Во-вторых, положительная последовательная корреляция обычно приводит к тому, что стандартные ошибки метода наименьших квадратов (МНК) для коэффициентов регрессии недооценивают истинные стандартные ошибки. Как следствие, если в регрессии присутствует положительная серийная корреляция, стандартный линейный регрессионный анализ обычно приводит нас к вычислению искусственно малых стандартных ошибок для коэффициента регрессии. Эти небольшие стандартные ошибки приведут к завышению оценочной t-статистики, предполагающей значимость там, где, возможно, ее нет. Завышенная t-статистика, в свою очередь, может привести к неправильному отклонению нулевых гипотез о популяционных значениях параметров регрессионной модели чаще, чем если бы стандартные ошибки были правильно оценены.

Если статистика Дарбина – Ватсона указывает на наличие последовательной корреляции остатков, это можно исправить с помощью процедуры Кокрейна – Оркатта.

Статистика Дарбина – Ватсона, хотя и отображается с помощью многих регрессий программы анализа, не применимы в определенных ситуациях. Например, когда лаговые зависимые переменные включены в объясняющие переменные, тогда использовать этот тест нецелесообразно. Следует использовать h-критерий Дарбина (см. Ниже) или тесты отношения правдоподобия, которые действительны для больших выборок.

h-статистика Дарбина

Статистика Дарбина – Ватсона смещена для моделей авторегрессионного скользящего среднего, поэтому автокорреляция недооценена. Но для больших выборок легко вычислить несмещенную нормально распределенную h-статистику:

h = (1 - 1 2 d) T 1 - T ⋅ Var ^ (β ^ 1), {\ displaystyle h = \ left (1 - {\ frac {1} {2}} d \ right) {\ sqrt {\ frac {T} {1-T \ cdot {\ widehat {\ operatorname {Var}}} ({\ widehat {\ beta}} _ {1} \,)}}},}

h = \ left (1 - {\ frac {1} {2}} d \ right) {\ sqrt {{\ frac {T} {1-T \ cdot \ widehat {\ operatorname {Var}} (\ widehat \ beta _ {1} \,)}}}},

с использованием статистики Дарбина – Ватсона d и оценочной дисперсии

Var ^ (β ^ 1) {\ displaystyle {\ widehat {\ operatorname {Var}}} ({\ widehat {\ beta}} _ {1})}

{\ displaystyle {\ widehat {\ operatorname {Var}}} ({\ widehat {\ beta}} _ {1})}

коэффициента регрессии зависимой переменной с задержкой, при условии

T ⋅ Var ^ (β ^ 1) < 1. {\displaystyle T\cdot {\widehat {\operatorname {Var} }}({\widehat {\beta }}_{1})<1.\,}

{\ di splaystyle T \ cdot {\ widehat {\ operatorname {Var}}} ({\ widehat {\ beta}} _ {1}) <1. \,}

Тест Дарбина – Ватсона для панельных данных

Для панельных данных эта статистика была обобщена следующим образом Алоком Бхаргавой и др. (1982):

Если e i, t - это остаток из регрессии OLS с фиксированными эффектами для каждой единицы наблюдения i, связанной с наблюдением на панели i в момент времени t., то тестовая статистика

dpd = ∑ i = 1 N ∑ t = 2 T (ei, t - ei, t - 1) 2 ∑ i = 1 N ∑ t = 1 T ei, t 2. {\ displaystyle d_ {pd} = {\ frac {\ sum _ {i = 1} ^ {N} \ sum _ {t = 2} ^ {T} (e_ {i, t} -e_ {i, t- 1}) ^ {2}} {\ sum _ {i = 1} ^ {N} \ sum _ {t = 1} ^ {T} e_ {i, t} ^ {2}}}.}

d _ {{pd}} = {\ frac {\ sum _ {{i = 1}} ^ {N} \ sum _ {{t = 2}} ^ {T} (e_ { {i, t}} - e _ {{i, t-1}}) ^ {2}} {\ sum _ {{i = 1}} ^ {N} \ sum _ {{t = 1}} ^ { T} e _ {{i, t}} ^ {2}}}.

Эту статистику можно сравнить с табличными значениями отклонения [см. Алок Бхаргава и др. (1982), стр. 537]. Эти значения рассчитываются в зависимости от T (длина сбалансированной панели - периоды времени, в которые были опрошены люди), K (количество регрессоров) и N (количество лиц в панели). Эту статистику теста также можно использовать для проверки нулевой гипотезы о единичном корне по сравнению со стационарными альтернативами в моделях с фиксированными эффектами с использованием другого набора границ (таблицы V и VI), составленных Алоком Бхаргавой и другие. (1982). Версия статистики, подходящая для несбалансированных панельных данных, дана Baltagi and Wu (1999).

Реализации в статистических пакетах

R : функция dwtestв пакете lmtest, durbinWatsonTest(или для краткости dwt) в пакете car и pdwtestи pbnftestдля моделей панелей в пакете plm.
MATLAB : dwtest в панели инструментов статистики.
Mathematica : статистика Дарбина – Ватсона (d) включена в качестве опции в функцию LinearModelFit.
SAS : стандартный вывод при использовании модели proc и является опцией (dw) при использовании процесса reg.
EViews : автоматически вычисляется при использовании регрессии OLS
gretl : автоматически вычисляется при использовании регрессии OLS
Stata : команда estat dwatson, после регрессиив данных временных рядов. Также доступны тест LM Энгла для авторегрессионной условной гетероскедастичности (ARCH), тест на временную волатильность, тест Бреуша – Годфри и альтернативный тест Дурбина для последовательной корреляции. Все (кроме -dwatson-) тестируют отдельно для последовательных корреляций более высокого порядка. Тест Бреуша – Годфри и альтернативный тест Дарбина также допускают регрессоры, которые не являются строго экзогенными.
Excel : хотя Microsoft Excel 2007 не имеет конкретной функции Дарбина – Ватсона, d-статистика может быть рассчитана с использованием = SUMXMY2 (x_array, y_array) / SUMSQ (array)
Minitab : параметр для сообщения статистики в окне сеанса можно найти в поле «Параметры» в разделе «Регрессия» и в поле «Результаты» в разделе Общая регрессия.
Python : функция durbin_watson включена в пакет statsmodels (statsmodels.stats.stattools.durbin_watson), но статистические таблицы для критических значений там недоступны. Расчет статистики и p-значения реализован в функции dwtest (https://github.com/dima-quant/dwtest ).
SPSS : включен в качестве опции в функцию регрессии.
Юлия : функция DurbinWatsonTest доступна в пакете HypothesisTests.

См. Также

Примечания

Ссылки

Внешние ссылки