В статистика, статистика Дарбина – Ватсона - это тестовая статистика, используемая для обнаружения наличия автокорреляции с запаздыванием 1 в остатках (ошибки прогноза) из регрессионного анализа. Он назван в честь Джеймса Дурбина и Джеффри Уотсона. Распределение малой выборки этого отношения было получено Джоном фон Нейманом (von Neumann, 1941). Дурбин и Уотсон (1950, 1951) применили эту статистику к остаткам регрессий наименьших квадратов и разработали тесты границ для нулевой гипотезы о том, что ошибки серийно не коррелируют с альтернативой, что они следуйте процессу авторегрессии первого порядка . Позже Джон Денис Сарган и Алок Бхаргава разработали несколько статистических критериев типа фон Неймана – Дурбина – Ватсона для нулевой гипотезы о том, что ошибки в регрессионной модели следуют процессу с единичный корень против альтернативной гипотезы о том, что ошибки следуют стационарной авторегрессии первого порядка (Sargan and Bhargava, 1983). Обратите внимание, что распределение этой тестовой статистики не зависит от оцененных коэффициентов регрессии и дисперсии ошибок.
Аналогичная оценка может быть проведена также с помощью теста Бреуша – Годфри и тест Люнга – Бокса.
Если e t равно остаток, заданный как Статистика Дарбина-Уотсона утверждает, что нулевая гипотеза: , альтернативная гипотеза , тогда статистика теста будет
где T - количество наблюдений. Если у вас есть длинная выборка, то ее можно линейно сопоставить с корреляцией Пирсона данных временного ряда с его лагами. Поскольку d приблизительно равно 2 (1 - ), где - выборочная автокорреляция остатков, d = 2 указывает на отсутствие автокорреляции. Значение d всегда находится между 0 и 4. Если статистика Дарбина – Ватсона существенно меньше 2, есть свидетельство положительной серийной корреляции. Как правило, если значение Дарбина – Ватсона меньше 1,0, это может быть поводом для беспокойства. Небольшие значения d указывают на положительную корреляцию последовательных ошибок. Если d>2, последовательные ошибки отрицательно коррелируют. В регрессиях это может означать недооценку уровня статистической значимости.
Для проверки положительной автокорреляции при значении α, тестовая статистика d сравнивается с нижним и верхним критическими значениями (d L, α и d U, α):
Положительная серийная корреляция - это последовательная корреляция, при которой положительная ошибка для одного наблюдения увеличивает шансы на положительную ошибку для другого наблюдения.
Чтобы проверить отрицательную автокорреляцию при значении α, статистику теста (4 - d) сравнивают с нижним и верхним критическими значениями (d L, α и d U, α):
Отрицательная серийная корреляция означает, что положительная ошибка для одного наблюдения увеличивает вероятность отрицательной ошибки для другого наблюдения, а отрицательная ошибка для одного наблюдения увеличивает шансы на положительную ошибку для другого.
Критические значения, d L, α и d U, α, варьируются в зависимости от уровня значимости (α) и степеней свободы в уравнении регрессии. Их вывод сложен - статистики обычно получают их из приложений к статистическим текстам.
Если матрица плана регрессии известна, точные критические значения для распределения при нулевой гипотезе о том, что серийная корреляция не может быть вычислена. При нулевой гипотезе распределяется как
где n - количество наблюдений, а k - количество регрессионных переменных; - независимые стандартные нормальные случайные величины; а - ненулевые собственные значения где - матрица, преобразующая остатки в статистику , т. Е. . Доступен ряд вычислительных алгоритмов для поиска процентилей этого распределения.
Хотя последовательная корреляция не влияет на согласованность оцененных коэффициентов регрессии, она влияет на нашу способность проводить достоверные статистические тесты. Во-первых, F-статистика для проверки общей значимости регрессии может быть завышена при положительной серийной корреляции, потому что среднеквадратичная ошибка (MSE) будет иметь тенденцию недооценивать дисперсию ошибок генеральной совокупности. Во-вторых, положительная последовательная корреляция обычно приводит к тому, что стандартные ошибки метода наименьших квадратов (МНК) для коэффициентов регрессии недооценивают истинные стандартные ошибки. Как следствие, если в регрессии присутствует положительная серийная корреляция, стандартный линейный регрессионный анализ обычно приводит нас к вычислению искусственно малых стандартных ошибок для коэффициента регрессии. Эти небольшие стандартные ошибки приведут к завышению оценочной t-статистики, предполагающей значимость там, где, возможно, ее нет. Завышенная t-статистика, в свою очередь, может привести к неправильному отклонению нулевых гипотез о популяционных значениях параметров регрессионной модели чаще, чем если бы стандартные ошибки были правильно оценены.
Если статистика Дарбина – Ватсона указывает на наличие последовательной корреляции остатков, это можно исправить с помощью процедуры Кокрейна – Оркатта.
Статистика Дарбина – Ватсона, хотя и отображается с помощью многих регрессий программы анализа, не применимы в определенных ситуациях. Например, когда лаговые зависимые переменные включены в объясняющие переменные, тогда использовать этот тест нецелесообразно. Следует использовать h-критерий Дарбина (см. Ниже) или тесты отношения правдоподобия, которые действительны для больших выборок.
Статистика Дарбина – Ватсона смещена для моделей авторегрессионного скользящего среднего, поэтому автокорреляция недооценена. Но для больших выборок легко вычислить несмещенную нормально распределенную h-статистику:
с использованием статистики Дарбина – Ватсона d и оценочной дисперсии
коэффициента регрессии зависимой переменной с задержкой, при условии
Для панельных данных эта статистика была обобщена следующим образом Алоком Бхаргавой и др. (1982):
Эту статистику можно сравнить с табличными значениями отклонения [см. Алок Бхаргава и др. (1982), стр. 537]. Эти значения рассчитываются в зависимости от T (длина сбалансированной панели - периоды времени, в которые были опрошены люди), K (количество регрессоров) и N (количество лиц в панели). Эту статистику теста также можно использовать для проверки нулевой гипотезы о единичном корне по сравнению со стационарными альтернативами в моделях с фиксированными эффектами с использованием другого набора границ (таблицы V и VI), составленных Алоком Бхаргавой и другие. (1982). Версия статистики, подходящая для несбалансированных панельных данных, дана Baltagi and Wu (1999).
dwtest
в пакете lmtest, durbinWatsonTest
(или для краткости dwt) в пакете car и pdwtest
и pbnftest
для моделей панелей в пакете plm.estat dwatson
, после регрессии
в данных временных рядов. Также доступны тест LM Энгла для авторегрессионной условной гетероскедастичности (ARCH), тест на временную волатильность, тест Бреуша – Годфри и альтернативный тест Дурбина для последовательной корреляции. Все (кроме -dwatson-) тестируют отдельно для последовательных корреляций более высокого порядка. Тест Бреуша – Годфри и альтернативный тест Дарбина также допускают регрессоры, которые не являются строго экзогенными.= SUMXMY2 (x_array, y_array) / SUMSQ (array)
statsmodels.stats.stattools.durbin_watson
), но статистические таблицы для критических значений там недоступны. Расчет статистики и p-значения реализован в функции dwtest (https://github.com/dima-quant/dwtest ).