Метод Бокса – Дженкинса

редактировать

В анализе временных рядов метод Бокса – Дженкинса, назван в честь статистиков Джордж Бокс и Гвилим Дженкинс применяют авторегрессионное скользящее среднее (ARMA) или авторегрессионное интегрированное скользящее среднее (ARIMA) модели для поиска наилучшего соответствия модели временного ряда прошлым значениям временного ряда.

Содержание

1 Подход к моделированию
2 Идентификация модели Бокса – Дженкинса
- 2.1 Стационарность и сезонность
  - 2.1.1 Определение стационарности
  - 2.1.2 Определение сезонности
  - 2.1.3 Разница для достижения стационарности
  - 2.1.4 Сезонная разность
- 2.2 Определение p и q
  - 2.2.1 Автокорреляция и графики частичной автокорреляции
3 Оценка модели Бокса – Дженкинса
4 Диагностика модели Бокса – Дженкинса
- 4.1 Предположения для стабильного одномерного процесса
5 Ссылки
6 Дополнительная литература
7 Внешние ссылки

Подход к моделированию

Исходная модель использует итеративный трехэтапный подход к моделированию:

Идентификация модели и выбор модели : убедитесь, что переменные стационарны, идентифицируя сезонность в зависимого ряда (сезонная дифференциация, если необходимо), и использование графиков функций автокорреляции (ACF) и частичной автокорреляции (PACF) зависимого временного ряда, чтобы решить, какие (если есть) в модели следует использовать компонент авторегрессии или скользящего среднего.
Оценка параметров с использованием алгоритмов вычисления для получения коэффициентов, которые наилучшим образом соответствуют выбранной модели ARIMA. В наиболее распространенных методах используется оценка максимального правдоподобия или нелинейная оценка методом наименьших квадратов.
Статистическая проверка модели путем проверки того, соответствует ли оценочная модель спецификациям стационарного одномерного процесса. В частности, остатки должны быть независимыми друг от друга и постоянными по среднему значению и изменению во времени. (Построение графика среднего и дисперсии остатков во времени и выполнение теста Льюнга – Бокса или построение автокорреляции и частичной автокорреляции остатков полезно для выявления ошибок в спецификации.) Если оценка неадекватна, мы должны вернуться к шаг первый и попытка построить лучшую модель.

Данные, которые они использовали, были получены из газовой печи. Эти данные хорошо известны как данные газовых печей Бокса и Дженкинса для сравнительного анализа прогнозных моделей.

Commandeur Koopman (2007, §10.4) утверждают, что подход Бокса – Дженкинса принципиально проблематичен. Проблема возникает из-за того, что «в экономической и социальной областях реальные ряды никогда не бывают стационарными, сколько бы различий ни проводилось». Таким образом, исследователь должен столкнуться с вопросом: насколько близко к стационарному достаточно близко? Как отмечают авторы, «это сложный вопрос». Авторы далее утверждают, что вместо использования Бокса – Дженкинса лучше использовать методы пространства состояний, поскольку в этом случае не требуется стационарность временных рядов.

Идентификация модели Бокса – Дженкинса

Стационарность и сезонность

Первым шагом в разработке модели Бокса – Дженкинса является определение того, является ли временной ряд стационарный и наличие какой-либо значительной сезонности, которую необходимо моделировать.

Определение стационарности

Стационарность можно оценить по графику последовательности прогонов. График последовательности выполнения должен показывать постоянное местоположение и масштаб . Его также можно обнаружить по графику автокорреляции . В частности, нестационарность часто указывается графиком автокорреляции с очень медленным затуханием.

Определение сезонности

Сезонность (или периодичность) обычно можно оценить по графику автокорреляции, графику сезонной подсерии или спектральному графику.

Дифференциация для достижения стационарности

Бокс и Дженкинс рекомендуют использовать дифференцированный подход для достижения стационарности. Однако подгонка кривой и вычитание подобранных значений из исходных данных также можно использовать в контексте моделей Бокса – Дженкинса.

Сезонная дифференциация

На этапе идентификации модели цель состоит в том, чтобы обнаружить сезонность, если она существует, и определить порядок условий сезонной авторегрессии и сезонного скользящего среднего. Для многих рядов период известен, и достаточно одного срока сезонности. Например, для ежемесячных данных обычно включается либо сезонный член AR 12, либо сезонный член MA 12. Для моделей Бокса – Дженкинса сезонность не удаляется явно перед подгонкой модели. Вместо этого в программу оценки ARIMA включается порядок сезонных членов в спецификации модели. Однако может быть полезно применить сезонную разницу к данным и восстановить графики автокорреляции и частичной автокорреляции. Это может помочь в идентификации несезонной составляющей модели. В некоторых случаях сезонная разница может устранить большую часть или весь эффект сезонности.

Определить p и q

После того, как были учтены стационарность и сезонность, следующим шагом будет определение порядка (т.е. p и q) членов авторегрессии и скользящего среднего. У разных авторов разные подходы к определению p и q. Броквелл и Дэвис (1991) заявляют, что «нашим основным критерием выбора модели [среди моделей ARMA (p, q)] будет AICc», то есть информационный критерий Акаике с поправкой. Другие авторы используют график автокорреляции и график частичной автокорреляции, описанные ниже.

Графики автокорреляции и частичной автокорреляции

Образец графика автокорреляции и образец частичной автокорреляции сравниваются с теоретическим поведением этих графиков, если порядок известен.

В частности, для процесса AR (1) функция автокорреляции выборки должна иметь экспоненциально убывающий вид. Однако процессы AR более высокого порядка часто представляют собой смесь экспоненциально убывающих и затухающих синусоидальных компонентов.

Для процессов авторегрессии более высокого порядка автокорреляцию выборки необходимо дополнить графиком частичной автокорреляции. Частичная автокорреляция процесса AR (p) становится равной нулю при запаздывании p + 1 и больше, поэтому мы исследуем выборочную функцию частичной автокорреляции, чтобы увидеть, есть ли свидетельства отклонения от нуля. Обычно это определяется путем размещения 95% доверительного интервала на графике частичной автокорреляции выборки (большинство программ, которые создают графики автокорреляции выборки, также строят этот доверительный интервал). Если программа не генерирует доверительный интервал, он составляет приблизительно $± 2 / N {\ displaystyle \ pm 2 / {\ sqrt {N}}}$ $\ pm 2 / {\ sqrt {N}}$ , где N обозначает размер выборки.

Функция автокорреляции процесса MA (q) становится равной нулю при задержке q + 1 и более, поэтому мы исследуем функцию автокорреляции выборки, чтобы увидеть, где она по существу становится нулевой. Мы делаем это, помещая 95% доверительный интервал для функции автокорреляции выборки на график автокорреляции выборки. Большинство программ, которые могут генерировать график автокорреляции, также могут генерировать этот доверительный интервал.

Пример функции частичной автокорреляции, как правило, бесполезен для определения порядка процесса скользящего среднего.

В следующей таблице показано, как можно использовать образец автокорреляционной функции для идентификации модели.

Форма	Указанная модель
Экспоненциальная, убывающая до нуля	Авторегрессионная модель. Используйте график частичной автокорреляции, чтобы определить порядок модели авторегрессии.
Чередование положительного и отрицательного, убывающее до нуля	Модель авторегрессии. Используйте график частичной автокорреляции, чтобы помочь определить порядок.
Один или несколько всплесков, остаток по существу равен нулю	Модель скользящего среднего, порядок определяется тем, где график становится нулевым.
Затухание, начинающееся после нескольких задержек	Модель смешанной авторегрессии и скользящего среднего (ARMA ).
Все нулевые или близкие к нулю	Данные по существу случайны.
Высокие значения через фиксированные интервалы	Включите сезонный авторегрессионный член.
Нет спада до нуля	Серии не стационарны.

Хайндман и Атанасопулос предлагают следующее:

Данные могут соответствовать модели ARIMA (p, d, 0), если графики ACF и PACF разностных данных показывают следующие закономерности:

ACF экспоненциально затухает или синусоидально;
имеется значительный всплеск при задержке p в PACF, но не за пределами задержки p.

Данные могут соответствовать модели ARIMA (0, d, q), если ACF и Графики PACF разностных данных показывают следующие закономерности:

PACF экспоненциально затухает или имеет синусоидальную форму;
имеется значительный всплеск при задержке q в ACF, но не выше лага q.

На практике функции автокорреляции выборки и частичной автокорреляции являются случайными величинами и не дают такой же картины, как теоретические функции. Это затрудняет идентификацию модели. В частности, смешанные модели бывает особенно сложно идентифицировать. Хотя опыт и полезен, разработка хороших моделей с использованием этих типовых графиков может включать в себя много проб и ошибок.

Оценка модели Бокса – Дженкинса

Оценка параметров для моделей Бокса – Дженкинса включает численную аппроксимацию решений нелинейных уравнений. По этой причине обычно используется статистическое программное обеспечение, предназначенное для реализации этого подхода - практически все современные статистические пакеты имеют эту возможность. Основные подходы к подгонке моделей Бокса – Дженкинса - это нелинейный метод наименьших квадратов и оценка максимального правдоподобия. Оценка максимального правдоподобия обычно является предпочтительным методом. Уравнения правдоподобия для полной модели Бокса – Дженкинса сложны и здесь не рассматриваются. См. Математические подробности в (Brockwell and Davis, 1991).

Диагностика модели Бокса – Дженкинса

Допущения для стабильного одномерного процесса

Диагностика модели для моделей Бокса – Дженкинса аналогична проверке модели для нелинейной аппроксимации методом наименьших квадратов.

То есть предполагается, что член ошибки A t соответствует предположениям для стационарного одномерного процесса. Остатки должны быть белым шумом (или независимыми, если их распределения нормальные), взятыми из фиксированного распределения с постоянным средним значением и дисперсией. Если модель Бокса – Дженкинса является хорошей моделью для данных, остатки должны удовлетворять этим предположениям.

Если эти предположения не выполняются, необходимо подобрать более подходящую модель. То есть вернитесь к этапу идентификации модели и попытайтесь разработать лучшую модель. Надеюсь, анализ остатков может дать некоторые подсказки в отношении более подходящей модели.

Один из способов оценить, соответствуют ли остатки из модели Бокса – Дженкинса допущениям, - это создать статистические графики (включая график автокорреляции) остатков. Можно также взглянуть на значение статистики Бокса – Люнга.

Ссылки

Дополнительная литература

Beveridge, S.; Оикл, К. (1994), «Сравнение Бокса – Дженкинса и объективных методов для определения порядка несезонной модели ARMA», Journal of Forecasting, 13: 419–434, doi : 10.1002 / for.3980130502
Панкрац, Алан (1983), Прогнозирование с помощью одномерных моделей Box – Jenkins: концепции и примеры, John Wiley Sons

Внешние ссылки

Первый курс по анализу временных рядов - книга с открытым исходным кодом по анализу временных рядов с помощью SAS (Глава 7)
Модели Бокса – Дженкинса в Справочнике по инженерной статистике NIST
Моделирование Бокса – Дженкинса Роба Дж. Хайндмана
Методология Бокса – Дженкинса для моделей временных рядов Тереза Хоанг Дием Нго

В эту статью включены материалы общественного достояния из Национального института стандартов и технологии веб-сайт https://www.nist.gov.