Коррелограмма

редактировать

График, показывающий 100 случайных чисел со «скрытым» синусом и автокорреляция (коррелограмма) ряда внизу.

Пример коррелограммы

При анализе данных коррелограмма представляет собой диаграмму корреляция статистика. Например, в анализе временных рядов, график выборки автокорреляций $rh {\ displaystyle r_ {h} \,}$ $r_ {h} \,$ по сравнению с $h {\ displaystyle h \,}$ $h \,$ (временные задержки) - это автокоррелограмма . Если отображается взаимная корреляция, результат называется кросс-коррелограммой .

Коррелограмма - это часто используемый инструмент для проверки случайности в наборе данных .. Если он случайный, автокорреляция должна быть близка к нулю для всех без исключения разделений по времени. Если неслучайно, то одна или несколько автокорреляций будут значительно отличны от нуля.

Кроме того, коррелограммы используются на этапе идентификации модели для Box–Jenkins авторегрессионного скользящего среднего временного ряда модели. Автокорреляция должна быть близкой к нулю для случайности; если аналитик не проверяет случайность, тогда достоверность многих статистических выводов становится сомнительной. Коррелограмма - отличный способ проверить такую случайность.

Иногда коррограммы, цветные матрицы сил корреляции в многомерном анализе, также называются коррелограммами.

Содержание

1 Приложения
2 Важность
3 Оценка автокорреляций
- 3.1 Альтернативная оценка
4 Статистический вывод с коррелограммами
5 Программное обеспечение
6 Связанные методы
7 Ссылки
8 Дополнительная литература
9 Внешние ссылки

Приложения

Коррелограмма может помочь ответить на следующие вопросы:

Случайны ли данные?
Связано ли наблюдение со смежным наблюдением?
Замечание, связанное с наблюдением дважды удалено? (и т. д.)
Является ли наблюдаемый временной ряд белым шумом ?
Является ли наблюдаемый временной ряд синусоидальным?
Является ли наблюдаемый временной ряд авторегрессионным?
Что является ли подходящей моделью для наблюдаемых временных рядов?
Является ли модель

Y = константа + ошибка {\ displaystyle Y = {\ text {constant}} + {\ text {error}}}

{\ displaystyle Y = {\ text {constant}} + {\ текст {error}}}

действительна и достаточна?

Действительна ли формула $s Y ¯ = s / N {\ displaystyle s _ {\ bar {Y}} = s / {\ sqrt {N}}}$ $s _ {{{\ bar {Y}}}} = s / {\ sqrt {N}}$ ?

Важность

Случайность (наряду с фиксированной моделью, фиксированной вариацией и фиксированным распределением) - одно из четырех предположений, которые обычно лежат в основе всех процессов измерения. Предположение о случайности критически важно по следующим трем причинам:

Большинство стандартных статистических тестов зависят от случайности. Достоверность выводов теста напрямую связана с достоверностью предположения о случайности.
Многие часто используемые статистические формулы зависят от предположения о случайности, наиболее распространенной формулой является формула для определения стандартного отклонения выборочного среднего. :

s Y ¯ = s / N {\ displaystyle s _ {\ bar {Y}} = s / {\ sqrt {N}}}

s _ {{{\ bar {Y}}}} = s / {\ sqrt {N}}

, где s - стандартное отклонение данные. Несмотря на интенсивное использование, результаты использования этой формулы не имеют ценности, если не выполняется предположение о случайности.

Для одномерных данных модель по умолчанию:

Y = константа + ошибка {\ displaystyle Y = {\ text {constant}} + {\ text {error}}}

{\ displaystyle Y = {\ text {constant}} + {\ текст {error}}}

Если данные не случайны, эта модель неверна и недействительна, а оценки параметров (таких как константа) становятся бессмысленными и недействительными.

Оценка автокорреляции

Коэффициент автокорреляции при запаздывании h определяется как

rh = ch / c 0 {\ displaystyle r_ {h} = c_ {h} / c_ {0} \,}

r_ {h} = c_ {h} / c_ {0} \,

где c h - функция автоковариации

ch = 1 N ∑ t = 1 N - h (Y t - Y ¯) (Y t + h - Y ¯) {\ displaystyle c_ {h} = {\ frac {1} {N}} \ sum _ {t = 1} ^ {Nh} \ left (Y_ {t} - {\ bar {Y}} \ right) \ left (Y_ {t + h} - {\ bar {Y}} \ right)}

{\ displaystyle c_ {h} = {\ frac {1} {N}} \ sum _ {t = 1} ^ {Nh} \ left (Y_ {t} - {\ bar {Y}} \ right) \ left (Y_ {t + h} - {\ bar {Y}} \ right)}

и c 0 - это функция дисперсии

c 0 = 1 N ∑ t Знак равно 1 N (Y t - Y ¯) 2 {\ displaystyle c_ {0} = {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ left (Y_ {t} - { \ bar {Y}} \ right) ^ {2}}

{\ displaystyle c_ {0} = {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ left (Y_ {t} - {\ bar {Y}} \ right) ^ {2}}

Результирующее значение r h будет находиться в диапазоне от -1 до +1.

Альтернативная оценка

Некоторые источники могут использовать следующую формулу для функции автоковариации:

ch = 1 N - h ∑ t = 1 N - h (Y t - Y ¯) ( Y t + h - Y ¯) {\ displaystyle c_ {h} = {\ frac {1} {Nh}} \ sum _ {t = 1} ^ {Nh} \ left (Y_ {t} - {\ bar { Y}} \ right) \ left (Y_ {t + h} - {\ bar {Y}} \ right)}

{\ displaystyle c_ {h} = {\ frac {1} {Nh}} \ sum _ {t = 1} ^ {Nh} \ left (Y_ {t} - {\ bar {Y}} \ right) \ left (Y_ {t + h} - {\ bar {Y}} \ right)}

Хотя в этом определении меньше смещения, формулировка (1 / N) обладает некоторыми желательными статистическими свойствами и является формой, наиболее часто используемой в статистической литературе. См. Подробности на страницах 20 и 49–50 в Chatfield.

Статистический вывод с коррелограммами

На том же графике можно провести верхнюю и нижнюю границы для автокорреляции с уровнем значимости $α {\ displaystyle \ alpha \,}$ $\ альфа \,$ :

B = ± z 1 - α / 2 SE (rh) {\ displaystyle B = \ pm z_ {1- \ alpha / 2} SE (r_ {h}) \,}

B = \ pm z _ {{1- \ alpha / 2}} SE (r_ {h }) \,

rh {\ displaystyle r_ {h} \,}

r_ {h} \,

в качестве оценки автокорреляции с задержкой

h {\ displaystyle h \,}

h \,

Если автокорреляция выше (ниже), чем эта верхняя (нижняя) граница, нулевая гипотеза об отсутствии автокорреляции на заданном лаге и за его пределами отклоняется на уровне значимости $α {\ displaystyle \ alpha \,}$ $\ альфа \,$ . Этот тест является приблизительным и предполагает, что временной ряд гауссовский.

. В приведенном выше примере z 1 − α / 2 является квантилем нормального распределения ; SE - стандартная ошибка, которая может быть вычислена по формуле Бартлетта для процессов MA (ℓ):

SE (r 1) = 1 N {\ displaystyle SE (r_ {1}) = {\ frac {1} {\ sqrt {N}}}}

{\ displaystyle SE (r_ {1}) = {\ frac {1} {\ sqrt {N}}}}

SE (rh) = 1 + 2 ∑ i = 1 h - 1 ri 2 N {\ displaystyle SE (r_ {h}) = {\ sqrt {\ frac {1 + 2 \ sum _ {i = 1} ^ {h-1} r_ {i} ^ {2}} {N}}}}

SE (r_ {h}) = {\ sqrt {\ frac {1 + 2 \ sum _ {{i = 1}} ^ {{h-1}} r_ {i} ^ {2}} {N} }}

для

h>1. {\ displaystyle h>1. \,}

h>1. \,

На картинке выше мы можем отклонить нулевую гипотезу об отсутствии автокорреляции между соседними временными точками (lag = 1). в другие периоды нельзя отклонить нулевую гипотезу об отсутствии автокорреляции.

Обратите внимание, что есть две различные формулы для генерации доверительных интервалов:

1. Если коррелограмма является используется для проверки на случайность (т. е. нет в данных), рекомендуется следующая формула:

± z 1 - α / 2 N {\ displaystyle \ pm {\ frac {z_ {1- \ alpha / 2 }} {\ sqrt {N}}}}

\ pm {\ frac {z _ {{1- \ alpha / 2}}} {{\ sqrt {N}}}}

где N - размер выборки, z - функция квантиля стандартного нормального распределения и α - уровень значимости. В этом случае доверительные интервалы имеют фиксированную ширину, которая зависит от размера выборки.

2. Коррелограммы также используются на этапе идентификации модели для подгонки моделей ARIMA. В этом случае для данных предполагается модель скользящего среднего , и должны быть созданы следующие доверительные интервалы:

± z 1 - α / 2 1 N (1 + 2 ∑ i = 1 кри 2) {\ displaystyle \ pm z_ {1- \ alpha / 2} {\ sqrt {{\ frac {1} {N}} \ left (1 + 2 \ sum _ {i = 1} ^ {k} r_ {i } ^ {2} \ right)}}}

{\ displaystyle \ pm z_ {1- \ alpha / 2 } {\ sqrt {{\ frac {1} {N}} \ left (1 + 2 \ sum _ {i = 1} ^ {k} r_ {i} ^ {2} \ right)}}}

где k - задержка. В этом случае доверительные интервалы увеличиваются с увеличением задержки.

Программное обеспечение

Коррелограммы доступны в большинстве статистических библиотек общего назначения.

Коррелограммы:

python pandas : pandas.plotting.autocorrelation_plot
R : functions acfи pacf

Коррограммы:

python seaborn : тепловая карта, парный график
R : коррограмма

Связанные методы

Ссылки

Дополнительная литература

Hanke, John E.; Reitsch, Arthur G.; Уичерн, Дин В. Бизнес-прогнозирование (7-е изд.). Река Аппер Сэдл, штат Нью-Джерси: Prentice Hall.
Box, G.E.P.; Дженкинс, Г. (1976). Анализ временных рядов: прогнозирование и контроль. Холден-Дэй.
Чатфилд, К. (1989). Анализ временных рядов: Введение (Четвертое изд.). Нью-Йорк, штат Нью-Йорк: Chapman Hall.

Внешние ссылки

График автокорреляции

В эту статью включены материалы общественного достояния с веб-сайта Национального института стандартов и технологий https://www.nist.gov.