Тестирование суррогатных данных

редактировать

Тестирование суррогатных данных (или метод суррогатных данных) представляет собой статистическое доказательство методом противоречия и аналогично параметрическому бутстрапингу, используемому для обнаружения нелинейности во временном ряду. Этот метод в основном включает в себя определение нулевой гипотезы, описывающей линейный процесс, а затем создание нескольких наборов суррогатных данных в соответствии с методами Монте-Карло. Затем рассчитывается различающая статистика для исходного временного ряда и всего суррогатного набора. Если значение статистики существенно отличается для исходного ряда от значения для суррогатного набора, нулевая гипотеза отклоняется и предполагается нелинейность. ${\ displaystyle H_ {0}}$ $H_ {0}$ ${\ displaystyle H_ {0}}$ $H_ {0}$

Конкретный используемый метод проверки суррогатных данных напрямую связан с нулевой гипотезой. Обычно это похоже на следующее: данные представляют собой реализацию стационарной линейной системы, выход которой, возможно, измерялся монотонно возрастающей, возможно, нелинейной (но статической) функцией. Здесь линейный означает, что каждое значение линейно зависит от прошлых значений или от настоящих и прошлых значений некоторого независимого идентично распределенного (iid) процесса, обычно также гауссова. Это эквивалентно тому, что процесс относится к типу ARMA. В случае потоков (непрерывных отображений) линейность системы означает, что она может быть выражена линейным дифференциальным уравнением. В этой гипотезе статическая функция измерения зависит только от текущего значения аргумента, а не от прошлых значений.

Методы

Было предложено множество алгоритмов генерации суррогатных данных. Обычно их делят на две группы:

Типичные реализации: ряды данных генерируются как выходные данные хорошо подогнанной модели к исходным данным.
Ограниченные реализации: ряды данных создаются непосредственно из исходных данных, как правило, путем их подходящего преобразования.

Последние методы суррогатных данных не зависят ни от конкретной модели, ни от каких-либо параметров, поэтому они являются непараметрическими методами. Эти методы суррогатных данных обычно основаны на сохранении линейной структуры исходного ряда (например, путем сохранения автокорреляционной функции или, что эквивалентно периодограммы, оценки спектра выборки). Среди методов реализации с ограничениями наиболее широко используются (и поэтому их можно назвать классическими методами):

Алгоритм 0 или RS (для случайного перемешивания): новые данные создаются просто путем случайных перестановок исходной серии. Перестановки гарантируют то же распределение амплитуд, что и исходный ряд, но разрушают любую линейную корреляцию. Этот метод связан с нулевой гипотезой о том, что данные являются некоррелированным шумом (возможно, гауссовым и измеренным статической нелинейной функцией).
Алгоритм 1 или RP (для случайных фаз ; также известный как FT для преобразования Фурье ): для сохранения линейной корреляции (периодограммы) ряда суррогатные данные создаются с помощью обратного преобразования Фурье модулей преобразования Фурье. исходных данных с новыми (равномерно случайными) фазами. Если суррогаты должны быть действительными, фазы Фурье должны быть антисимметричными по отношению к центральному значению данных.
Алгоритм 2, или AAFT (для преобразования Фурье с корректировкой по амплитуде): этот метод имеет примерно преимущества двух предыдущих: он пытается сохранить как линейную структуру, так и распределение амплитуд. Этот метод состоит из следующих шагов:
- Масштабирование данных до гауссовского распределения ( гауссизация).
- Выполнение RP-преобразования новых данных.
- Наконец, выполняем преобразование, обратное первому ( дегауссинизация).
Недостатком этого метода как раз и является то, что последний шаг несколько изменяет линейную структуру.
Итерационный алгоритм 2, или IAAFT (для итеративного преобразования Фурье с корректировкой по амплитуде): этот алгоритм является итеративной версией AAFT. Шаги повторяются до тех пор, пока автокорреляционная функция не станет достаточно похожей на исходную, или пока не исчезнут изменения амплитуд.

Было предложено много других методов суррогатных данных, некоторые из которых основаны на оптимизации для достижения автокорреляции, близкой к исходной, некоторые на основе вейвлет-преобразования, а некоторые способны работать с некоторыми типами нестационарных данных.

Вышеупомянутые методы называются линейными суррогатными методами, потому что они основаны на линейном процессе и обращаются к линейной нулевой гипотезе. Вообще говоря, эти методы полезны для данных, показывающих нерегулярные колебания (краткосрочные изменчивости), и данных с таким поведением много в реальном мире. Однако мы часто наблюдаем данные с явной периодичностью, например, годовые числа солнечных пятен, электрокардиограмму (ЭКГ) и так далее. Временные ряды, демонстрирующие сильную периодичность, явно не согласуются с линейной нулевой гипотезой. Чтобы справиться с этим случаем, были предложены некоторые алгоритмы и нулевые гипотезы.

Смотрите также

использованная литература