Ассимиляция данных

редактировать
Техника обновления числовой модели наблюдаемыми данными

Ассимиляция данных - это математическая дисциплина, которая стремится оптимально комбинировать теорию ( обычно в виде числовой модели) с наблюдениями. Может преследоваться ряд различных целей, например, для определения оптимальной оценки состояния системы, для определения начальных условий для модели численного прогноза, для интерполяции разреженных данных наблюдений с использованием (например, физических) знаний о наблюдаемой системе, обучить параметры численной модели на основе данных наблюдений. В зависимости от цели могут использоваться разные методы решения. Ассимиляция данных отличается от других форм машинного обучения, анализа изображений и статистических методов тем, что в ней используется динамическая модель анализируемой системы.

Ассимиляция данных изначально разрабатывалась в области численного прогноза погоды. Модели численного прогнозирования погоды представляют собой уравнения, описывающие динамическое поведение атмосферы, обычно закодированные в компьютерной программе. Чтобы использовать эти модели для составления прогнозов, необходимы начальные условия для модели, которые очень похожи на текущее состояние атмосферы. Простое включение точечных измерений в численные модели не дало удовлетворительного решения. Реальные измерения содержат ошибки как из-за качества прибора, так и из-за того, насколько точно известно положение измерения. Эти ошибки могут вызвать нестабильность в моделях, что исключает любой уровень навыков в прогнозировании. Таким образом, потребовались более сложные методы, чтобы инициализировать модель с использованием всех доступных данных, обеспечивая при этом стабильность численной модели. Такие данные обычно включают измерения, а также предыдущий прогноз, действительный в то же время, когда измерения производятся. При итеративном применении этот процесс начинает накапливать информацию из прошлых наблюдений во все последующие прогнозы.

Поскольку ассимиляция данных развивалась вне области численного прогнозирования погоды, она изначально приобрела популярность среди геонаук. Фактически, одна из наиболее цитируемых публикаций во всех науках о Земле - это приложение ассимиляции данных для восстановления наблюдаемой истории атмосферы.

Содержание

  • 1 Подробная информация о процессе ассимиляции данных
  • 2 Ассимиляция данных как статистическая оценка
  • 3 Приложения для прогнозирования погоды
    • 3.1 Почему это необходимо
    • 3.2 История
    • 3.3 Функция стоимости
      • 3.3.1 3D-Var
      • 3.3.2 4D-Var
    • 3.4 Дальнейшее развитие
  • 4 Другие приложения
    • 4.1 Мониторинг передачи воды и энергии
    • 4.2 Другие приложения для прогнозирования
  • 5 Ссылки
  • 6 Дополнительная литература
  • 7 Внешние ссылки

Подробная информация о процессе усвоения данных

Классически ассимиляция данных применялась к хаотическим динамическим системам, которые слишком сложно предсказать, используя простые методы экстраполяции. Причина этой трудности в том, что небольшие изменения начальных условий могут привести к большим изменениям точности прогнозов. Это иногда называют эффектом бабочки - чувствительной зависимостью от начальных условий, при которых небольшое изменение одного состояния детерминированной нелинейной системы может привести к большим различиям в более позднем состоянии.

В любое время обновления для ассимиляции данных обычно используется прогноз (также известный как первое предположение или справочная информация ) и применяется корректировка прогноза на основе набора наблюдаемых данных и оценочных ошибок, которые присутствуют как в наблюдениях, так и в самом прогнозе. Разница между прогнозом и наблюдениями на тот момент называется отклонением или нововведением (поскольку оно предоставляет новую информацию для процесса усвоения данных). К нововведению применяется весовой коэффициент, чтобы определить, какую поправку следует внести в прогноз на основе новой информации из наблюдений. Наилучшая оценка состояния системы, основанная на поправке к прогнозу, определяемой весовым коэффициентом, умноженным на нововведение, называется анализом . В одном измерении вычисление анализа может быть таким же простым, как формирование средневзвешенного значения прогнозируемого и наблюдаемого значения. Во многих измерениях проблема усложняется. Большая часть работы по усвоению данных сосредоточена на адекватной оценке подходящего весового коэффициента на основе сложных знаний об ошибках в системе.

Измерения обычно производятся в реальной системе, а не в неполном представлении модели этой системы, поэтому специальная функция, называемая оператором наблюдения (обычно обозначается h () для нелинейного оператора или H для его линеаризации) необходим для отображения моделируемой переменной в форму, которую можно напрямую сравнить с наблюдением.

Ассимиляция данных как статистическая оценка

Одна из распространенных философских математических перспектив - рассматривать ассимиляцию данных как проблему байесовской оценки. С этой точки зрения, этап анализа представляет собой приложение теоремы Байеса, а общая процедура ассимиляции является примером рекурсивной байесовской оценки. Однако вероятностный анализ обычно упрощается до вычислительно выполнимой формы. Расширение вероятностного распределения во времени в общем случае могло бы быть сделано точно с помощью уравнения Фоккера – Планка, но это невозможно для многомерных систем, поэтому различные приближения, работающие на упрощенных представлениях вместо вероятностных распределений. Часто распределения вероятностей предполагаются гауссовыми, так что они могут быть представлены их средним значением и ковариацией, что дает начало фильтру Калмана.

Многие методы представляют распределения вероятностей только средним значением и вводят некоторую предварительно вычисленную ковариацию. Пример прямого (или последовательного ) метода для вычисления этого называется оптимальной статистической интерполяцией или просто оптимальной интерполяцией (OI ). Альтернативный подход - итеративное решение функции стоимости, которая решает идентичную проблему. Это так называемые вариационные методы, такие как 3D-Var и 4D-Var. Типичными алгоритмами минимизации являются метод сопряженного градиента или обобщенный метод минимальной невязки. Ансамблевый фильтр Калмана - это последовательный метод, который использует подход Монте-Карло для оценки как среднего, так и ковариации гауссовского распределения вероятностей с помощью ансамбля имитаций. В последнее время более популярными стали гибридные комбинации ансамблевых подходов и вариационных методов (например, они используются для оперативных прогнозов как в Европейском центре среднесрочных прогнозов погоды (ECMWF), так и в Национальных центрах прогнозирования окружающей среды NOAA (NCEP))..

Приложения для прогнозирования погоды

В приложениях для численного прогнозирования погоды ассимиляция данных наиболее широко известна как метод объединения наблюдений за метеорологическими переменными, такими как температура и атмосферная давление с предыдущими прогнозами для инициализации численных моделей прогнозов.

Почему это необходимо

Атмосфера - это жидкость. Идея численного прогноза погоды состоит в том, чтобы определить состояние жидкости в заданное время и использовать уравнения гидродинамики и термодинамики для оценки состояния жидкости в определенный момент времени в будущее. Процесс ввода данных наблюдения в модель для генерации начальных условий называется инициализацией. На суше карты местности, доступные с разрешением до 1 километра (0,6 мили) во всем мире, используются для помощи в моделировании атмосферной циркуляции в регионах с суровым рельефом, чтобы лучше отображать такие особенности, как нисходящие ветры, горные волны и связанная облачность, которая влияет на поступающую солнечную радиацию. Основными входными данными от национальных метеорологических служб являются наблюдения с устройств (называемых радиозондами ) на метеозондах, которые измеряют различные атмосферные параметры и передают их на стационарный приемник, а также с метеорологических спутников. Всемирная метеорологическая организация действует для стандартизации приборов, методов наблюдений и сроков этих наблюдений во всем мире. Станции отчитываются либо ежечасно в отчетах METAR, либо каждые шесть часов в отчетах SYNOP. Эти наблюдения расположены нерегулярно, поэтому они обрабатываются методами ассимиляции данных и объективного анализа, которые осуществляют контроль качества и получают значения в местах, которые могут использоваться математическими алгоритмами модели. Некоторые глобальные модели используют конечные разности, в которых мир представлен в виде дискретных точек на равномерно распределенной сетке широты и долготы; в других моделях используются спектральные методы, которые определяют диапазон длин волн. Затем данные используются в модели в качестве отправной точки для прогноза.

Для сбора данных наблюдений для использования в численных моделях используются различные методы. Сайты запускают радиозонды в метеозондах, которые поднимаются через тропосферу и глубоко в стратосферу. Информация с метеорологических спутников используется там, где традиционные источники данных недоступны. Commerce предоставляет отчеты пилотов о маршрутах самолетов и судовые отчеты по маршрутам доставки. В исследовательских проектах используется разведывательный самолет для полетов в интересующие погодные системы и вокруг них, такие как тропические циклоны. Самолеты-разведчики также летают над открытыми океанами в холодное время года в системы, которые вызывают значительную неопределенность в прогнозах или, как ожидается, будут оказывать сильное воздействие на континент, расположенный ниже по течению, в течение трех-семи дней в будущем. Морской лед начал использоваться в прогнозных моделях в 1971 году. Попытки включить температуру поверхности моря в инициализацию модели начались в 1972 году из-за его роли в изменении погоды в более высоких широтах Тихого океана.

История

Льюис Фрай Ричардсон

В 1922 году Льюис Фрай Ричардсон опубликовал первую попытку численного прогноза погоды. Используя гидростатическую вариацию примитивных уравнений Бьеркнеса , Ричардсон вручную произвел 6-часовой прогноз состояния атмосферы над двумя точками в Центральной Европе, взяв минимум шесть недель на это. Согласно его прогнозу, изменение приземного давления составит 145 миллибар (4,3 дюймов рт.ст. ), что является нереалистичным значением, неверным на два порядка. Большая ошибка была вызвана дисбалансом полей давления и скорости ветра, использованных в качестве начальных условий в его анализе, что указывает на необходимость схемы усвоения данных.

Первоначально использовался «субъективный анализ», в котором прогнозы ЧПП корректировались метеорологами с использованием их оперативного опыта. Затем был введен «объективный анализ» (например, алгоритм Крессмана) для автоматического усвоения данных. В этих объективных методах использовались простые подходы интерполяции, поэтому они были методами 3DDA.

Позже были разработаны методы 4DDA, названные «подталкиванием», например, в модели MM5. Они основаны на простой идее ньютоновской релаксации (вторая аксиома Ньютона). Они вводят в правую часть динамических уравнений модели член, пропорциональный разнице рассчитанной метеорологической переменной и наблюдаемой величины. Этот член с отрицательным знаком удерживает вычисленный вектор состояния ближе к наблюдениям. Смещение может быть интерпретировано как вариант фильтра Калмана-Бьюси (версия для непрерывного времени фильтра Калмана ) с предписанной матрицей усиления, а не полученной из ковариаций.

Крупное развитие было достигнуто Л. Гандином (1963), который ввел метод «статистической интерполяции» (или «оптимальной интерполяции»), развивший более ранние идеи Колмогорова. Это метод 3DDA и тип регрессионного анализа, который использует информацию о пространственном распределении функций ковариации ошибок поля «первое предположение» (предыдущий прогноз) и « истинное поле ". Эти функции никогда не известны. Однако предполагались различные приближения.

Оптимальный алгоритм интерполяции - это сокращенная версия алгоритма фильтрации Калмана (KF), в котором ковариационные матрицы вычисляются не из динамических уравнений, а заранее определены заранее.

Попытки представить алгоритмы KF в качестве инструмента 4DDA для моделей ЧПП появились позже. Однако это было (и остается) сложной задачей, потому что полная версия требует решения огромного количества дополнительных уравнений (~ N * N ~ 10 ** 12, где N = Nx * Ny * Nz - размер вектора состояния, Nx ~ 100, Ny ~ 100, Nz ~ 100 - размеры расчетной сетки). Чтобы преодолеть эту трудность, были разработаны приближенные или субоптимальные фильтры Калмана. К ним относятся ансамблевый фильтр Калмана и фильтры Калмана с пониженным рангом (RRSQRT).

Еще одним значительным достижением в развитии методов 4DDA стало использование оптимального управления теории (вариационный подход) в работах Ле Димет и Талагранд (1986), основанной на предыдущих работах Ж.-Л. Льва и Г. Марчука, который первым применил эту теорию в моделировании окружающей среды. Существенным преимуществом вариационных подходов является то, что метеорологические поля удовлетворяют динамическим уравнениям модели ЧПП и в то же время минимизируют функционал, характеризующий их отличие от наблюдений. Таким образом, решается проблема ограниченной минимизации. Вариационные методы 3DDA были впервые разработаны Сасаки (1958).

Как было показано Lorenc (1986), все вышеупомянутые методы 4DDA находятся в некотором предельном эквиваленте, то есть при некоторых предположениях они минимизируют ту же функцию стоимости . Однако в практических приложениях эти предположения никогда не выполняются, разные методы работают по-разному, и, как правило, не ясно, какой подход (фильтрация Калмана или вариационный) лучше. Фундаментальные вопросы возникают также при применении передовых методов DA, ​​таких как сходимость вычислительного метода к глобальному минимуму минимизируемого функционала. Например, функция стоимости или множество, в котором ищется решение, могут быть невыпуклыми. В настоящее время наиболее успешным методом 4DDA является гибридная инкрементная 4D-Var, в которой ансамбль используется для увеличения ковариаций климатологических фоновых ошибок в начале временного окна ассимиляции данных, но ковариации фоновых ошибок развиваются во временном окне за счет упрощенная версия модели прогноза ЧПП. Этот метод ассимиляции данных оперативно используется в центрах прогнозов, таких как Метеорологический офис.

Функция затрат

Процесс создания анализа при ассимиляции данных часто включает минимизацию функции затрат. Типичная функция стоимости представляет собой сумму квадратов отклонений значений анализа от наблюдений, взвешенных по точности наблюдений, плюс сумма квадратов отклонений полей прогноза и анализируемых полей, взвешенных по точности прогноза. Это позволяет гарантировать, что анализ не уйдет слишком далеко от наблюдений и прогнозов, которые обычно считаются надежными.

3D-Var

J (x) = (x - xb) ТБ - 1 (Икс - Икс) + (Y - Н [Икс]) TR - 1 (Y - Н [х]), {\ Displaystyle J (\ mathbf {x}) = (\ mathbf {x} - \ mathbf {x} _ {b}) ^ {\ mathrm {T}} \ mathbf {B} ^ {- 1} (\ mathbf {x} - \ mathbf {x} _ {b}) + (\ mathbf {y} - {\ mathit {H}} [\ mathbf {x}]) ^ {\ mathrm {T}} \ mathbf {R} ^ {- 1} (\ mathbf {y} - {\ mathit {H}} [\ mathbf {x}]),}J ({\ mathbf {x}}) = ({\ mathbf {x}} - {\ mathbf {x}} _ {{b}}) ^ {{{\ mathrm {T}}} } {\ mathbf {B}} ^ {{- 1}} ({\ mathbf {x}} - {\ mathbf {x}} _ {{b}}) + ({\ mathbf {y}} - {\ mathit {H}} [{\ mathbf {x}}]) ^ {{{\ mathrm {T}}}} {\ mathbf {R}} ^ {{- 1}} ({\ mathbf {y}} - {\ mathit {H}} [{\ mathbf {x}}]),

где B {\ displaystyle \ mathbf {B}}\ mathbf {B} обозначает ковариацию фоновой ошибки, R {\ displaystyle \ mathbf {R}}\ mathbf {R} ковариация ошибки наблюдения.

∇ J (x) знак равно 2 B - 1 (x - xb) - 2 HTR - 1 (y - H [x]) {\ displaystyle \ nabla J (\ mathbf {x}) = 2 \ mathbf {B } ^ {- 1} (\ mathbf {x} - \ mathbf {x} _ {b}) - 2 {\ mathit {H}} ^ {T} \ mathbf {R} ^ {- 1} (\ mathbf { y} - {\ mathit {H}} [\ mathbf {x}])}\ nabla J ({\ mathbf {x}}) = 2 { \ mathbf {B}} ^ {{- 1}} ({\ mathbf {x}} - {\ mathbf {x}} _ {{b}}) - 2 {\ mathit {H}} ^ {T} { \ mathbf {R}} ^ {{- 1}} ({\ mathbf {y}} - {\ mathit {H}} [{\ mathbf {x}}])

4D-Var

J (x) = (x - xb) TB - 1 (x - xb) + ∑ i = 0 N (Yi - ЧАС я [xi]) TR я - 1 (Yi - H я [xi]) {\ Displaystyle J (\ mathbf {x}) = (\ mathbf {x} - \ mathbf {x} _ { b}) ^ {\ mathrm {T}} \ mathbf {B} ^ {- 1} (\ mathbf {x} - \ mathbf {x} _ {b}) + \ sum _ {i = 0} ^ {n } (\ mathbf {y} _ {i} - {\ mathit {H}} _ {i} [\ mathbf {x} _ {i}]) ^ {\ mathrm {T}} \ mathbf {R} _ { i} ^ {- 1} (\ mathbf {y} _ {i} - {\ mathit {H}} _ {i} [\ mathbf {x} _ {i}])}J ({\ mathbf {x}}) = ({\ mathbf {x}} - {\ mathbf {x}} _ {{b }}) ^ {{{\ mathrm {T}}}} {\ mathbf {B}} ^ {{- 1}} ({\ mathbf {x}} - {\ mathbf {x}} _ {{b} }) + \ sum _ {{i = 0}} ^ {{n}} ({\ mathbf {y}} _ {{i}} - {\ mathit {H}} _ {{i}} [{\ mathbf {x }} _ {{i}}]) ^ {{{\ mathrm {T}}}} {\ mathbf {R}} _ {{i}} ^ {{- 1}} ({\ mathbf {y}} _ {{i}} - {\ mathit {H}} _ {{i}} [{\ mathbf {x}} _ {{i}}])

при условии, что H {\ displaystyle {\ mathit {H}}}{\ mathit {H}} - линейный оператор (матрица).

Будущее развитие

Факторы, способствующие быстрому развитию методов ассимиляции данных для моделей ЧПП, включают:

  • Использование наблюдений в настоящее время предлагает многообещающее улучшение навыков прогнозирования в различных пространственных масштабов (от глобального до сильно локального) и временных масштабов.
  • Количество различных видов доступных наблюдений (содары, радары, спутник ) быстро растет.

Другие приложения

Мониторинг переноса воды и энергии

Общая диаграмма ассимиляции данных (Alpilles-ReSeDA)

Ассимиляция данных использовалась в 1980-х и 1990-х годах, в нескольких проектах HAPEX (экспериментальный гидрологический и атмосферный эксперимент) по мониторингу передачи энергии между почвой, растительностью и атмосферой. Например:

- HAPEX-MobilHy, HAPEX-Sahel,

- эксперимент «Alpilles-ReSeDA» (Ассимиляция данных дистанционного зондирования), европейский проект в рамках FP4-ENV, которая проходила в регионе Альпий на юго-востоке Франции (1996–97). На блок-схеме (справа), взятой из заключительного отчета этого проекта, показано, как сделать вывод о таких переменных, представляющих интерес, как состояние растительного покрова, радиационные потоки, экологический бюджет, производство в количестве и качестве, на основе данных дистанционного зондирования и дополнительной информации. На этой диаграмме маленькие сине-зеленые стрелки указывают прямой путь, по которому модели работают.

Другие приложения для прогнозирования

Методы ассимиляции данных в настоящее время также используются в других задачах прогнозирования окружающей среды, например в гидрологическом прогнозировании. Байесовские сети также могут использоваться в подходе ассимиляции данных для оценки природных опасностей, таких как оползни.

Учитывая обилие данных космических аппаратов для других планет Солнечной системы, ассимиляция данных теперь также применяется за пределами Земли для получения повторный анализ состояния атмосферы внеземных планет. Марс - единственная внеземная планета, к которой до сих пор применялась ассимиляция данных. Доступные данные космического корабля включают, в частности, получение значений температуры и оптической толщины пыли / водяного льда с помощью термоэмиссионного спектрометра на борту Mars Global Surveyor НАСА и климатического эхолота на борту НАСА Марсианский орбитальный аппарат. К этим наборам данных были применены два метода ассимиляции данных: схема коррекции анализа и две схемы ансамблевого фильтра Калмана, в обеих в качестве прямой модели используется модель глобальной циркуляции марсианской атмосферы. Набор данных «Ассимиляция поправочных данных анализа Марса» (MACDA) находится в открытом доступе в Британском центре атмосферных данных.

Ассимиляция данных является частью задачи при решении любой задачи прогнозирования.

Работа с предвзятыми данными - серьезная проблема при усвоении данных. Особое значение будет иметь дальнейшая разработка методов борьбы с предвзятостью. Если несколько инструментов наблюдают одну и ту же переменную, то их взаимное сравнение с использованием функций распределения вероятностей может быть поучительным.

Модели численного прогноза становятся более разрешенными из-за увеличения вычислительных power, с рабочими моделями атмосферы, которые теперь работают с горизонтальным разрешением порядка 1 км (например, в Национальной метеорологической службе Германии, Deutscher Wetterdienst (DWD ) и Метеорологическое бюро в Великобритании). Это увеличение горизонтального разрешения позволяет нам разрешить более хаотические особенности наших нелинейных моделей, например разрешить конвекцию в масштабе сетки, облака, в моделях атмосферы. Эта возрастающая нелинейность моделей и операторов наблюдения создает новую проблему в усвоении данных. Существующие методы усвоения данных, такие как множество вариантов ансамблевых фильтров Калмана и вариационные методы, хорошо зарекомендовавшие себя с линейными или почти линейными моделями, оцениваются на нелинейных моделях, также как и множество новых методов. разработан, например фильтры частиц для задач большой размерности, методы ассимиляции данных гибридов.

Другие применения включают оценку траектории для программы Apollo, GPS и химия атмосферы.

Литература

Дополнительная литература

Внешние ссылки

Примеры того, как вариационная ассимиляция реализуется в прогнозировании погоды в:

Другие примеры ассимиляции:

Последняя правка сделана 2021-05-17 14:09:24
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте