Стохастический контроль

редактировать
См. Также: Стохастическое программирование.

Стохастическое управление или стохастическое оптимальное управление - это подраздел теории управления, который имеет дело с существованием неопределенности либо в наблюдениях, либо в шуме, который движет эволюцией системы. Разработчик системы предполагает, используя байесовскую модель, основанную на вероятности, что случайный шум с известным распределением вероятностей влияет на эволюцию и наблюдение за переменными состояния. Стохастическое управление направлено на разработку временного пути контролируемых переменных, который выполняет желаемую задачу управления с минимальными затратами, как-то определенными, несмотря на присутствие этого шума. Контекст может быть дискретным или непрерывным.

СОДЕРЖАНИЕ

  • 1 Эквивалентность определенности
  • 2 Дискретное время
    • 2.1 Пример
  • 3 Непрерывное время
  • 4 Прогностический контроль стохастической модели
    • 4.1 В финансах
  • 5 См. Также
  • 6 Ссылки
  • 7 Дальнейшее чтение

Эквивалентность определенности

Чрезвычайно хорошо изученная формулировка стохастического управления - это линейно-квадратичное гауссовское управление. Здесь модель линейна, целевая функция - это математическое ожидание квадратичной формы, а возмущения чисто аддитивны. Основным результатом для централизованных систем с дискретным временем и только аддитивной неопределенностью является свойство достоверности эквивалентности: оптимальное управляющее решение в этом случае такое же, какое было бы получено в отсутствие аддитивных возмущений. Это свойство применимо ко всем централизованным системам с линейными уравнениями эволюции, квадратичной функцией стоимости и шумом, входящим в модель только аддитивно; предположение о квадратичности позволяет оптимальным законам управления, которые следуют свойству достоверности-эквивалентности, быть линейными функциями наблюдений контроллеров.

Любое отклонение от вышеуказанных предположений - нелинейное уравнение состояния, неквадратичная целевая функция, шум в мультипликативных параметрах модели или децентрализация управления - приводит к тому, что свойство эквивалентности достоверности не выполняется. Например, его неспособность поддерживать децентрализованный контроль была продемонстрирована в контрпримере Витсенхаузена.

Дискретное время

В контексте дискретного времени лицо, принимающее решение, наблюдает за переменной состояния, возможно, с шумом наблюдения в каждый период времени. Целью может быть оптимизация суммы ожидаемых значений нелинейной (возможно, квадратичной) целевой функции за все периоды времени от настоящего до последнего рассматриваемого периода или оптимизация значения целевой функции только для последнего периода.. В каждый период времени производятся новые наблюдения, и контрольные переменные должны быть оптимально скорректированы. Поиск оптимального решения для настоящего времени может включать повторение матричного уравнения Риккати в обратном направлении во времени от последнего периода до настоящего периода.

В случае дискретного времени с неопределенностью значений параметров в матрице перехода (дающей влияние текущих значений переменных состояния на их собственную эволюцию) и / или в матрице отклика управления уравнения состояния, но все же с линейным состоянием уравнение и квадратичная целевая функция, уравнение Риккати все еще может быть получено для итерации назад к решению каждого периода, даже если эквивалентность достоверности не применяется. гл.13 Случай дискретного времени неквадратичной функции потерь, но только аддитивные возмущения также могут быть обработаны, хотя и с большим количеством сложностей.

Пример

Типичная спецификация стохастической линейно-квадратичной задачи дискретного времени состоит в том, чтобы минимизировать

E 1 т знак равно 1 S [ у т Т Q у т + ты т Т р ты т ] {\ displaystyle \ mathrm {E} _ {1} \ sum _ {t = 1} ^ {S} \ left [y_ {t} ^ {\ mathsf {T}} Qy_ {t} + u_ {t} ^ { \ mathsf {T}} Ru_ {t} \ right]}

где E 1 - оператор ожидаемого значения при условии y 0, верхний индекс T указывает на транспонирование матрицы, а S - временной горизонт с учетом уравнения состояния

у т знак равно А т у т - 1 + B т ты т , {\ displaystyle y_ {t} = A_ {t} y_ {t-1} + B_ {t} u_ {t},}

где y - вектор наблюдаемых переменных состояния размером n × 1, u - вектор управляющих переменных размером k × 1, A t - временная t реализация стохастической матрицы перехода состояния n × n, B t - временная t реализация стохастическая матрица контрольных множителей размера n × k, а Q ( n × n) и R ( k × k) - известные симметричные положительно определенные матрицы стоимости. Мы предполагаем, что каждый элемент A и B совместно независимо и одинаково распределен во времени, поэтому операции ожидаемого значения не обязательно должны быть обусловлены временем.

Индукцию назад во времени можно использовать для получения оптимального решения управления в каждый момент времени,

ты т * знак равно - [ E ( B Т Икс т B + р ) ] - 1 E ( B Т Икс т А ) у т - 1 , {\ displaystyle u_ {t} ^ {*} = - \ left [\ mathrm {E} \ left (B ^ {\ mathsf {T}} X_ {t} B + R \ right) \ right] ^ {- 1 } \ mathrm {E} \ left (B ^ {\ mathsf {T}} X_ {t} A \ right) y_ {t-1},}

с симметричной положительно определенной матрицей текущих затрат X, эволюционирующей назад во времени в соответствии с Икс S знак равно Q {\ displaystyle X_ {S} = Q}

Икс т - 1 знак равно Q + E [ А Т Икс т А ] - E [ А Т Икс т B ] [ E ( B Т Икс т B + р ) ] - 1 E ( B Т Икс т А ) , {\ Displaystyle X_ {t-1} = Q + \ mathrm {E} \ left [A ^ {\ mathsf {T}} X_ {t} A \ right] - \ mathrm {E} \ left [A ^ {\ mathsf {T}} X_ {t} B \ right] \ left [\ mathrm {E} (B ^ {\ mathsf {T}} X_ {t} B + R) \ right] ^ {- 1} \ mathrm {E } \ left (B ^ {\ mathsf {T}} X_ {t} A \ right),}

которое известно как динамическое уравнение Риккати с дискретным временем для этой задачи. Единственная необходимая информация относительно неизвестных параметров в матрицах A и B - это ожидаемое значение и дисперсия каждого элемента каждой матрицы и ковариации между элементами одной и той же матрицы и между элементами в матрицах.

Решение оптимального управления не затрагивается, если в уравнении состояния также появляются аддитивные шоки с нулевым средним значением, если они не коррелируют с параметрами в матрицах A и B. Но если они так коррелированы, то оптимальное управляющее решение для каждого периода содержит дополнительный аддитивный постоянный вектор. Если в уравнении состояния появляется аддитивный постоянный вектор, то снова решение оптимального управления для каждого периода содержит дополнительный аддитивный постоянный вектор.

Стационарная характеристика X (если она существует), имеющая отношение к задаче с бесконечным горизонтом, в которой S стремится к бесконечности, может быть найдена путем повторения динамического уравнения для X до тех пор, пока оно не сойдется; тогда X характеризуется удалением индексов времени из динамического уравнения.

Непрерывное время

Если модель находится в непрерывном времени, контроллер знает состояние системы в каждый момент времени. Цель состоит в том, чтобы максимизировать либо интеграл, например, вогнутая функция переменного состояния над горизонтом нулевого момента времени (настоящее) от к терминальному времени Т, или функция вогнута из переменного состояния в каком - то дате в будущем T. С течением времени постоянно производятся новые наблюдения, а управляющие переменные постоянно корректируются оптимальным образом.

Прогностический контроль стохастической модели

В литературе существует два типа MPC для стохастических систем; Робастное управление с прогнозированием модели и прогнозирующее управление с помощью стохастической модели (SMPC). Робастное управление с прогнозированием модели - это более консервативный метод, который учитывает наихудший сценарий процедуры оптимизации. Однако этот метод, как и другие надежные средства управления, ухудшает общую производительность контроллера и также применим только для систем с ограниченными неопределенностями. Альтернативный метод, SMPC, рассматривает мягкие ограничения, которые ограничивают риск нарушения вероятностным неравенством.

В финансах

В подходе с непрерывным временем в контексте финансов переменная состояния в стохастическом дифференциальном уравнении обычно представляет собой богатство или чистую стоимость активов, а средства контроля - это акции, каждый раз размещаемые в различных активах. Учитывая, что распределение активов выбирается в любой момент, определяющими факторами изменения богатства обычно являются стохастическая доходность активов и процентная ставка по безрисковому активу. С 1970-х годов стохастическое управление сильно развилось, особенно в его приложениях к финансам. Роберт Мертон использовал стохастический контроль для изучения оптимальных портфелей безопасных и рискованных активов. Его работа и работа Блэка – Шоулза изменили природу финансовой литературы. Влиятельные трактовки в учебниках математики были написаны Флемингом и Ришелем, а также Флемингом и Сонером. Эти методы были применены Штейном к финансовому кризису 2007–2008 годов.

Максимизация, скажем, ожидаемого логарифма чистой стоимости на конечную дату T, является предметом стохастических процессов для компонентов богатства. В этом случае в непрерывном времени уравнение Ито является основным инструментом анализа. В случае, когда максимизация является интегралом вогнутой функции полезности за горизонт (0, T), используется динамическое программирование. Нет достоверной эквивалентности, как в более ранней литературе, потому что коэффициенты управляющих переменных, то есть доходность, получаемая от выбранных акций активов, являются стохастическими.

Смотрите также

Рекомендации

дальнейшее чтение

  • Диксит, Авинаш (1991). «Упрощенное рассмотрение теории оптимального регулирования броуновского движения». Журнал экономической динамики и управления. 15 (4): 657–673. DOI : 10.1016 / 0165-1889 (91) 90037-2.
  • Юн, Цзюнминь; Чжоу, Сюнь Юй (1999). Стохастические управления: гамильтоновы системы и уравнения HJB. Нью-Йорк: Спрингер. ISBN   0-387-98723-1.
Последняя правка сделана 2023-03-19 08:16:41
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте