В теории оптимального управления Гамильтон – Якоби – Беллман (HJB ) уравнение дает необходимое и достаточное условие для оптимальности контроля по отношению к функция потерь. В общем, это нелинейное уравнение в частных производных в функции значения , что означает, что его решением является сама функция значения. Как только это решение известно, его можно использовать для получения оптимального управления, взяв максимизатор (или минимизатор) гамильтониана, входящего в уравнение HJB.
Уравнение является результатом теория динамического программирования, впервые предложенная в 1950-х годах Ричардом Беллманом и его сотрудниками. Связь с уравнением Гамильтона – Якоби из классической физики впервые была проведена Рудольфом Кальманом. В задачах с дискретным временем соответствующее разностное уравнение обычно называется уравнением Беллмана.
, тогда как классические вариационные задачи, такие как задача о брахистохроне, может быть решена с помощью уравнения Гамильтона – Якоби – Беллмана, метод может быть применен к более широкому спектру задач. Кроме того, его можно обобщить на стохастические системы, и в этом случае уравнение HJB является эллиптическим уравнением в частных производных второго порядка. Однако главный недостаток состоит в том, что уравнение HJB допускает классические решения только для достаточно гладкой функции значений, что не гарантируется в большинстве ситуаций. Вместо этого требуется понятие решения вязкости, в котором обычные производные заменены (многозначными) подчиненными.
Рассмотрим следующую задачу в детерминированном оптимальном управлении за период времени :
где - это скалярная функция ставки стоимости, а - функция, которая возвращает значение завещания в конечном состоянии, - вектор состояния системы, предполагается заданным, а для - вектор управления, который мы пытаемся найти.
Система также должна подчиняться
где дает вектор, определяющий физическую эволюцию вектора состояния в время.
Для этой простой системы (с учетом ) уравнение Гамильтона – Якоби –Уравнение в частных производных Беллмана:
с соблюдением конечного условия
где обозначает частную производную от по отношению к переменная времени . Здесь обозначает скалярное произведение векторов и и градиент из относительно переменных .
Неизвестный скаляр в приведенном выше уравнении с частными производными - это функция значения Беллмана , которая представляет затраты, понесенные при запуске в состоянии в момент и оптимальное управление системой с этого момента до времени .
Интуитивно уравнение HJB можно вывести следующим образом. Если является оптимальной функцией затрат до конца (также называемой «функцией ценности»), то по принципу оптимальности Ричарда Беллмана, переходя от времени t к t + dt, мы имеем
Обратите внимание, что разложение Тейлора первого члена в правой части равно
где обозначает термины в разложении Тейлора более высокого порядка, чем один в небольшой нотации. Затем, если мы вычтем с обеих сторон, разделим на dt и возьмем предел по мере приближения dt нуля, мы получаем уравнение HJB, определенное выше.
Уравнение HJB обычно решается в обратном направлении во времени, начиная с и оканчивается на .
При решении по всему пространству состояний и является непрерывно дифференцируемым, уравнение HJB является необходимым и достаточным условием для оптимума, когда конечное состояние не ограничено. Если мы сможем найти для , тогда мы сможем найти из него элемент управления , который обеспечивает минимальную стоимость.
В общем случае уравнение HJB не имеет классического (гладкого) решения. Для таких ситуаций было разработано несколько понятий обобщенных решений, включая вязкостный раствор (Пьер-Луи Лионс и Майкл Крэндалл ), минимаксное решение ([ru ]) и другие.
Идея решения задачи управления путем применения принципа оптимальности Беллмана и последующей разработки стратегии оптимизации в обратном направлении может быть обобщена на задачи стохастического управления. Рассмотрим аналогичный приведенному выше
теперь с стохастический процесс для оптимизации и рулевое управление. Сначала используя Беллмана, а затем раскрывая с помощью правила Ито, можно найти стохастический Уравнение HJB
где представляет оператор стохастического дифференцирования и с учетом конечного условия
Обратите внимание, что случайность исчезла. В этом случае решение последнего не обязательно решает основную проблему, это только кандидат, и требуется дополнительный проверяющий аргумент. Этот метод широко используется в финансовой математике для определения оптимальных инвестиционных стратегий на рынке (см., Например, портфельная задача Мертона ).
В качестве примера мы можем взглянуть на систему с линейной стохастической динамикой и квадратичной стоимостью. Если динамика системы задается как
и стоимость накапливается по ставке , уравнение HJB задается как
с оптимальным действием, заданным как
Предполагая квадратичную форму для функции цены, мы получаем обычное уравнение Риккати для гессиан функции цены, как обычно для линейно-квадратично-гауссовского управления.