Функция значения задачи оптимизации дает значение достигается с помощью целевой функции в решении, при этом только в зависимости от параметров задачи. В управляемой динамической системе функция значения представляет оптимальную отдачу системы в интервале [t, T]при запуске в момент времени- tпеременная состояния x (t) = x. Если целевая функция представляет собой некоторую стоимость, которая должна быть минимизирована, функция ценности может интерпретироваться как стоимость завершения оптимальной программы и, таким образом, называется «функцией текущих затрат». В экономическом контексте, где целевая функция обычно представляет полезность, функция ценности концептуально эквивалентна косвенной функции полезности.
. В задаче оптимального управления Функция значения определяется как верхняя грань целевой функции, взятой по множеству допустимых управлений. Учитывая , типичная задача оптимального управления -
с учетом
с переменной начального состояния . Целевая функция должна быть максимизирована по всем допустимым элементам управления , где - это измеримая функция по Лебегу от до некоторого заданного произвольного задано в . Тогда функция значения определяется как
Если оптимальная пара траекторий управления и состояния равна , затем . Функция , которая дает оптимальное управление на основе текущего состояния называется политикой управления с обратной связью или просто функцией политики.
Принцип оптимальности Беллмана примерно утверждает, что любая оптимальная политика в момент , принятие текущего состояния как «новое» начальное условие должно быть оптимальным для оставшейся проблемы. Если функция цены оказывается непрерывно дифференцируемой, это приводит к важному уравнению в частных производных, известному как уравнение Гамильтона – Якоби – Беллмана,
где максимальное значение и в правой части также можно переписать как гамильтониан, , поскольку
с , играя роль стоимости переменные. Учитывая это определение, мы далее имеем , и после дифференцирования обеих сторон уравнения HJB относительно ,
, которое после замены соответствующих членов восстанавливает уравнение стоимости
где - ньютоновская нотация для производной по времени.
Функция цены - это вязкостное решение уравнения Гамильтона – Якоби – Беллмана. В оперативном приближенном оптимальном управлении с обратной связью функция ценности также является функцией Ляпунова, которая устанавливает глобальную асимптотическую устойчивость замкнутой системы.
Ссылки
Дополнительная литература
- Капуто, Майкл Р. (2005). «Необходимые и достаточные условия для изопериметрических задач». Основы динамического экономического анализа: теория оптимального управления и приложения. Нью-Йорк: Издательство Кембриджского университета. С. 174–210. ISBN 0-521-60368-4.
- Clarke, Frank H.; Лёвен, Филип Д. (1986). «Ценностная функция в оптимальном управлении: чувствительность, управляемость и оптимальность по времени». Журнал SIAM по управлению и оптимизации. 24 (2): 243–263. doi : 10.1137 / 0324014.
- ЛаФранс, Джеффри Т..; Барни, Л. Дуэйн (1991). «Теорема конверта в динамической оптимизации» (PDF). Журнал экономической динамики и управления. 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V.
- Стенгель, Роберт Ф. (1994). «Условия оптимальности». Оптимальное управление и оценка. Нью-Йорк: Дувр. С. 201–222. ISBN 0-486-68200-5.