Функция значения

редактировать

Функция значения задачи оптимизации дает значение достигается с помощью целевой функции в решении, при этом только в зависимости от параметров задачи. В управляемой динамической системе функция значения представляет оптимальную отдачу системы в интервале [t, T]при запуске в момент времени- tпеременная состояния x (t) = x. Если целевая функция представляет собой некоторую стоимость, которая должна быть минимизирована, функция ценности может интерпретироваться как стоимость завершения оптимальной программы и, таким образом, называется «функцией текущих затрат». В экономическом контексте, где целевая функция обычно представляет полезность, функция ценности концептуально эквивалентна косвенной функции полезности.

. В задаче оптимального управления Функция значения определяется как верхняя грань целевой функции, взятой по множеству допустимых управлений. Учитывая (t 0, x 0) ∈ [0, t 1] × R d {\ displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb { R} ^ {d}}{\ displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb {R} ^ {d}} , типичная задача оптимального управления -

максимизировать J (t 0, x 0; u) = ∫ t 0 t 1 I (t, x (t), u (t)) dt + ϕ (x (t 1)) {\ displaystyle {\ text {maximize}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0} } ^ {t_ {1}} I (t, x (t), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}{\ displaystyle {\ text {maximize}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

с учетом

dx (t) dt знак равно е (t, x (t), u (t)) {\ displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}{\ displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

с переменной начального состояния x (t 0) = x 0 {\ displaystyle x (t_ {0}) = x_ {0}}{\ displaystyle x ( t_ {0}) = x_ {0}} . Целевая функция J (t 0, x 0; u) {\ displaystyle J (t_ {0}, x_ {0}; u)}{\ displaystyle J (t_ {0}, x_ {0}; u)} должна быть максимизирована по всем допустимым элементам управления u ∈ U [t 0, t 1] {\ displaystyle u \ in U [t_ {0}, t_ {1}]}{\ displaystyle u \ in U [t_ {0}, t_ {1}]} , где u {\ displaystyle u}u - это измеримая функция по Лебегу от [t 0, t 1] {\ displaystyle [t_ {0}, t_ {1}]}{\ displaystyle [t_ {0}, t_ {1}]} до некоторого заданного произвольного задано в R m {\ displaystyle \ mathbb {R} ^ {m}}\ mathbb {R} ^ {m} . Тогда функция значения определяется как

V (t 0, x 0) = sup u ∈ UJ (t 0, x 0; u) {\ displaystyle V (t_ {0}, x_ {0}) = \ sup _ {u \ in U} J (t_ {0}, x_ {0}; u)}{\ displaystyle V (t_ {0 }, x_ {0}) = \ sup _ {u \ in U} J (t_ {0}, x_ {0}; u)}

Если оптимальная пара траекторий управления и состояния равна (x ∗, u ∗) {\ displaystyle (x ^ {\ ast}, u ^ {\ ast})}{\ displaystyle (x ^ {\ ast}, u ^ {\ ast})} , затем V (t 0, x 0) = J (t 0, x 0; u ∗) {\ displaystyle V ( t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}{\ displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})} . Функция h {\ displaystyle h}час , которая дает оптимальное управление u ∗ {\ displaystyle u ^ {\ ast}}{\ displaystyle u ^ {\ ast}} на основе текущего состояния x {\ displaystyle x}x называется политикой управления с обратной связью или просто функцией политики.

Принцип оптимальности Беллмана примерно утверждает, что любая оптимальная политика в момент t {\ displaystyle t}t , t 0 ≤ t ≤ t 1 {\ displaystyle t_ {0} \ leq t \ leq t_ {1}}{\ d isplaystyle t_ {0} \ leq t \ leq t_ {1}} принятие текущего состояния x (t) {\ displaystyle x (t)}x (t) как «новое» начальное условие должно быть оптимальным для оставшейся проблемы. Если функция цены оказывается непрерывно дифференцируемой, это приводит к важному уравнению в частных производных, известному как уравнение Гамильтона – Якоби – Беллмана,

- ∂ V (t, Икс) ∂ T знак равно макс u {I (t, x, u) + ∂ V (t, x) ∂ xf (t, x, u)} {\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} \ left \ {I (t, x, u) + {\ frac {\ partial V (t, x)} {\ partial x}} f (t, x, u) \ right \}}{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} \ left \ {I (t, x, u) + {\ frac {\ partial V (t, x)} {\ partial x}} f (t, x, u) \ right \}}

где максимальное значение и в правой части также можно переписать как гамильтониан, H (t, Икс, U, λ) знак равно я (T, Икс, U) + λ е (T, Икс, U) {\ Displaystyle Н \ влево (т, х, и, \ лямбда \ вправо) = I (т, х, u) + \ lambda f (t, x, u)}{\ displaystyle H \ left (t, x, u, \ lambda \ right) = I (t, x, u) + \ lambda f (t, x, u)} , поскольку

- ∂ V (t, x) ∂ t = max u H (t, x, u, λ) { \ Displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} H (t, x, u, \ lambda)}{\ displaystyle - {\ frac {\ partial V (t, x)} {\ partial t}} = \ max _ {u} H (t, x, u, \ lambda)}

с ∂ V (t, x) / ∂ x = λ (t) {\ displaystyle \ partial V (t, x) / \ partial x = \ lambda (t)}{\ displaystyle \ partial V (t, x) / \ partial x = \ lambda (t)} , играя роль стоимости переменные. Учитывая это определение, мы далее имеем d λ (t) / dt = ∂ 2 V (t, x) / ∂ x ∂ t + ∂ 2 V (t, x) / ∂ x 2 ⋅ f (x) { \ Displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ partial ^ {2} V (t, x) / \ partial x \ partial t + \ partial ^ {2} V (t, x) / \ partial x ^ {2} \ cdot f (x)}{\ displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ частичный ^ {2} V (t, x) / \ partial x \ partial t + \ partial ^ {2} V (t, x) / \ partial x ^ {2} \ cdot f (x)} , и после дифференцирования обеих сторон уравнения HJB относительно x {\ displaystyle x}x ,

- ∂ 2 V (t, x) ∂ t ∂ x = ∂ I ∂ x + ∂ 2 V (t, x) ∂ x 2 f (x) + ∂ V (t, x) ∂ x ∂ f (x) ∂ x {\ displaystyle - {\ frac {\ partial ^ {2} V (t, x)} {\ partial t \ partial x}} = {\ frac {\ partial I} {\ partial x}} + {\ frac {\ partial ^ {2} V (t, x)} {\ partial x ^ {2}}} f (x) + {\ frac {\ partial V (t, x)} {\ partial x}} {\ frac {\ частичное f (x)} {\ partial x}}}{\ displaystyle - {\ frac {\ partial ^ {2} V (t, x)} {\ partial t \ partial x}} = {\ frac {\ partial I} { \ partial x}} + {\ frac {\ partial ^ {2} V (t, x)} {\ partial x ^ {2}}} f (x) + {\ frac {\ partial V (t, x) } {\ partial x}} {\ frac {\ partial f (x)} {\ partial x}}}

, которое после замены соответствующих членов восстанавливает уравнение стоимости

- λ ˙ (t) = ∂ I ∂ x + λ (t) ∂ f (Икс) ∂ Икс знак равно ∂ ЧАС ∂ Икс {\ Displaystyle - {\ точка {\ lambda}} (t) = {\ frac {\ partial I} {\ partial x}} + \ lambda (t) {\ frac { \ partial f (x)} {\ partial x}} = {\ frac {\ partial H} {\ partial x}}}{\ displaystyle - {\ dot {\ lambda}} (t) = {\ frac {\ partial I} {\ partial x}} + \ lambda (t) {\ frac {\ partial f (x)} {\ partial x}} = {\ frac {\ partial H} {\ partial x}}}

где λ ˙ (t) {\ displaystyle {\ dot {\ lambda}} (t)}{\ displaystyle {\ dot {\ lambda}} (t)} - ньютоновская нотация для производной по времени.

Функция цены - это вязкостное решение уравнения Гамильтона – Якоби – Беллмана. В оперативном приближенном оптимальном управлении с обратной связью функция ценности также является функцией Ляпунова, которая устанавливает глобальную асимптотическую устойчивость замкнутой системы.

Ссылки
Дополнительная литература
Последняя правка сделана 2021-06-18 09:11:00
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте