Гамильтониан (теория управления)

редактировать

Гамильтониан - это функция, используемая для решения проблемы оптимальное управление для динамической системы. Его можно понимать как мгновенное приращение выражения Лагранжа проблемы, которое должно быть оптимизировано в течение определенного периода времени. Вдохновленный гамильтонианом классической механики, но отличный от него, гамильтониан теории оптимального управления был разработан Львом Понтрягиным как часть его принципа максимума. Понтрягин доказал, что необходимым условием для решения задачи оптимального управления является выбор управления таким образом, чтобы оптимизировать гамильтониан.

Содержание
  • 1 Постановка задачи и определение гамильтониана
    • 1.1 Вывод из лагранжиана
  • 2 Гамильтониан в дискретном времени
  • 3 Поведение гамильтониана во времени
  • 4 Гамильтониан управления по сравнению с гамильтонианом механики
  • 5 Текущее значение и приведенное значение Гамильтониан
  • 6 Пример: Ramsey– Модель Касса – Купманса
  • 7 Ссылки
  • 8 Дополнительная литература
Постановка проблемы и определение гамильтониана

Рассмотрим динамическую систему из n {\ displaystyle n }n дифференциальные уравнения первого порядка

x ˙ (t) = f (x (t), u (t), t) {\ displaystyle {\ dot {\ mathbf {x}) }} (t) = \ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t)}{\displaystyle {\dot {\mathbf {x} }}(t)=\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)}

где x (t) = [x 1 (t), Икс 2 (T),…, XN (T)] T {\ Displaystyle \ mathbf {x} (t) = \ left [x_ {1} (t), x_ {2} (t), \ ldots, x_ {n} (t) \ right] ^ {\ mathsf {T}}}{\ displaystyle \ mathbf {x} (t) = \ left [x_ {1} (t), x_ {2} (t), \ ldots, x_ {n}) (t) \ right] ^ {\ mathsf {T}}} обозначает вектор переменных состояния, а u (t) = [u 1 (t), u 2 (т),… ур (т)] T {\ Displaystyle \ mathbf {u} (t) = \ left [u_ {1} (t), u_ {2} (t), \ ldots, u_ {r } (t) \ right] ^ {\ mathsf {T}}}{\ displaystyle \ mathbf {u} (t) = \ left [u_ {1} (t), u_ { 2} (t), \ ldots, u_ {r} (t) \ right] ^ {\ mathsf {T}}} вектор управляющих переменных. После начальных условий x (t 0) = x 0 {\ displaystyle \ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}}{\ displaystyle \ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}} и элементы управления u (t) {\ displaystyle \ mathbf {u} (t)}{\ mathbf {u}} (t) определены, решение дифференциальных уравнений, называемое траекторией x (t; x 0, t 0) {\ displaystyle \ mathbf {x} (t; \ mathbf {x} _ {0}, t_ {0})}{\displaystyle \mathbf {x} (t;\mathbf {x} _{0},t_{0})}, можно найти. Задача оптимального управления состоит в том, чтобы выбрать u (t) {\ displaystyle \ mathbf {u} (t)}{\ mathbf {u}} (t) (из некоторого компактного и выпуклого множества U ⊆ R r {\ displaystyle {\ mathcal {U}} \ substeq \ mathbb {R} ^ {r}}{\ displaystyle { \ mathcal {U}} \ substeq \ mathbb {R} ^ {r}} ), так что x (t) {\ displaystyle \ mathbf {x} (t)}\ mathbf {x} (t) максимизирует или минимизирует определенную целевую функцию между начальным временем t = t 0 {\ displaystyle t = t_ {0}}{\ displaystyle t = t_ {0}} и конечное время t = t 1 {\ displaystyle t = t_ {1}}{\ displaystyle t = t_ {1}} (где t 1 {\ displaystyle t_ {1}}t_{{1}}может быть бесконечностью ). В частности, цель - оптимизировать индекс производительности I (x (t), u (t), t) {\ displaystyle I (\ mathbf {x} (t), \ mathbf {u} (t), t)}{\displaystyle I(\mathbf {x} (t),\mathbf {u} (t),t)}в каждый момент времени

max u (t) J = ∫ t 0 t 1 I (x (t), u (t), t) dt {\ displaystyle \ max _ {\ mathbf {u} (t)} J = \ int _ {t_ {0}} ^ {t_ {1}} I (\ mathbf {x} (t), \ mathbf {u} (t), t) \, \ mathrm {d} t}{\ displaystyle \ max _ {\ mathbf {u} (t)} J = \ int _ {t_ {0}} ^ {t_ {1}} I (\ mathbf {x} (t), \ mathbf {u} (t), t) \, \ mathrm {d} t}

с учетом приведенных выше уравнений движения переменных состояния. Метод решения включает определение вспомогательной функции, известной как гамильтониан

H (x (t), u (t), λ (t), t) ≡ I (x (t), u (t), t) + λ T (T) е (Икс (T), U (T), T) {\ Displaystyle H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (т), t) \ Equiv I (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f } (\ mathbf {x} (t), \ mathbf {u} (t), t)}{\ displaystyle H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t) \ Equiv I (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t)}

, который объединяет целевую функцию и уравнения состояния так же, как лагранжиан в задаче статической оптимизации., только то, что множители λ (t) {\ displaystyle \ mathbf {\ lambda} (t)}{\ displaystyle \ mathbf {\ lambda} (t)} , называемые переменными стоимости, являются функциями времени, а не константами.

Цель состоит в том, чтобы найти оптимальную функцию политики управления u ∗ (t) {\ displaystyle \ mathbf {u} ^ {\ ast} (t)}{\ displaystyle \ mathbf {u} ^ {\ ast} (t)} и с это оптимальная траектория переменной состояния x ∗ (t) {\ displaystyle \ mathbf {x} ^ {\ ast} (t)}{\displaystyle \mathbf {x} ^{\ast }(t)}, которая согласно принципу максимума Понтрягина являются аргументами, максимизирующими гамильтониан,

H (x ∗ (t), u ∗ (t), λ (t), t) ≥ H (x (t), u (t), λ (t)), т) {\ Displaystyle Н (\ mathbf {x} ^ {\ ast} (т), \ mathbf {u} ^ {\ ast} (т), \ mathbf {\ lambda} (т), т) \ geq H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t)}{\displaystyle H(\mathbf {x} ^{\ast }(t),\mathbf {u} ^{\ast }(t),\mathbf {\lambda } (t),t)\geq H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}для всех u (t) ∈ U {\ displaystyle \ mathbf {u} (t) \ in {\ mathcal {U}}}{\displaystyle \mathbf {u} (t)\in {\mathcal {U}}}

Необходимые условия первого порядка для максимума задаются как

∂ H (x (t), u ( т), λ (T), T) ∂ U знак равно 0 {\ displaystyle {\ frac {\ partial H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} ( t), t)} {\ partial \ mathbf {u}}} = 0}{\ displaystyle {\ frac {\ partial H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t)} {\ partial \ mathbf {u}}} = 0} который порождает I u (x (t), u (t), t) + λ T (t) фу ( Икс (T), U (T), T) знак равно 0 {\ Displaystyle I _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf { \ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) = 0 }{\ displaystyle I _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ { \ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) = 0} ,
∂ ЧАС (Икс (т), и (т), λ (т), т) ∂ Икс = - λ ˙ (т) {\ Displaystyle {\ frac {\ partial H (\ mathbf {x} ( t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t)} {\ partial \ mathbf {x}}} = - {\ dot {\ mathbf {\ lambda}}} ( t)}{\ displaystyle {\ frac {\ partial H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t)} {\ partial \ mathbf {x}}} = - {\ dot {\ mathbf {\ lambda}}} (t)} который порождает λ ˙ (t) = - [I x (x (t), u (t), t) + λ T (t) fx (x (t), u (t), t)] {\ displaystyle {\ dot {\ mathbf {\ lambda}}} (t) = - \ left [I _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) \ right]}{\ displaystyle {\ dot {\ mathbf {\ lambda}}} (т) = - \ left [I _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} ( t) \ mathbf {f} _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) \ right]}

последние из которых называются уравнениями сопряжения. Вместе, уравнения состояния и уравнения состояния описывают гамильтонову динамическую систему (снова аналогичную, но отличную от гамильтоновой системы в физике), решение которой включает двухточечную краевую задачу, учитывая, что существуют 2 n {\ displaystyle 2n}2n граничные условия, включающие два разных момента времени, начальное время (n {\ displaystyle n}n дифференциальные уравнения для переменных состояния) и конечное время (n {\ displaystyle n}n дифференциальные уравнения для стоимостных переменных; если не указана конечная функция, граничные условия будут λ (t 1) знак равно 0 {\ displaystyle \ mathbf {\ lambda} (t_ {1}) = 0}{\ displaystyle \ mathbf {\ lambda} (t_ {1}) = 0} или lim t 1 → ∞ λ (t 1) = 0 {\ displaystyle \ lim _ {t_ {1} \ to \ infty} \ mathbf {\ lambda} (t_ {1}) = 0}{\ displaystyle \ lim _ {t_ {1} \ to \ infty} \ mathbf {\ lambda} (t_ {1}) = 0} для бесконечных временных горизонтов.

Достаточное условие для максимума - это вогнутость гамильтониана, вычисленная в решении, т.е.

H uu (x ∗ (t) U * (T), λ (T), T) ≤ 0 {\ Displaystyle H _ {\ mathbf {uu}} (\ mathbf {x} ^ {\ ast} (т), \ mathbf {u} ^ {\ ast} (t), \ mathbf {\ lambda} (t), t) \ leq 0}{\ displaystyle H _ {\ mathbf {uu}} (\ mathbf {x } ^ {\ ast} (t), \ mathbf {u} ^ {\ ast} (t), \ mathbf {\ lambda} (t), t) \ leq 0}

где u ∗ (t) {\ displaystyle \ mathbf {u} ^ {\ ast} (t) }{\ displaystyle \ mathbf {u} ^ {\ ast} (t)} - оптимальное управление, а x ∗ (t) {\ displaystyle \ mathbf {x} ^ {\ ast} (t)}{\displaystyle \mathbf {x} ^{\ast }(t)}- оптимальная траектория для переменная состояния. В качестве альтернативы, по результату Ольви Л. Мангасарян, необходимые условия являются достаточными, если функции I (x (t), u (t), t) {\ displaystyle I (\ mathbf {x} (t), \ mathbf {u} (t), t)}{\displaystyle I(\mathbf {x} (t),\mathbf {u} (t),t)}и f (x (t), u (t), t) {\ displaystyle \ mathbf {f } (\ mathbf {x} (t), \ mathbf {u} (t), t)}{\ displaystyle \ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t)} оба вогнуты по x (t) {\ displaystyle \ mathbf {x} (t)}\ mathbf {x} (t) и u (t) {\ displaystyle \ mathbf {u} (t)}{\ mathbf {u}} (t) .

Вывод из лагранжевой

A ограниченной оптимизации задачи, как обычно указано выше предлагает лагранжево выражение, а именно

L = ∫ t 0 t 1 I (x (t), u (t), t) + λ T (t) [f (x (t), u (t), t) - Икс ˙ (T)] dt {\ Displaystyle L = \ int _ {t_ {0}} ^ {t_ {1}} I (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ left [\ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t) - {\ точка {\ mathbf {x}}} (t) \ right] \, \ mathrm {d} t}{\ стиль отображения L = \ int _ {t_ {0}} ^ {t_ {1}} I (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ { \ mathsf {T}} (t) \ left [\ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t) - {\ dot {\ mathbf {x}}} (t) \ right] \, \ mathrm {d} t}

, где λ (t) {\ displaystyle \ mathbf {\ lambda} (t) }{\ displaystyle \ mathbf {\ lambda} (t)} сравнить с множителем Лагранжа в задаче статической оптимизации, но теперь, как отмечалось выше, он является функцией времени. Продолжая преобразование Лежандра, последний член в правой части можно переписать, используя интегрирование по частям, так что

- ∫ t 0 t 1 λ T (t) x ˙ (t) dt = - λ T (t 1) x (t 1) + λ T (t 0) x (t 0) + ∫ t 0 t 1 λ ˙ T (t) x (t) dt { \ displaystyle - \ int _ {t_ {0}} ^ {t_ {1}} \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) {\ dot {\ mathbf {x}}} (т) \, \ mathrm {d} t = - \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {1}) \ mathbf {x} (t_ {1}) + \ mathbf {\ lambda} ^ { \ mathsf {T}} (t_ {0}) \ mathbf {x} (t_ {0}) + \ int _ {t_ {0}} ^ {t_ {1}} {\ dot {\ mathbf {\ lambda} }} ^ {\ mathsf {T}} (t) \ mathbf {x} (t) \, \ mathrm {d} t}{\ displaystyle - \ int _ {t_ {0}} ^ {t_ {1}} \ mathbf {\ lambda } ^ {\ mathsf {T}} (t) {\ dot {\ mathbf {x}}} (t) \, \ mathrm {d} t = - \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {1}) \ mathbf {x} (t_ {1}) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {0}) \ mathbf {x} (t_ {0}) + \ int _ {t_ {0}} ^ {t_ {1}} {\ dot {\ mathbf {\ lambda}}} ^ {\ mathsf {T}} (t) \ mathbf {x} (t) \, \ mathrm {d} t}

который можно подставить обратно в выражение Лагранжа, чтобы получить

L = ∫ t 0 t 1 [I (x (t), u (t), t) + λ T (t) f (x (t), u (t), t) + λ ˙ T (t) x (t) ] dt - λ T (T 1) Икс (T 1) + λ T (T 0) x (T 0) {\ displaystyle L = \ int _ {t_ {0}} ^ {t_ {1}} \ left [ I (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} (\ mathbf {x } (t), \ ma thbf {u} (t), t) + {\ dot {\ mathbf {\ lambda}}} ^ {\ mathsf {T}} (t) \ mathbf {x} (t) \ right] \, \ mathrm { d} t- \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {1}) \ mathbf {x} (t_ {1}) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {0}) \ mathbf {x} (t_ {0})}{\ displaystyle L = \ int _ {t_ {0}} ^ {t_ {1}} \ left [I (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t) + {\ dot {\ mathbf { \ lambda}}} ^ {\ mathsf {T}} (t) \ mathbf {x} (t) \ right] \, \ mathrm {d} t- \ mathbf {\ l ambda } ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})}

Чтобы вывести условия первого порядка для оптимума, предположим, что решение найдено и лагранжиан максимален. Затем любое изменение в x (t) {\ displaystyle \ mathbf {x} (t)}\ mathbf {x} (t) или u (t) {\ displaystyle \ mathbf {u} (t)}{\ mathbf {u}} (t) должно привести к снижению значения лагранжиана. В частности, полная производная от L {\ displaystyle L}Lподчиняется

d L = ∫ t 0 t 1 [(I u (x (t), u (t), t) + λ T (t) fu (x (t), u (t), t)) du (t) + (I x (x (t), u (t), t) + λ T (t) fx (x (t), u (t), t) + λ ˙ (t)) dx (t)] dt - λ T (t 1) dx (t 1) + λ T (t 0) dx (t 0) ≤ 0 {\ displaystyle \ mathrm {d} L = \ int _ {t_ {0}} ^ {t_ {1}} \ left [\ left (I _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {u}} ( \ mathbf {x} (t), \ mathbf {u} (t), t) \ right) \ mathrm {d} \ mathbf {u} (t) + \ left (I _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + {\ dot {\ mathbf {\ lambda}}} (t) \ right) \ mathrm {d} \ mathbf {x} (t) \ right] \ mathrm {d} t- \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {1}) \ mathrm {d} \ mathbf {x} (t_ {1}) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {0}) \ mathrm {d} \ mathbf {x} (t_ {0}) \ leq 0}{\ displaystyle \ mathrm {d} L = \ int _ {t_ {0}} ^ {t_ {1}} \ left [\ left (I _ {\ mathbf {u}} (\ ma thbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) \ right) \ mathrm {d} \ mathbf {u} (t) + \ left (I _ {\ mathbf {x}} ( \ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {x} } (\ mathbf {x} (t), \ mathbf {u} (t), t) + {\ dot {\ mathbf {\ lambda}}} (t) \ right) \ mathrm {d} \ mathbf {x } (t) \ right] \ mathrm {d} t- \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {1}) \ mathrm {d} \ mathbf {x} (t_ {1}) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t_ {0}) \ mathrm {d} \ mathbf {x} (t_ {0}) \ leq 0}

Для того чтобы это выражение было равно нулю, необходимы следующие условия оптимизации:

I u (x (t), u (t), t) + λ T (t) fu (x (t), u (t), T) знак равно 0 я Икс (Икс (T), U (T), T) + λ T (T) FX (X (T), u (T), T) + λ (T) ˙ = 0 {\ Displaystyle {\ begin {align} I _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) = 0 \\ I _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {x }} (\ mathbf {x} (t), \ mathbf {u} (t), t) + {\ dot {\ mathbf {\ lambda} (t)}} = 0 \ end {align}}}{\ displaystyle { \ begin {align} I _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {u}} (\ mathbf {x} (t), \ mathbf {u} (t), t) = 0 \\ I _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ лямбда} ^ {\ mathsf {T}} (t) \ mathbf {f} _ {\ mathbf {x}} (\ mathbf {x} (t), \ mathbf {u} (t), t) + {\ точка {\ mathbf {\ lambda} (t)}} = 0 \ end {align}}}

Если и начальное значение x (t 0) {\ displaystyle \ mathbf {x} (t_ {0})}{\ displaystyle \ mathbf {x} (t_ {0})} , и конечное значение x (t 1) {\ displaystyle \ mathbf {x} (t_ {1})}{\ displaystyle \ mathbf {x} (t_ {1})} фиксированы, то есть dx (t 0) = dx (t 1) = 0 {\ displaystyle \ mathrm {d} \ mathbf {x } (t_ {0}) = \ mathrm {d} \ mathbf {x} (t_ {1}) = 0}{\ displaystyle \ mathrm {d} \ mathbf {x} (t_ {0}) = \ mathrm {d} \ mathbf {x} (t_ {1}) = 0} , нет условий на λ (t 0) {\ dis playstyle \ mathbf {\ lambda} (t_ {0})}{\ displaystyle \ mathbf {\ lambda} ( t_ {0})} и λ (t 1) {\ displaystyle \ mathbf {\ lambda} (t_ {1})}{\ displaystyle \ mathbf {\ lambda} (t_ {1})} нужны. Если конечное значение свободно, как это часто бывает, дополнительное условие λ (t 1) = 0 {\ displaystyle \ mathbf {\ lambda} (t_ {1}) = 0}{\ displaystyle \ mathbf {\ lambda} (t_ {1}) = 0} необходимо для оптимальности. Последнее называется условием трансверсальности для задачи с фиксированным горизонтом.

Видно, что необходимые условия идентичны условиям, указанным выше для гамильтониана. Таким образом, гамильтониан можно понимать как устройство для создания необходимых условий первого порядка.

Гамильтониан в дискретном времени

Когда задача формулируется в дискретном времени, гамильтониан определяется как:

ЧАС (xt, ut, λ t, t) = λ t + 1 T f (xt, ut, t) + I (xt, ut, t) {\ displaystyle H (x_ {t}, u_ {t) }, \ lambda _ {t}, t) = \ lambda _ {t + 1} ^ {T} f (x_ {t}, u_ {t}, t) + I (x_ {t}, u_ {t}, t) \,}{\ displaystyle H (x_ {t}, u_ {t}, \ lambda _ {t}, t) = \ lambda _ {t + 1} ^ {T} f (x_ {t}, u_ {t}, t) + I (x_ {t}, u_ {t}, t) \,}

и уравнения сопутствующего элемента :

λ t + 1 ⊤ = - ∂ H ∂ xt + λ t ⊤ {\ displaystyle \ lambda _ {t + 1} ^ {\ top} = - {\ frac {\ partial H} {\ partial x_ {t}}} + \ lambda _ {t} ^ {\ top}}{\ displaystyle \ lambda _ {t + 1} ^ {\ top} = - {\ frac {\ partial H} {\ partial x_ {t}}} + \ lambda _ {t} ^ {\ top}}

(Обратите внимание, что гамильтониан дискретного времени в момент времени t {\ displaystyle t}t включает переменную costate во время t + 1. {\ displaystyle t + 1.}{\ displaystyle t + 1.} Эта небольшая деталь важна, чтобы при различении относительно x {\ displaystyle x}x мы получаем термин, включающий λ (t + 1) {\ displaystyle \ lambda (t + 1)}{\ displaystyle \ lambda (t + 1)} на правая часть costate equ действия. Использование здесь неправильного соглашения может привести к неверным результатам, то есть к уравнению стоимости, которое не является уравнением обратной разности).

Поведение гамильтониана во времени

Из принципа максимума Понтрягина можно вывести специальные условия для гамильтониана. Когда конечное время t 1 {\ displaystyle t_ {1}}t_ {1} фиксировано и гамильтониан не зависит явно от времени (∂ H ∂ t = 0) {\ displaystyle \ left ({\ tfrac {\ partial H} {\ partial t}} = 0 \ right)}{\displaystyle \left({\tfrac {\partial H}{\partial t}}=0\right)}, тогда:

H (x ∗ (t), u ∗ (t), λ ∗ ( t)) = константа {\ displaystyle H (x ^ {*} (t), u ^ {*} (t), \ lambda ^ {*} (t)) = \ mathrm {constant} \,}{\ displaystyle H (x ^ { *} (т), и ^ {*} (т), \ лямбда ^ {*} (т)) = \ mathrm {константа} \,}

или если конечное время является свободным, то:

H (x ∗ (t), u ∗ (t), λ ∗ (t)) = 0. {\ displaystyle H (x ^ {*} (t), u ^ {*} (t), \ lambda ^ {*} (t)) = 0. \,}{\ displaystyle H (x ^ {*} (t), u ^ {*} (t), \ лямбда ^ {*} (т)) = 0. \,}

Далее, если конечное время стремится к бесконечности, условие трансверсальности применяется по гамильтониану.

lim t → ∞ H (t) = 0 {\ displaystyle \ lim _ {t \ to \ infty} H (t) = 0}{\ displaystyle \ lim _ {t \ to \ infty} H (t) = 0}
Гамильтониан управления по сравнению с Гамильтониан механики

Уильям Роуэн Гамильтон определил гамильтониан для описания механики системы. Это функция трех переменных:

H = H (p, q, t) = ⟨p, q ˙⟩ - L (q, q ˙, t) {\ displaystyle {\ mathcal {H}} = { \ mathcal {H}} (p, q, t) = \ langle p, {\ dot {q}} \ rangle -L (q, {\ dot {q}}, t)}{\ displaystyle {\ mathcal {H}} = {\ mathcal {H}} ( p, q, t) = \ langle p, {\ dot {q}} \ rangle -L (q, {\ dot {q}}, t)}

где L {\ displaystyle L}L- лагранжиан, экстремизация которого определяет динамику (а не лагранжиан, определенный выше), q {\ displaystyle q}q- это переменная состояния, а q ˙ {\ displaystyle {\ dot {q}}}{\ dot {q}} - ее производная по времени.

p {\ displaystyle p}p - так называемый «сопряженный импульс », определяемый как

p = ∂ L ∂ q ˙ {\ displaystyle p = {\ frac {\ partial L} {\ partial {\ dot {q}}}}}p = {\ frac {\ partial L} {\ частичное {\ точка {q}}}}

Затем Гамильтон сформулировал свои уравнения для описания динамики системы как

ddtp (t) = - ∂ ∂ q H {\ displaystyle {\ frac {d} {dt}} p (t) = - {\ frac {\ partial} {\ partial q}} {\ mathcal {H}}}{\ displaystyle {\ frac {d} {dt}} p (t) = - {\ frac {\ partial} { \ partial q}} {\ mathcal {H}}}
ddtq (t) = ∂ ∂ p H {\ displaystyle {\ frac {d} {dt}} q (t) = ~~ {\ frac {\ partial} {\ partial p}} {\ mathcal {H}}}{\ displaystyle {\ frac {d} {dt}} q (t) = ~~ {\ frac {\ partial} {\ partial p}} {\ mathcal {H}}}

Гамильтониан теории управления описывает не динамику системы, а условия для экстремума ее скалярной функции (лагранжиана) по отношению к управляющей переменной u {\ displaystyle u}U . Как обычно определяется, это функция четырех переменных

H (q, u, p, t) = ⟨p, q ˙⟩ - L (q, u, t) {\ displaystyle H (q, u, p, t) = \ langle p, {\ dot {q}} \ rangle -L (q, u, t)}{\displaystyle H(q,u,p,t)=\langle p,{\dot {q}}\rangle -L(q,u,t)}

где q {\ displaystyle q}q- переменная состояния и u {\ displaystyle u}U - управляющая переменная по отношению к тому, что мы экстремизируем.

Соответствующие условия для максимума:

dpdt = - ∂ H ∂ q {\ displaystyle {\ frac {dp} {dt}} = - {\ frac {\ partial H} {\ partial q }}}{\ displaystyle {\ frac {dp} {dt}} = - {\ frac {\ partial H} {\ partial q}}}
dqdt = ∂ H ∂ p {\ displaystyle {\ frac {dq} {dt}} = ~~ {\ frac {\ partial H} {\ partial p}}}{\ displaystyle {\ frac {dq} {dt}} = ~~ {\ frac {\ partial H} {\ partial p}}}
∂ H ∂ u = 0 {\ displaystyle {\ frac {\ partial H} {\ partial u}} = 0}{\ displaystyle {\ гидроразрыва {\ partial H} {\ partial u}} = 0}

Это определение согласуется с определением, данным в статье Суссманна и Виллемса. (см. стр. 39, уравнение 14). Суссманн и Виллемс показывают, как гамильтониан управления может использоваться в динамике, например для проблемы брахистохрона, но не упоминайте предыдущую работу Каратеодори по этому подходу.

Гамильтониан текущей и приведенной стоимости

In экономика, целевая функция в задачах динамической оптимизации часто напрямую зависит от времени только посредством экспоненциального дисконтирования, так что она принимает форму

I (x (t), u (t), т) знак равно е - ρ T ν (Икс (T), U (T)) {\ Displaystyle I (\ mathbf {x} (т), \ mathbf {u} (т), т) = е ^ {- \ rho t} \ nu (\ mathbf {x} (t), \ mathbf {u} (t))}{\ displaystyle I (\ mathbf {x} (t), \ mathbf {u} (t), t) = e ^ {- \ rho t} \ nu (\ mathbf {x} (t), \ mathbf {u} (t))}

где ν (x (t), u (t)) {\ displaystyle \ nu (\ mathbf {x} (t), \ mathbf {u} (t))}{\displaystyle \nu (\mathbf {x} (t),\mathbf {u} (t))}называется мгновенной функцией полезности , или. Это позволяет переопределить гамильтониан как H (x (t), u (t), λ (t), t) = e - ρ t H ¯ (x (t), u (t), λ ( t)) {\ displaystyle H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t) = e ^ {- \ rho t} {\ bar {H}} (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t))}{\ displaystyle H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t) = e ^ {- \ rho t} {\ bar {H}} (\ mathbf {x} (t), \ math бф {и} (т), \ mathbf {\ лямбда} (т))} где

H ¯ (x (t), u (t), λ (t)) ≡ e ρ t [I (x (t), u (t), t) + λ T (t) f (x (t), u (t), t)] знак равно ν (Икс (T), U (T), T) + μ T (T) F (X (T), U (T), T) {\ Displaystyle {\ begin {выровнено} {\ bar { H}} (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t)) \ Equiv \, e ^ {\ rho t} \ left [I (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t) \ right] \\ = \, \ nu (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ mu} ^ {\ mathsf {T}} (t) \ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t) \ end {align}}}{\ displaystyle {\ begin {align} {\ bar {H}} (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t)) \ Equiv \, e ^ {\ rho t} \ left [I (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ lambda} ^ {\ mathsf {T}} (t) \ mathbf {f} (\ mathbf {x} (t), \ mathbf {u} (t), t) \ right] \\ = \, \ nu (\ mathbf {x} (t), \ mathbf {u} (t), t) + \ mathbf {\ mu} ^ {\ mathsf {T}} (t) \ mathbf { е} (\ mathbf {x} (т), \ mathbf {u} (т), т) \ конец {выровнено}}}

который называется гамильтонианом текущего значения, в отличие от гамильтониана текущего значения ЧАС (Икс (T), U (T), λ (T), T) {\ Displaystyle H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (т), t)}{\ displaystyle H (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t), t)} , определенный в первом разделе. В частности, сопутствующие переменные переопределяются как μ (t) = e ρ t λ (t) {\ displaystyle \ mathbf {\ mu} (t) = e ^ {\ rho t} \ mathbf {\ lambda} ( t)}{\displaystyle \mathbf {\mu } (t)=e^{\rho t}\mathbf {\lambda } (t)}, что приводит к измененным условиям первого порядка.

∂ ЧАС ¯ (Икс (T), U (T), λ (T)) ∂ U = 0 {\ Displaystyle {\ frac {\ partial {\ bar {H}} (\ mathbf {x} (т), \ mathbf {u} (t), \ mathbf {\ lambda} (t))} {\ partial \ mathbf {u}}} = 0}{\ displaystyle {\ frac {\ partial {\ bar {H}} (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t))} {\ partial \ mathbf {u}}} = 0} ,
∂ H ¯ (x (t), u (t), λ (T)) ∂ Икс знак равно - μ ˙ (T) + ρ μ (T) {\ Displaystyle {\ frac {\ partial {\ bar {H}} (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t))} {\ partial \ mathbf {x}}} = - {\ dot {\ mathbf {\ mu}}} (t) + \ rho \ mathbf {\ mu} (t)}{\ displaystyle {\ frac {\ partial {\ bar {H}} (\ mathbf {x} (t), \ mathbf {u} (t), \ mathbf {\ lambda} (t))} {\ partial \ mathbf {x}}} = - {\ dot {\ mathbf {\ mu}}} (t) + \ rho \ mathbf {\ mu} (t)}

, которое непосредственно следует из правила продукта. С экономической точки зрения μ (t) {\ displaystyle \ mathbf {\ mu} (t)}{\ displaystyle \ mathbf {\ mu} (t)} представляет текущую стоимость теневых цен на капитальные товары x (t) {\ displaystyle \ mathbf {x} (t)}\ mathbf {x} (t) .

Пример: модель Рэмси – Касса – Купманса

В экономике используется модель Рамси – Касса – Купманса используется для определения оптимального поведения сбережений для экономики. Целевая функция J (c) {\ displaystyle J (c)}{\displaystyle J(c)}- это функция общественного благосостояния,

J (c) = ∫ 0 T e - ρ tu (c ( t)) dt {\ displaystyle J (c) = \ int _ {0} ^ {T} e ^ {- \ rho t} u (c (t)) dt}{\displaystyle J(c)=\int _{0}^{T}e^{-\rho t}u(c(t))dt}

для максимизации путем выбора оптимального путь потребления c (t) {\ displaystyle c (t)}c (t) . Функция u (c (t)) {\ displaystyle u (c (t))}u ( с (t)) указывает полезность репрезентативного агента потребления c {\ displaystyle c}с в любой момент времени. Фактор e - ρ t {\ displaystyle e ^ {- \ rho t}}{\ displaystyle e ^ {- \ rho t}} представляет собой дисконтирование. Задача максимизации подчиняется следующему дифференциальному уравнению для капиталоемкости, описывающему временную эволюцию капитала на эффективного работника:

k ˙ = ∂ k ∂ t = f (k (t)) - ( n + δ) К (T) - с (T) {\ Displaystyle {\ точка {k}} = {\ frac {\ partial k} {\ partial t}} = f (k (t)) - (n + \ дельта) k (t) -c (t)}{\ displaystyle { \ dot {k}} = {\ frac {\ partial k} {\ partial t}} = f (k (t)) - (n + \ delta) k (t) -c (t)}

где c (t) {\ displaystyle c (t)}c (t) - потребление за период t, k (t) { \ displaystyle k (t)}k (т) - капитал периода t на одного работника (с k (0) = k 0>0 {\ displaystyle k (0) = k_ {0}>0}{\displaystyle k(0)=k_{0}>0} ), f (k (t)) {\ displaystyle f (k (t))}{\ displaystyle f (k (t))} - производство за период t, n {\ displaystyle n}n - рост населения ставка, δ {\ displaystyle \ delta}\ дельта - норма амортизации капитала, агент дисконтирует будущую полезность по ставке ρ {\ displaystyle \ rho}\ rho , wi th u ′>0 {\ displaystyle u '>0}{\displaystyle u'>0} и u ″ < 0 {\displaystyle u''<0}{\displaystyle u''<0}.

Здесь k (t) {\ displaystyle k (t)}k (т) - состояние переменная, которая изменяется в соответствии с приведенным выше уравнением, а c (t) {\ displaystyle c (t)}c (t) является управляющей переменной. Гамильтониан принимает вид

H (k, c, μ, t) = e - ρ tu (c (t)) + μ (t) k ˙ = e - ρ tu (c (t)) + μ (t). [е (К (т)) - (N + δ) К (т) - с (т)] {\ Displaystyle Н (к, с, \ му, т) = е ^ {- \ rho t} и (с (t)) + \ mu (t) {\ dot {k}} = e ^ {- \ rho t} u (c (t)) + \ mu (t) [f (k (t)) - (n + \ delta) k (t) -c (t)]}{\displaystyle H(k,c,\mu,t)=e^{-\rho t}u(c(t))+\mu (t){\dot {k}}=e^{-\rho t}u(c(t))+\mu (t)[f(k(t))-(n+\delta) k(t)-c(t)]}

Условия оптимальности:

∂ H ∂ c = 0 ⇒ e - ​​ρ tu ′ (c) = μ (t) {\ displaystyle {\ frac {\ partial H} {\ partial c}} = 0 \ Rightarrow e ^ {- \ rho t} u '(c) = \ mu (t)}{\displaystyle {\frac {\partial H}{\partial c}}=0\Rightarrow e^{-\rho t}u'(c)=\mu (t)}
∂ H ∂ k = - ∂ μ ∂ t = - μ ˙ ⇒ μ (t) [е '(к) - (n + δ)] = - μ ˙ {\ displaystyle {\ frac {\ partial H} {\ partial k}} = - {\ frac {\ partial \ mu} {\ partial t}} = - {\ dot {\ mu}} \ Rightarrow \ mu (t) [f '(k) - (n + \ delta)] = - {\ dot {\ mu}}}{\displaystyle {\frac {\partial H}{\partial k}}=-{\frac {\partial \mu }{\partial t}}=-{\dot {\mu }}\Rightarrow \mu (t)[f'(k)-(n+\delta)]=-{\dot {\mu }}}

в дополнение к условию трансверсальности μ (T) k (T) = 0 {\ displaystyle \ mu (T) k (T) = 0}{\ displaystyle \ mu ( T) К (T) = 0} . Если мы допустим u (c) = log ⁡ (c) {\ displaystyle u (c) = \ log (c)}u (c) = \ журнал (с) , то log-дифференцирующий первая оптимальность условие относительно t {\ displaystyle t}t дает

- ρ - c ˙ c (t) = μ ˙ μ (t) {\ displaystyle - \ rho - {\ frac { \ dot {c}} {c (t)}} = {\ frac {\ dot {\ mu}} {\ mu (t)}}}{\ displaystyle - \ rho - {\ frac {\ dot {c}} {c (t)}} = {\ frac {\ dot {\ mu}} {\ mu (t) }}}

Подставляя это уравнение во второе условие оптимальности, получаем

ρ + с ˙ с (T) знак равно е '(к) - (N + δ) {\ displaystyle \ rho + {\ frac {\ dot {c}} {c (t)}} = f' (k) - ( n + \ delta)}{\displaystyle \rho +{\frac {\dot {c}}{c(t)}}=f'(k)-(n+\delta)}

, которое известно как правило Кейнса – Рамсея, которое дает условие потребления в каждом периоде, которое, если следовать ему, обеспечивает максимальную полезность в течение всего срока службы.

Ссылки
Дополнительная литература
  • Léonard, Daniel; Лонг, Нго Ван (1992). «Принцип максимума». Теория оптимального управления и статическая оптимизация в экономике. Нью-Йорк: Издательство Кембриджского университета. С. 127–168. ISBN 0-521-33158-7.
  • Такаяма, Акира (1985). «Развитие теории оптимального управления и ее приложения». Математическая экономика (2-е изд.). Нью-Йорк: Издательство Кембриджского университета. С. 600–719. ISBN 0-521-31498-4.
  • Вулвик, Нэнси (1995). «Гамильтонов формализм и теория оптимального роста». В Риме, И. Х. (ред.). Измерение, количественная оценка и экономический анализ. Лондон: Рутледж. ISBN 978-0-415-08915-9.
Последняя правка сделана 2021-05-22 11:54:16
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте