Принцип максимума Понтрягина

редактировать

Принцип максимума Понтрягина используется в теории оптимального управления, чтобы найти наилучшее возможное управление для перевода динамической системы из одного состояния в другое, особенно при наличии ограничений для состояния или входных элементов управления. В нем говорится, что необходимо для любого оптимального управления наряду с оптимальной государственной траекторией решить так называемую систему Гамильтон, которая два-точки а краевая задача, плюс максимальное состояние управления гамильтоново. Эти необходимые условия становятся достаточными при определенных условиях выпуклости на целевую функцию и функцию ограничения.

Принцип максимума был сформулирован в 1956 году русским математиком Львом Понтрягиным и его учениками, и его первоначальное применение заключалось в максимизации конечной скорости ракеты. Результат был получен с использованием идей классического вариационного исчисления. После небольшого возмущения оптимального управления рассматривается член первого порядка разложения Тейлора по возмущению; Обнуление возмущения приводит к вариационному неравенству, из которого следует принцип максимума.

Принцип максимума, широко рассматриваемый как веха в теории оптимального управления, заключается в том, что максимизировать гамильтониан намного проще, чем исходная задача бесконечномерного управления; вместо максимизации по функциональному пространству проблема преобразуется в точечную оптимизацию. Подобная логика приводит к принципу оптимальности Беллмана, связанному подходу к задачам оптимального управления, который утверждает, что оптимальная траектория остается оптимальной в промежуточные моменты времени. Полученное уравнение Гамильтона – Якоби – Беллмана обеспечивает необходимое и достаточное условие для оптимума и допускает прямое распространение на задачи стохастического оптимального управления, тогда как принцип максимума - нет. Однако в отличие от уравнения Гамильтона – Якоби – Беллмана, которое должно выполняться во всем пространстве состояний, принцип максимума Понтрягина потенциально более эффективен в вычислительном отношении, поскольку условия, которые он определяет, должны выполняться только для определенной траектории.

СОДЕРЖАНИЕ
  • 1 Обозначение
  • 2 Формальная формулировка необходимых условий для задачи минимизации
  • 3 См. Также
  • 4 Примечания
  • 5 ссылки
  • 6 Дальнейшее чтение
  • 7 Внешние ссылки
Обозначение

Для множества и функций и мы используем следующие обозначения: U {\ displaystyle {\ mathcal {U}}} Ψ : р п р , {\ Displaystyle \ Psi: \ mathbb {R} ^ {n} \ to \ mathbb {R},} ЧАС : р п × U × р п × р р , {\ Displaystyle H: \ mathbb {R} ^ {n} \ times {\ mathcal {U}} \ times \ mathbb {R} ^ {n} \ times \ mathbb {R} \ to \ mathbb {R},} L : р п × U р {\ Displaystyle L: \ mathbb {R} ^ {n} \ times {\ mathcal {U}} \ to \ mathbb {R}} ж : р п × U р п , {\ displaystyle f: \ mathbb {R} ^ {n} \ times {\ mathcal {U}} \ to \ mathbb {R} ^ {n},}

Ψ Т ( Икс ( Т ) ) знак равно Ψ ( Икс ) Т | Икс знак равно Икс ( Т ) {\ Displaystyle \ Psi _ {T} (x (T)) = \ left. {\ frac {\ partial \ Psi (x)} {\ partial T}} \ right | _ {x = x (T)} \,}
Ψ Икс ( Икс ( Т ) ) знак равно [ Ψ ( Икс ) Икс 1 | Икс знак равно Икс ( Т ) Ψ ( Икс ) Икс п | Икс знак равно Икс ( Т ) ] {\ Displaystyle \ Psi _ {x} (x (T)) = {\ begin {bmatrix} \ left. {\ frac {\ partial \ Psi (x)} {\ partial x_ {1}}} \ right | _ {x = x (T)} amp; \ cdots amp; \ left. {\ frac {\ partial \ Psi (x)} {\ partial x_ {n}}} \ right | _ {x = x (T)} \ end {bmatrix}}}
ЧАС Икс ( Икс * , ты * , λ * , т ) знак равно [ ЧАС Икс 1 | Икс знак равно Икс * , ты знак равно ты * , λ знак равно λ * ЧАС Икс п | Икс знак равно Икс * , ты знак равно ты * , λ знак равно λ * ] {\ displaystyle H_ {x} (x ^ {*}, u ^ {*}, \ lambda ^ {*}, t) = {\ begin {bmatrix} \ left. {\ frac {\ partial H} {\ partial x_ {1}}} \ right | _ {x = x ^ {*}, u = u ^ {*}, \ lambda = \ lambda ^ {*}} amp; \ cdots amp; \ left. {\ frac {\ partial H} {\ partial x_ {n}}} \ right | _ {x = x ^ {*}, u = u ^ {*}, \ lambda = \ lambda ^ {*}} \ end {bmatrix}}}
L Икс ( Икс * , ты * ) знак равно [ L Икс 1 | Икс знак равно Икс * , ты знак равно ты * L Икс п | Икс знак равно Икс * , ты знак равно ты * ] {\ displaystyle L_ {x} (x ^ {*}, u ^ {*}) = {\ begin {bmatrix} \ left. {\ frac {\ partial L} {\ partial x_ {1}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} amp; \ cdots amp; \ left. {\ frac {\ partial L} {\ partial x_ {n}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} \ end {bmatrix}}}
ж Икс ( Икс * , ты * ) знак равно [ ж 1 Икс 1 | Икс знак равно Икс * , ты знак равно ты * ж 1 Икс п | Икс знак равно Икс * , ты знак равно ты * ж п Икс 1 | Икс знак равно Икс * , ты знак равно ты * ж п Икс п | Икс знак равно Икс * , ты знак равно ты * ] {\ displaystyle f_ {x} (x ^ {*}, u ^ {*}) = {\ begin {bmatrix} \ left. {\ frac {\ partial f_ {1}} {\ partial x_ {1}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} amp; \ cdots amp; \ left. {\ frac {\ partial f_ {1}} {\ partial x_ {n}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} \\\ vdots amp; \ ddots amp; \ vdots \\\ left. {\ frac {\ partial f_ {n}} {\ partial x_ { 1}}} \ right | _ {x = x ^ {*}, u = u ^ {*}} amp; \ ldots amp; \ left. {\ Frac {\ partial f_ {n}} {\ partial x_ {n} }} \ right | _ {x = x ^ {*}, u = u ^ {*}} \ end {bmatrix}}}
Формальная формулировка необходимых условий для задачи минимизации.

Здесь указаны необходимые условия минимизации функционала. Возьмем состояние динамической системы с входом, такое что Икс {\ displaystyle x} ты {\ displaystyle u}

Икс ˙ знак равно ж ( Икс , ты ) , Икс ( 0 ) знак равно Икс 0 , ты ( т ) U , т [ 0 , Т ] {\ Displaystyle {\ точка {х}} = е (х, и), \ квадроцикл х (0) = х_ {0}, \ квад и (т) \ ин {\ mathcal {U}}, \ квадро т \ в [0, T]}

где - множество допустимых управлений, - конечный (т. е. конечный) момент системы. Элемент управления должен быть выбран для всех, чтобы минимизировать целевой функционал, который определяется приложением и может быть абстрагирован как U {\ displaystyle {\ mathcal {U}}} Т {\ displaystyle T} ты U {\ displaystyle u \ in {\ mathcal {U}}} т [ 0 , Т ] {\ displaystyle t \ in [0, T]} J {\ displaystyle J}

J знак равно Ψ ( Икс ( Т ) ) + 0 Т L ( Икс ( т ) , ты ( т ) ) d т {\ Displaystyle J = \ Psi (x (T)) + \ int _ {0} ^ {T} L (x (t), u (t)) \, dt}

Ограничения на динамику системы можно присоединить к лагранжиану, введя изменяющийся во времени вектор множителя Лагранжа, элементы которого называются костатами системы. Это мотивирует построение гамильтониана, определяемого для всех следующим образом: L {\ displaystyle L} λ {\ displaystyle \ lambda} ЧАС {\ displaystyle H} т [ 0 , Т ] {\ displaystyle t \ in [0, T]}

ЧАС ( Икс ( т ) , ты ( т ) , λ ( т ) , т ) знак равно λ Т ( т ) ж ( Икс ( т ) , ты ( т ) ) + L ( Икс ( т ) , ты ( т ) ) {\ Displaystyle Н (Икс (т), и (т), \ лямбда (т), т) = \ лямбда ^ {\ rm {T}} (т) е (х (т), и (т)) + L (x (t), u (t)) \,}

где это транспонирование. λ Т {\ displaystyle \ lambda ^ {\ rm {T}}} λ {\ displaystyle \ lambda}

Принцип минимума Понтрягина гласит, что оптимальная траектория состояния, оптимальное управление и соответствующий вектор множителя Лагранжа должны минимизировать гамильтониан так, чтобы Икс * {\ displaystyle x ^ {*}} ты * {\ displaystyle u ^ {*}} λ * {\ displaystyle \ lambda ^ {*}} ЧАС {\ displaystyle H}

( 1 ) ЧАС ( Икс * ( т ) , ты * ( т ) , λ * ( т ) , т ) ЧАС ( Икс * ( т ) , ты , λ * ( т ) , т ) {\ Displaystyle (1) \ qquad H (х ^ {*} (t), u ^ {*} (t), \ lambda ^ {*} (t), t) \ leq H (x ^ {*} ( t), u, \ lambda ^ {*} (t), t) \,}

на все время и для всех допустимых управляющих входов. Кроме того, уравнение стоимости и его конечные условия т [ 0 , Т ] {\ displaystyle t \ in [0, T]} ты U {\ displaystyle u \ in {\ mathcal {U}}}

( 2 ) - λ ˙ Т ( т ) знак равно ЧАС Икс ( Икс * ( т ) , ты * ( т ) , λ ( т ) , т ) знак равно λ Т ( т ) ж Икс ( Икс * ( т ) , ты * ( т ) ) + L Икс ( Икс * ( т ) , ты * ( т ) ) {\ displaystyle (2) \ qquad - {\ dot {\ lambda}} ^ {\ rm {T}} (t) = H_ {x} (x ^ {*} (t), u ^ {*} (t), \ lambda (t), t) = \ lambda ^ {\ rm {T}} (t) f_ {x} (x ^ {*} (t), u ^ {*} (t)) + L_ { x} (x ^ {*} (t), u ^ {*} (t))}
( 3 ) λ Т ( Т ) знак равно Ψ Икс ( Икс ( Т ) ) {\ Displaystyle (3) \ qquad \ lambda ^ {\ rm {T}} (T) = \ Psi _ {x} (x (T)) \,}

должен быть доволен. Если конечное состояние не является фиксированным (т. Е. Его дифференциальная вариация не равна нулю), оно также должно быть таким, чтобы Икс ( Т ) {\ Displaystyle х (Т)}

( 4 ) Ψ Т ( Икс ( Т ) ) + ЧАС ( Т ) знак равно 0 {\ Displaystyle (4) \ qquad \ Psi _ {T} (x (T)) + H (T) = 0 \,}

Эти четыре условия в (1) - (4) являются необходимыми условиями для оптимального управления. Обратите внимание, что (4) применяется только тогда, когда это бесплатно. Если он зафиксирован, то это условие не обязательно для оптимума. Икс ( Т ) {\ Displaystyle х (Т)}

Смотрите также
Примечания
использованная литература
дальнейшее чтение
  • Геринг, HP (2007). Оптимальное управление с помощью инженерных приложений. Springer. ISBN   978-3-540-69437-3.
  • Кирк, DE (1970). Теория оптимального управления: введение. Прентис Холл. ISBN   0-486-43484-2.
  • Ли, ЭБ; Маркус, Л. (1967). Основы теории оптимального управления. Нью-Йорк: Вили.
  • Зейерстад, Атле; Сидсэтер, Кнут (1987). Теория оптимального управления с экономическими приложениями. Амстердам: Северная Голландия. ISBN   0-444-87923-4.
внешние ссылки
Последняя правка сделана 2023-03-21 06:16:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте