Оптимальное управление

редактировать

Теория оптимального управления - это ветвь математической оптимизации, которая занимается поиском элемента управления для динамической системы за период времени, такой, что целевая функция оптимизируется. Он имеет множество применений как в науке, так и в технике. Например, динамическая система может быть космическим кораблем с элементами управления, соответствующими ракетным двигателям, и целью может быть достижение луны с минимальным расходом топлива. Или динамичная система может быть экономикой страны с целью минимизировать безработицу ; элементами управления в этом случае могут быть фискальная и денежно-кредитная политика.

Оптимальный контроль является расширением вариационного исчисления и представляет собой математическую оптимизацию метод получения политик управления. Этот метод во многом является результатом работ Льва Понтрягина и Ричарда Беллмана в 1950-х годах после вклада в вариационное исчисление Эдварда Дж. МакШейна. Оптимальное управление можно рассматривать как стратегию управления в теории управления.

Содержание

1 Общий метод
2 Линейно-квадратичное управление
3 Численные методы для оптимального управления
4 Оптимальное управление с дискретным временем
5 Примеры
- 5.1 Конечное время
6 См. Также
7 Ссылки
8 Дополнительная литература
9 Внешние ссылки

Общий метод

Оптимальное управление связано с проблемой поиска закона управления для данной системы, при котором достигается определенный критерий оптимальности. Задача управления включает в себя функционал стоимости, который является функцией переменных состояния и управления. Оптимальное управление - это набор дифференциальных уравнений, описывающих пути переменных управления, которые минимизируют функцию стоимости. Оптимальное управление может быть получено с использованием принципа максимума Понтрягина (необходимое условие, также известное как принцип минимума Понтрягина или просто принцип Понтрягина) или путем решения Гамильтона – Якоби – Беллмана уравнение (достаточное условие ).

Начнем с простого примера. Представьте машину, едущую по прямой по холмистой дороге. Вопрос в том, как водителю нажимать педаль акселератора, чтобы минимизировать общее время в пути? В этом примере термин «закон управления» относится конкретно к способу, которым водитель нажимает на педаль газа и переключает передачи. Система состоит как из автомобиля, так и из дороги, и критерием оптимальности является минимизация общего времени в пути. Проблемы управления обычно включают вспомогательные ограничения. Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя протолкнуть через пол автомобиля, ограничения скорости и т. Д.

Правильная функция стоимости будет математическим выражением, дающим время в пути как функция скорости, геометрических характеристик и начальных условий системы. Ограничения часто взаимозаменяемы с функцией стоимости.

Другая связанная проблема оптимального управления может заключаться в том, чтобы найти способ управления автомобилем, чтобы минимизировать его расход топлива, при условии, что он должен пройти заданный курс за время, не превышающее некоторого количества. Еще одна связанная проблема контроля может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.

Более абстрактная структура выглядит следующим образом. Минимизируйте функционал затрат в непрерывном времени

J = Φ [x (t 0), t 0, x (tf), tf] + ∫ t 0 tf L [x (t), u (t), t] d ⁡ T {\ Displaystyle J = \ Phi \, [\, {\ textbf {x}} (t_ {0}), t_ {0}, {\ textbf {x}} (t_ {f}), t_ {f } \,] + \ int \ limits _ {t_ {0}} ^ {t_ {f}} {\ mathcal {L}} \, [\, {\ textbf {x}} (t), {\ textbf { u}} (t), t \,] \, \ operatorname {d} t}

{\ displaystyle J = \ Phi \, [\, {\ textbf {x}} (t_ {0}), t_ {0}, {\ textbf {x}} (t_ {f}), t_ {f} \,] + \ int \ limits _ {t_ {0}} ^ {t_ {f}} {\ mathcal {L}} \, [\, {\ textbf {x}} (t), {\ textbf {u}} (t), t \,] \, \ operatorname {d} t}

с учетом динамических ограничений первого порядка (уравнение состояния )

x ˙ (t) = a [x (т), и (т), т], {\ Displaystyle {\ точка {\ textbf {x}}} (т) = {\ textbf {a}} \, [\, {\ textbf {x}} ( t), {\ textbf {u}} (t), t \,],}

{\ точка {\ textb f {x}}} (t) = {\ textbf {a}} \, [\, {\ textbf {x}} (t), {\ textbf {u}} (t), t \,],

ограничения алгебраического пути

b [x (t), u (t), t] ≤ 0, {\ displaystyle {\ textbf {b}} \, [\, {\ textbf {x}} (t), {\ textbf {u}} (t), t \,] \ leq {\ textbf {0}},}

{\ textbf {b} } \, [\, {\ textbf {x}} (t), {\ textbf {u}} (t), t \,] \ leq {\ textbf {0}},

и граничными условиями

ϕ [x (t 0), t 0, x (tf), tf] = 0 {\ displaystyle {\ boldsymbol {\ phi}} \, [\, {\ textbf {x}} (t_ {0}), t_ {0}, {\ textbf {x}} (t_ {f}), t_ {f} \,] = 0}

{\ boldsymbol {\ phi}} \, [\, {\ textbf {x}} (t_ {0}), t_ {0 }, {\ textbf {x}} (t_ {f}), t_ {f} \,] = 0

где $x ( t) {\ displaystyle {\ textbf {x}} (t)}$ ${\ textbf {x}} (t)$ - состояние, $u (t) {\ displaystyle {\ textbf {u}} (t)}$ ${\ textbf {u}} (t)$ - это элемент управления, $t {\ displaystyle t}$ $t$ - независимая переменная (вообще говоря, время), $t 0 {\ displaystyle t_ {0}}$ $t_ {0}$ - начальное время, а $tf {\ displaystyle t_ {f}}$ $t_ {f}$ - конечное время. Термины $Φ {\ displaystyle \ Phi}$ $\ Phi$ и $L {\ displaystyle {\ mathcal {L}}}$ ${\ mathcal {L}}$ называются стоимостью конечной точки и лагранжианом. соответственно. Кроме того, следует отметить, что ограничения пути, как правило, являются ограничениями неравенства и, таким образом, могут быть неактивными (то есть равными нулю) в оптимальном решении. Также следует отметить, что задача оптимального управления, как указано выше, может иметь несколько решений (т.е. решение может быть не единственным). Таким образом, наиболее часто любое решение $[x ∗ (t ∗), u ∗ (t ∗), t ∗] {\ displaystyle [{\ textbf {x}} ^ {*} (t ^ {*}), {\ textbf {u}} ^ {*} (t ^ {*}), t ^ {*}]}$ $[{\ textbf {x}} ^ {*} (t ^ {*}), {\ textbf {u}} ^ {*} (t ^ {*}), t ^ {*}]$ к задаче оптимального управления локально минимизирует.

Линейно-квадратичное управление

Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичная (LQ) задача оптимального управления. Проблема LQ формулируется следующим образом. Минимизируйте квадратичный функционал затрат непрерывного времени

J = 1 2 x T (tf) S fx (tf) + 1 2 ∫ t 0 tf [x T (t) Q (t) x (t) + u T ( t) р (t) u (t)] d ⁡ t {\ displaystyle J = {\ tfrac {1} {2}} \ mathbf {x} ^ {\ mathsf {T}} (t_ {f}) \ mathbf {S} _ {f} \ mathbf {x} (t_ {f}) + {\ tfrac {1} {2}} \ int _ {t_ {0}} \ limits ^ {t_ {f}} [\, \ mathbf {x} ^ {\ mathsf {T}} (t) \ mathbf {Q} (t) \ mathbf {x} (t) + \ mathbf {u} ^ {\ mathsf {T}} (t) \ mathbf {R} (t) \ mathbf {u} (t) \,] \, \ operatorname {d} t}

{\ displaystyle J = {\ tfrac {1} {2}} \ mathbf {x} ^ {\ mathsf {T}} (t_ {f}) \ mathbf {S} _ {f} \ mathbf {x} (t_ {f}) + {\ tfrac {1} {2}} \ int _ {t_ {0}} \ limits ^ {t_ {f}} [\, \ mathbf {x } ^ {\ mathsf {T}} (t) \ mathbf {Q} (t) \ mathbf {x} (t) + \ mathbf {u} ^ {\ mathsf {T}} (t) \ mathbf {R} (t) \ mathbf {u} (t) \,] \, \ operatorname {d} t}

В соответствии с линейными динамическими ограничениями первого порядка

x ˙ (t) = A ( т) Икс (T) + В (T) U (T), {\ Displaystyle {\ точка {\ mathbf {x}}} (т) = \ mathbf {A} (т) \ mathbf {x} (т) + \ mathbf {B} (t) \ mathbf {u} (t),}

{\ dot {\ mathbf {x}}} (t) = \ mathbf {A} (t) \ mathbf {x} (t) + \ mathbf {B} (t) \ mathbf {u} (t),

и начальное условие

x (t 0) = x 0 {\ displaystyle \ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}}

\ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}

Особая форма проблемы LQ, которая возникает во многих проблемах систем управления, - это проблема линейно-квадратичного регулятора (LQR), где все матрицы (т. е. $А {\ Displaystyle \ mathbf {A}}$ $\ mathbf {A}$ , $В {\ d isplaystyle \ mathbf {B}}$ $\ mathbf {B}$ , $Q {\ displaystyle \ mathbf {Q}}$ $\ mathbf { Q}$ и $R {\ displaystyle \ mathbf {R}}$ $\ mathbf {R}$ ) являются постоянными, начальное время произвольно устанавливается равным нулю, а конечное время берется в пределах $tf → ∞ {\ displaystyle t_ {f} \ rightarrow \ infty}$ $t_f \ rightarrow \ infty$ (это последнее предположение является известный как бесконечный горизонт). Проблема LQR формулируется следующим образом. Минимизация квадратичного функционала затрат в непрерывном времени с бесконечным горизонтом

J = 1 2 ∫ 0 ∞ [x T (t) Q x (t) + u T (t) R u (t)] d ⁡ t {\ displaystyle J = {\ tfrac {1} {2}} \ int \ limits _ {0} ^ {\ infty} [\, \ mathbf {x} ^ {\ mathsf {T}} (t) \ mathbf {Q} \ mathbf {x} (t) + \ mathbf {u} ^ {\ mathsf {T}} (t) \ mathbf {R} \ mathbf {u} (t) \,] \, \ operatorname {d} t}

{\ Displaystyle J = {\ tfrac {1} {2}} \ int \ limits _ {0} ^ {\ infty} [\, \ mathbf {x} ^ {\ mathsf {T}} (t) \ mathbf {Q} \ mathbf {x} (t) + \ mathbf {u} ^ {\ mathsf {T}} (t) \ mathbf {R} \ mathbf {u} (t) \,] \, \ operatorname {d} t}

В соответствии с линейными постоянными во времени динамическими ограничениями первого порядка

x ˙ (t) = A x (t) + B u (t), {\ displaystyle {\ dot {\ mathbf {x}}} (t) = \ mathbf {A} \ mathbf {x} (t) + \ mathbf {B} \ mathbf {u} (t),}

{\ dot {{\ mathbf { x}}}} (t) = {\ mathbf {A}} {\ mathbf {x}} (t) + {\ mathbf {B}} {\ mathbf {u}} (t),

и начальное условие

x (t 0) = x 0 { \ displaystyle \ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}}

\ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}

В случае конечного горизонта матрицы ограничены в этом $Q {\ displaystyle \ mathbf {Q }}$ $\ mathbf { Q}$ и $R {\ displaystyle \ mathbf {R}}$ $\ mathbf {R}$ являются положительно полуопределенными и положительно определенными соответственно. Однако в случае с бесконечным горизонтом matrices $Q {\ displaystyle \ mathbf {Q}}$ $\ mathbf { Q}$ и $R {\ displaystyle \ mathbf {R}}$ $\ mathbf {R}$ не только положительно-полуопределенные и положительно-определенные соответственно, но и постоянные. Эти дополнительные ограничения для $Q {\ displaystyle \ mathbf {Q}}$ $\ mathbf { Q}$ и $R {\ displaystyle \ mathbf {R}}$ $\ mathbf {R}$ в случае бесконечного горизонта: принудительно, чтобы функциональная стоимость оставалась положительной. Кроме того, чтобы гарантировать, что функция затрат ограничена, налагается дополнительное ограничение: пара $(A, B) {\ displaystyle (\ mathbf {A}, \ mathbf {B})}$ $({\ mathbf {A}}, {\ mathbf {B}})$ - это управляемый. Обратите внимание, что функционал стоимости LQ или LQR физически можно рассматривать как попытку минимизировать энергию управления (измеренную в квадратичной форме).

Проблема бесконечного горизонта (то есть LQR) может показаться чрезмерно ограничивающей и по существу бесполезной, поскольку предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выход системы. Это действительно так. Однако проблема вывода выходного сигнала на желаемый ненулевой уровень может быть решена после того, как будет установлен нулевой выходной уровень. Фактически, можно доказать, что эта вторичная проблема LQR может быть решена очень просто. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет форму обратной связи

u (t) = - K (t) x (t) {\ displaystyle \ mathbf {u} (t) = - \ mathbf {K} (t) \ mathbf {x} (t)}

{\ mathbf {u}} (t) = - {\ mathbf {K}} (t) {\ mathbf {x}} (t)

где $K (t) {\ displaystyle \ mathbf {K} (t)}$ $\ mathbf {K} (t)$ - это матрица с правильными размерами, заданная как

K (t) = R - 1 BTS (t), {\ displaystyle \ mathbf {K} (t) = \ mathbf {R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T}} \ mathbf {S} (t),}

{\ displaystyle \ mathbf {K} (t) = \ mathbf {R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T} } \ mathbf {S} (t),}

и $S (t) {\ displaystyle \ mathbf {S} (t)}$ ${\ mathbf {S}} (t)$ является решением дифференциальное уравнение Риккати. Дифференциальное уравнение Риккати задается как

S ˙ (t) = - S (t) A - ATS (t) + S (t) BR - 1 BTS (t) - Q {\ displaystyle {\ dot {\ mathbf) {S}}} (t) = - \ mathbf {S} (t) \ mathbf {A} - \ mathbf {A} ^ {\ mathsf {T}} \ mathbf {S} (t) + \ mathbf {S } (t) \ mathbf {B} \ mathbf {R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T}} \ mathbf {S} (t) - \ mathbf {Q}}

{\ displaystyle {\ dot {\ mathbf {S}}} (t) = - \ mathbf {S} (t) \ mathbf {A} - \ mathbf {A} ^ {\ mathsf {T}} \ mathbf {S} (t) + \ mathbf {S} (t) \ mathbf {B} \ mathbf {R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T}} \ mathbf {S} (t) - \ mathbf {Q}}

Для задачи LQ с конечным горизонтом уравнение Риккати интегрируется назад во времени с использованием конечного граничного условия

S (tf) = S f {\ displaystyle \ mathbf {S} (t_ {f}) = \ mathbf {S} _ {f}}

{\ mathbf {S}} (t_ {f}) = {\ mathbf {S}} _ {f}

Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется алгебраическим уравнением Риккати (ARE), заданным как

0 = - SA - ATS + SBR - 1 BTS - Q {\ displaystyle \ mathbf {0} = - \ mathbf {S} \ mathbf {A} - \ mathbf {A} ^ {\ mathsf {T}} \ mathbf {S} + \ mathbf {S} \ mathbf {B} \ mathbf { R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T}} \ mathbf {S} - \ mathbf {Q}}

{\ displaystyle \ mathbf {0} = - \ mathbf {S} \ mathbf {A} - \ mathbf {A} ^ {\ mathsf {T}} \ mathbf {S} + \ mathbf {S} \ mathbf {B} \ mathbf {R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T}} \ mathbf {S} - \ mathbf {Q}}

Понимание того, что ARE возникает из проблемы бесконечного горизонта, матрицы $А {\ displaystyle \ mathbf {A}}$ $\ mathbf {A}$ , $B {\ displaystyle \ mathbf {B}}$ $\ mathbf {B}$ , $Q {\ displaystyle \ mathbf {Q}}$ $\ mathbf { Q}$ и $R {\ displaystyle \ mathbf {R}}$ $\ mathbf {R}$ все постоянны. Следует отметить, что, как правило, существует несколько решений алгебраического уравнения Риккати, и положительно определенное (или положительно полуопределенное) решение - это то решение, которое используется для вычисления коэффициента усиления обратной связи. Задача LQ (LQR) была элегантно решена Рудольфом Калманом.

Численные методы оптимального управления

Задачи оптимального управления, как правило, нелинейны и поэтому обычно не имеют аналитических решений (например, как линейные -квадратичная задача оптимального управления). В результате возникает необходимость использования численных методов для решения задач оптимального управления. В первые годы оптимального управления (c. с 1950-х по 1980-е годы) предпочтительным подходом к решению задач оптимального управления были косвенные методы. В косвенном методе вариационное исчисление используется для получения условий оптимальности первого порядка. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевой задаче. Эта краевая задача на самом деле имеет особую структуру, потому что она возникает в результате взятия производной от гамильтониана . Таким образом, результирующая динамическая система представляет собой гамильтонову систему формы

x ˙ = ∂ H / ∂ λ λ ˙ = - ∂ H / ∂ x {\ displaystyle {\ begin {array} {lcl} {\ dot {\ textbf {x}}} = \ partial H / \ partial {\ boldsymbol {\ lambda}} \\ {\ dot {\ boldsymbol {\ lambda}}} = - \ partial H / \ partial {\ textbf {x}} \ end {array}}}

\ begin {array} {lcl} \ dot {\ textbf {x}} = \ частичный H / \ partial \ boldsymbol {\ lambda} \\ \ dot {\ boldsymbol {\ lambda}} = - \ partial H / \ partial \ textbf {x} \ end {array}

где

H = L + λ T a - μ T b {\ displaystyle H = {\ mathcal { L}} + {\ boldsymbol {\ lambda}} ^ {\ mathsf {T}} {\ textbf {a}} - {\ boldsymbol {\ mu}} ^ {\ mathsf {T}} {\ textbf {b} }}

{\ displaystyle H = {\ mathcal {L}} + {\ boldsymbol {\ lambda}} ^ {\ mathsf {T}} {\ textbf {a}} - {\ boldsymbol {\ mu}} ^ {\ mathsf {T}} {\ textbf {b}}}

- это расширенный гамильтониан, и при косвенном методе краевая задача решается (с использованием соответствующих граничных условий или условий трансверсальности). Прелесть использования косвенного метода заключается в том, что для состояния и сопряженного (т. Е. $λ {\ displaystyle {\ boldsymbol {\ lambda}}}$ $\ boldsymbol {\ lambda}$ ) решаются, и полученное решение легко проверяется на соответствие - экстремальная траектория. Недостатком косвенных методов является то, что краевую задачу часто чрезвычайно сложно решить (особенно для задач, охватывающих большие временные интервалы, или задач с ограничениями внутренней точки). Хорошо известная программа, реализующая косвенные методы, - это BNDSCO.

Подход, получивший известность в численном оптимальном управлении с 1980-х годов, - это так называемые прямые методы. В прямом методе состояние или управление, или и то и другое, аппроксимируются с использованием подходящей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). Одновременно функционал стоимости аппроксимируется функцией стоимости. Затем коэффициенты аппроксимации функций рассматриваются как переменные оптимизации, и проблема «транскрибируется» в задачу нелинейной оптимизации вида:

Минимизировать

F (z) {\ displaystyle F (\ mathbf {z}) \,}

{\ displaystyle F (\ mathbf {z}) \, }

с учетом алгебраических ограничений

g (z) = 0 h (z) ≤ 0 {\ displaystyle {\ begin {array} {lcl} \ mathbf {g} (\ mathbf {z}) = \ mathbf {0} \\\ mathbf {h} (\ mathbf {z}) \ leq \ mathbf {0} \ end {array}}}

{\ displaystyle {\ begin {array} {lcl} \ mathbf {g} (\ mathbf {z}) = \ mathbf {0 } \\\ mathbf {h} (\ mathbf {z}) \ leq \ mathbf {0} \ end {array}}}

В зависимости от типа При использовании прямого метода размер задачи нелинейной оптимизации может быть довольно небольшим (например, как в методе прямой съемки или квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление ) или может быть довольно большим (например, прямой метод коллокации ). В последнем случае (т. Е. Метод коллокации) проблема нелинейной оптимизации может включать буквально тысячи или десятки тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих при использовании прямого метода, может показаться несколько нелогичным, что решить задачу нелинейной оптимизации проще, чем решить краевую задачу. Однако факт в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно прямого метода коллокации, заключается в том, что NLP является разреженным и существует множество хорошо известных программ (например, SNOPT ) для решения больших разреженных NLP. В результате круг проблем, которые могут быть решены прямыми методами (особенно прямые методы коллокации, которые очень популярны в наши дни), значительно превышает круг проблем, которые могут быть решены с помощью косвенных методов. Фактически, прямые методы стали настолько популярными в наши дни, что многие люди написали сложные программы, использующие эти методы. В частности, многие такие программы включают DIRCOL, SOCS, OTIS, GESOP / ASTOS, DITAN. и PyGMO / PyKEP. В последние годы, в связи с появлением языка программирования MATLAB, программное обеспечение оптимального управления в MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают RIOTS, DIDO, DIRECT, FALCON.m и GPOPS, тогда как примером промышленного инструмента MATLAB является PROPT. Эти программные инструменты значительно расширили возможности людей для исследования сложных задач оптимального управления как для академических исследований, так и для промышленных задач. Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как TOMLAB, значительно упростили кодирование сложных задач оптимального управления, чем это было ранее возможно в таких языках, как C и FORTRAN.

Дискретное время. оптимальное управление

До сих пор примеры показали системы с непрерывным временем и решения по управлению. Фактически, поскольку оптимальные решения управления в настоящее время часто реализуются в цифровом виде, современная теория управления сейчас в первую очередь связана с системами и решениями с дискретным временем. Теория обеспечивает условия, при которых решения ряда все более точных дискретизированных задач оптимального управления сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже кажущимся очевидным. Например, использование подпрограммы переменного размера шага для интегрирования динамических уравнений задачи может генерировать градиент, который не сходится к нулю (или не указывает в правильном направлении) по мере приближения к решению. Прямой метод RIOTS основан на теории согласованного приближения.

Примеры

Обычной стратегией решения многих задач оптимального управления является решение по стоимости (иногда называемой теневой ценой ) $λ (t) {\ displaystyle \ lambda (t)}$ $\ lambda (t)$ . Стоимость суммирует в одном числе предельное значение расширения или сжатия переменной состояния в следующий ход. Предельная стоимость - это не только прибыль, полученная в следующий ход, но и связанная с продолжительностью программы. Приятно, когда $λ (t) {\ displaystyle \ lambda (t)}$ $\ lambda (t)$ можно решить аналитически, но обычно самое большее, что можно сделать, - это описать это достаточно хорошо, чтобы интуиция могла уловить характер решения и решатель уравнений может решить численно для значений.

Получив $λ (t) {\ displaystyle \ lambda (t)}$ $\ lambda (t)$ , оптимальное значение поворота-t для управления обычно может быть решено как дифференциальное уравнение при условии знание $λ (t) {\ displaystyle \ lambda (t)}$ $\ lambda (t)$ . Опять же, нечасто, особенно в задачах с непрерывным временем, когда можно получить значение элемента управления или состояния явно. Обычно стратегия заключается в поиске пороговых значений и областей, которые характеризуют оптимальное управление, и использовании числового решателя для выделения фактических значений выбора во времени.

Конечное время

Рассмотрим проблему владельца шахты, который должен решить, с какой скоростью извлекать руду из своей шахты. Им принадлежат права на руду с даты $0 {\ displaystyle 0}$ ${\ displaystyle 0}$ до даты $T {\ displaystyle T}$ $T$ . На дату $0 {\ displaystyle 0}$ ${\ displaystyle 0}$ в земле находится $x 0 {\ displaystyle x_ {0}}$ $x_ { 0}$ руда, и зависящее от времени количество руда $x (t) {\ displaystyle x (t)}$ $x(t)$ , оставленная в земле, уменьшается со скоростью $u (t) {\ displaystyle u (t)}$ $u (t)$ что владелец шахты добывает его. Владелец рудника добывает руду по цене $u (t) 2 / x (t) {\ displaystyle u (t) ^ {2} / x (t)}$ $u (t) ^ 2 / x ( t)$ (стоимость добычи увеличивается с квадрат скорости добычи и величина, обратная количеству оставшейся руды) и продает руду по постоянной цене $p {\ displaystyle p}$ $p$ . Любая руда, оставшаяся в земле в момент $T {\ displaystyle T}$ $T$ , не может быть продана и не имеет ценности (нет «стоимости лома»). Владелец выбирает скорость добычи, меняющуюся со временем $u (t) {\ displaystyle u (t)}$ $u (t)$ , чтобы максимизировать прибыль в течение периода владения без дисконтирования по времени.

1. Версия с дискретным временем Менеджер максимизирует прибыль $Π {\ displaystyle \ Pi}$ $\ Pi$ : $Π = ∑ t = 0 T - 1 [put - ut 2 xt] {\ displaystyle \ Pi = \ sum \ limits _ {t = 0} ^ {T-1} \ left [pu_ {t} - {\ frac {u_ {t} ^ {2}} {x_ {t}}} \ right]}$ ${\ displaystyle \ Pi = \ sum \ limits _ {t = 0} ^ {T-1} \ left [pu_ {t} - {\ frac {u_ {t} ^ {2}} {x_ { t}}} \ right]}$ с учетом закон эволюции для переменной состояния $xt {\ displaystyle x_ {t}}$ $x_ {t}$ $xt + 1 - xt = - ut {\ displaystyle x_ {t + 1} -x_ {t} = - u_ {t} \!}$ $x_ {t + 1} - x_t = - u_t \!$ Сформируйте гамильтониан и дифференцируйте: $H = put - ut 2 xt - λ t + 1 ut {\ displaystyle H = pu_ {t} - {\ frac {u_ {t} ^ {2} } {x_ {t}}} - \ lambda _ {t + 1} u_ {t}}$ $H = pu_t - \ frac { u_t ^ 2} {x_t} - \ lambda_ {t + 1} u_t$ $∂ H ∂ ut = p - λ t + 1-2 utxt = 0 {\ displaystyle {\ frac {\ partial H} {\ partial u_ {t}}} = p- \ lambda _ {t + 1} -2 {\ frac {u_ {t}} {x_ {t}}} = 0}$ $\ frac {\ partial H} {\ partial u_t} = p - \ lambda_ {t + 1} - 2 \ frac {u_t} {x_t} = 0$ $λ t + 1 - λ T знак равно - ∂ H ∂ xt = - (utxt) 2 {\ displaystyle \ lambda _ {t + 1} - \ lambda _ {t} = - {\ frac {\ partial H} {\ partial x_ {t} }} = - \ left ({\ frac {u_ {t}} {x_ {t}}} \ right) ^ {2}}$ $\ lambda_ {t + 1} - \ lambda_t = - \ frac {\ partial H} {\ partial x_t} = - \ left (\ frac {u_t} {x_t} \ right) ^ 2$ Поскольку владелец шахты не оценивает руду, оставшуюся на момент $T {\ displaystyle T}$ $T$ , $λ T = 0 {\ displaystyle \ lambda _ {T} = 0 \!}$ $\ lambda_T = 0 \!$ Использование th e, приведенные выше уравнения, легко решить для $xt {\ displaystyle x_ {t}}$ $x_ {t}$ и $λ t {\ displaystyle \ lambda _ {t}}$ $\ lambda_t$ ряд $λ T = λ T + 1 + (p - λ t + 1) 2 4 {\ displaystyle \ lambda _ {t} = \ lambda _ {t + 1} + {\ frac {(p- \ лямбда _ {т + 1}) ^ {2}} {4}}}$ $\ lambda_t = \ lambda_ {t + 1} + \ frac {(p- \ lambda_ {t + 1}) ^ 2} {4}$ $xt + 1 = xt 2 - p + λ t + 1 2 {\ displaystyle x_ {t + 1} = x_ {t} { \ frac {2-p + \ lambda _ {t + 1}} {2}}}$ $x_ {t + 1} = x_t \ frac {2 - p + \ lambda_ {t + 1}} {2}$ и, используя начальные условия и условия поворота-T, $xt {\ displaystyle x_ {t}}$ $x_ {t}$ можно решить явно, давая $ut {\ displaystyle u_ {t}}$ $u_{t}$ .		2. Версия с непрерывным временем Менеджер максимизирует прибыль $Π {\ displaystyle \ Pi}$ $\ Pi$ : $Π = ∫ 0 T [pu (t) - u (t) 2 x (t)] dt {\ displaystyle \ Pi = \ int \ limits _ {0} ^ {T} \ left [pu (t) - {\ frac {u (t) ^ {2}} {x (t)}} \ right] dt}$ ${\ displaystyle \ Pi = \ int \ limits _ {0} ^ {T} \ left [pu (t) - {\ frac {u (t) ^ {2}} {x (t)}} \ right] dt}$ где переменная состояния $x (t) {\ displaystyle x (t)}$ $x(t)$ изменяется следующим образом: $x ˙ (t) = - u (t) {\ displaystyle {\ dot { x}} (t) = - u (t)}$ $\ точка x (t) = - u (t)$ Сформируем гамильтониан и продифференцируем: $H = pu (t) - u (t) 2 x (t) - λ (t) u (t) {\ displaystyle H = pu (t) - {\ frac {u (t) ^ {2}} {x (t)}} - \ lambda (t) u (t)}$ $H = pu (t) - \ frac {u (t) ^ 2} {x (t)} - \ lambda (t) u (t)$ $∂ H ∂ u = p - λ (T) - 2 U (T) Икс (T) = 0 {\ Displaystyle {\ frac {\ partial H} {\ partial u}} = p- \ lambda (t) -2 {\ frac {u ( t)} {x (t)}} = 0}$ $\ frac {\ partial H} {\ partial u} = p - \ lambda (t) - 2 \ frac {u (t)} {x (t)} = 0$ $λ ˙ (t) = - ∂ H ∂ x = - (u (t) x (t)) 2 {\ displaystyle {\ dot {\ lambda} } (t) = - {\ frac {\ partial H} {\ partial x}} = - \ left ({\ frac {u (t)} {x (t)}} \ right) ^ {2}}$ $\ dot \ lambda (t) = - \ frac {\ partial H} {\ partial x} = - \ left (\ frac {u (t)} {х (т)} \ справа) ^ 2$ Поскольку владелец шахты не оценивает руду, оставшуюся на момент $T {\ displaystyle T}$ $T$ , $λ (T) = 0 {\ displaystyle \ lambda (T) = 0}$ $\ lambda (T) = 0$ Использование th е приведенные выше уравнения легко решить для дифференциальных уравнений, определяющих $u (t) {\ displaystyle u (t)}$ $u (t)$ и $λ (t) {\ displaystyle \ lambda (t)}$ $\ lambda (t)$ $λ ˙ (t) = - (p - λ (t)) 2 4 {\ displaystyle {\ dot {\ lambda}} (t) = - {\ frac {(p- \ lambda (t)) ^ {2}} {4}}}$ $\ dot \ lambda (t) = - \ frac {(p- \ lambda (t)) ^ 2 } {4}$ $u (t) = x (t) p - λ (t) 2 {\ displaystyle u (t) = x (t) {\ frac {p- \ lambda (t)} {2}}}$ $u (t) = x (t) \ frac {p- \ lambda (t)} {2}$ и используя начальные условия и условия поворота-T, функции могут быть решены для получения $x (t) = (4 - pt + p T) 2 (4 + p T) 2 x 0 {\ displaystyle x (t) = {\ frac {(4-pt + pT) ^ {2}} {(4 + pT) ^ {2}}} x_ {0}}$ ${\ displaystyle x ( t) = {\ frac {(4-pt + pT) ^ {2}} {(4 + pT) ^ {2}}} x_ {0}}$

1. Версия с дискретным временем

Менеджер максимизирует прибыль $Π {\ displaystyle \ Pi}$ $\ Pi$ :

Π = ∑ t = 0 T - 1 [put - ut 2 xt] {\ displaystyle \ Pi = \ sum \ limits _ {t = 0} ^ {T-1} \ left [pu_ {t} - {\ frac {u_ {t} ^ {2}} {x_ {t}}} \ right]}

{\ displaystyle \ Pi = \ sum \ limits _ {t = 0} ^ {T-1} \ left [pu_ {t} - {\ frac {u_ {t} ^ {2}} {x_ { t}}} \ right]}

с учетом закон эволюции для переменной состояния $xt {\ displaystyle x_ {t}}$ $x_ {t}$

xt + 1 - xt = - ut {\ displaystyle x_ {t + 1} -x_ {t} = - u_ {t} \!}

x_ {t + 1} - x_t = - u_t \!

Сформируйте гамильтониан и дифференцируйте:

H = put - ut 2 xt - λ t + 1 ut {\ displaystyle H = pu_ {t} - {\ frac {u_ {t} ^ {2} } {x_ {t}}} - \ lambda _ {t + 1} u_ {t}}

H = pu_t - \ frac { u_t ^ 2} {x_t} - \ lambda_ {t + 1} u_t

∂ H ∂ ut = p - λ t + 1-2 utxt = 0 {\ displaystyle {\ frac {\ partial H} {\ partial u_ {t}}} = p- \ lambda _ {t + 1} -2 {\ frac {u_ {t}} {x_ {t}}} = 0}

\ frac {\ partial H} {\ partial u_t} = p - \ lambda_ {t + 1} - 2 \ frac {u_t} {x_t} = 0

λ t + 1 - λ T знак равно - ∂ H ∂ xt = - (utxt) 2 {\ displaystyle \ lambda _ {t + 1} - \ lambda _ {t} = - {\ frac {\ partial H} {\ partial x_ {t} }} = - \ left ({\ frac {u_ {t}} {x_ {t}}} \ right) ^ {2}}

\ lambda_ {t + 1} - \ lambda_t = - \ frac {\ partial H} {\ partial x_t} = - \ left (\ frac {u_t} {x_t} \ right) ^ 2

Поскольку владелец шахты не оценивает руду, оставшуюся на момент $T {\ displaystyle T}$ $T$ ,

λ T = 0 {\ displaystyle \ lambda _ {T} = 0 \!}

\ lambda_T = 0 \!

Использование th e, приведенные выше уравнения, легко решить для $xt {\ displaystyle x_ {t}}$ $x_ {t}$ и $λ t {\ displaystyle \ lambda _ {t}}$ $\ lambda_t$ ряд

λ T = λ T + 1 + (p - λ t + 1) 2 4 {\ displaystyle \ lambda _ {t} = \ lambda _ {t + 1} + {\ frac {(p- \ лямбда _ {т + 1}) ^ {2}} {4}}}

\ lambda_t = \ lambda_ {t + 1} + \ frac {(p- \ lambda_ {t + 1}) ^ 2} {4}

xt + 1 = xt 2 - p + λ t + 1 2 {\ displaystyle x_ {t + 1} = x_ {t} { \ frac {2-p + \ lambda _ {t + 1}} {2}}}

x_ {t + 1} = x_t \ frac {2 - p + \ lambda_ {t + 1}} {2}

и, используя начальные условия и условия поворота-T, $xt {\ displaystyle x_ {t}}$ $x_ {t}$ можно решить явно, давая $ut {\ displaystyle u_ {t}}$ $u_{t}$ .

2. Версия с непрерывным временем

Менеджер максимизирует прибыль $Π {\ displaystyle \ Pi}$ $\ Pi$ :

Π = ∫ 0 T [pu (t) - u (t) 2 x (t)] dt {\ displaystyle \ Pi = \ int \ limits _ {0} ^ {T} \ left [pu (t) - {\ frac {u (t) ^ {2}} {x (t)}} \ right] dt}

{\ displaystyle \ Pi = \ int \ limits _ {0} ^ {T} \ left [pu (t) - {\ frac {u (t) ^ {2}} {x (t)}} \ right] dt}

где переменная состояния $x (t) {\ displaystyle x (t)}$ $x(t)$ изменяется следующим образом:

x ˙ (t) = - u (t) {\ displaystyle {\ dot { x}} (t) = - u (t)}

\ точка x (t) = - u (t)

Сформируем гамильтониан и продифференцируем:

H = pu (t) - u (t) 2 x (t) - λ (t) u (t) {\ displaystyle H = pu (t) - {\ frac {u (t) ^ {2}} {x (t)}} - \ lambda (t) u (t)}

H = pu (t) - \ frac {u (t) ^ 2} {x (t)} - ​​\ lambda (t) u (t)

∂ H ∂ u = p - λ (T) - 2 U (T) Икс (T) = 0 {\ Displaystyle {\ frac {\ partial H} {\ partial u}} = p- \ lambda (t) -2 {\ frac {u ( t)} {x (t)}} = 0}

\ frac {\ partial H} {\ partial u} = p - \ lambda (t) - 2 \ frac {u (t)} {x (t)} = 0

λ ˙ (t) = - ∂ H ∂ x = - (u (t) x (t)) 2 {\ displaystyle {\ dot {\ lambda} } (t) = - {\ frac {\ partial H} {\ partial x}} = - \ left ({\ frac {u (t)} {x (t)}} \ right) ^ {2}}

\ dot \ lambda (t) = - \ frac {\ partial H} {\ partial x} = - \ left (\ frac {u (t)} {х (т)} \ справа) ^ 2

Поскольку владелец шахты не оценивает руду, оставшуюся на момент $T {\ displaystyle T}$ $T$ ,

λ (T) = 0 {\ displaystyle \ lambda (T) = 0}

\ lambda (T) = 0

Использование th е приведенные выше уравнения легко решить для дифференциальных уравнений, определяющих $u (t) {\ displaystyle u (t)}$ $u (t)$ и $λ (t) {\ displaystyle \ lambda (t)}$ $\ lambda (t)$

λ ˙ (t) = - (p - λ (t)) 2 4 {\ displaystyle {\ dot {\ lambda}} (t) = - {\ frac {(p- \ lambda (t)) ^ {2}} {4}}}

\ dot \ lambda (t) = - \ frac {(p- \ lambda (t)) ^ 2 } {4}

u (t) = x (t) p - λ (t) 2 {\ displaystyle u (t) = x (t) {\ frac {p- \ lambda (t)} {2}}}

u (t) = x (t) \ frac {p- \ lambda (t)} {2}

и используя начальные условия и условия поворота-T, функции могут быть решены для получения

x (t) = (4 - pt + p T) 2 (4 + p T) 2 x 0 {\ displaystyle x (t) = {\ frac {(4-pt + pT) ^ {2}} {(4 + pT) ^ {2}}} x_ {0}}

{\ displaystyle x ( t) = {\ frac {(4-pt + pT) ^ {2}} {(4 + pT) ^ {2}}} x_ {0}}

См. также

Активный вывод
Уравнение Беллмана
Псевдоспектральный метод Беллмана
Брахистохрон
DIDO
Точка DNSS
Динамическое программирование
Псевдоспектральный метод Гаусса
Обобщенная фильтрация
GPOPS -II
JModelica.org (платформа с открытым исходным кодом на основе Modelica для динамической оптимизации)
Фильтр Калмана
Линейно-квадратичный регулятор
Прогностическое управление моделью
ПИД-регулятор
PROPT ( Оптимально Программное обеспечение для управления MATLAB)
Псевдоспектральное оптимальное управление
Преследование-уклонение игры
Управление в скользящем режиме
SNOPT
Стохастическое управление
Оптимизация траектории

Ссылки

Дополнительная литература

Берцекас Д.П. (1995). Динамическое программирование и оптимальное управление. Бельмонт: Афина. ISBN 1-886529-11-6.
Bryson, A.E. ; Хо, Й.-К. (1975). Прикладное оптимальное управление: оптимизация, оценка и контроль (Пересмотренное издание). Нью-Йорк: Джон Уайли и сыновья. ISBN 0-470-11481-9.
Флеминг, У. Х. ; (1975). Детерминированное и стохастическое оптимальное управление. Нью-Йорк: Спрингер. ISBN 0-387-90155-8.
Kamien, M. I. ; Шварц, Н. Л. (1991). Динамическая оптимизация: расчет вариаций и оптимальное управление в экономике и управлении (второе изд.). Нью-Йорк: Эльзевир. ISBN 0-444-01609-0.
(1970). Теория оптимального управления: введение. Энглвудские скалы: Прентис-Холл. ISBN 0-13-638098-0.
(1994). Оптимальное управление и оценка. Нью-Йорк: Дувр (Курьер). ISBN 0-486-68200-5.

Внешние ссылки

Онлайн-курс по оптимальному управлению
Dr. Бенуа ШАЧУА: Лаборатория автоматического управления - Нелинейное программирование, вариационное исчисление и оптимальное управление.
DIDO - Инструмент MATLAB для оптимального управления
GEKKO - пакет Python для оптимального управления
GESOP - Графическая среда для моделирования и оптимизации

GPOPS-II - Универсальное программное обеспечение MATLAB Optimal Control
PROPT - Программное обеспечение MATLAB Optimal Control
OpenOCL - Открытая библиотека оптимального управления
Элмер Г. Винс: Оптимальное управление - Приложения теории оптимального управления с использованием принципа максимума Понтрягина с интерактивными моделями.
Принцип Понтрягина, проиллюстрированный примерами
Об оптимальном управлении Ю-Чи Хо
Псевдоспектральное оптимальное управление: Часть 1
Псевдоспектральное оптимальное управление: Часть 2