Линейно-квадратичный регулятор

редактировать

Теория оптимального управления касается работы динамической системы при минимальная стоимость. Случай, когда динамика системы описывается набором линейных дифференциальных уравнений, а стоимость описывается квадратичной функцией, называется проблемой LQ. Одним из основных результатов теории является то, что решение обеспечивается линейно-квадратичным регулятором (LQR ), контроллером с обратной связью, уравнения которого приведены ниже. LQR - важная часть решения LQG (линейно-квадратичной-гауссовской) задачи. Как и сама проблема LQR, проблема LQG является одной из самых фундаментальных проблем в теории управления.

Содержание
  • 1 Общее описание
  • 2 Конечное время горизонта, непрерывное время LQR
  • 3 Бесконечное- горизонт, непрерывное время LQR
  • 4 Конечный горизонт, дискретное время LQR
  • 5 Бесконечный горизонт, дискретное время LQR
  • 6 Ссылки
  • 7 Внешние ссылки
Общее описание

Настройки (регулирующего) контроллера, управляющего машиной или технологическим процессом (например, самолетом или химическим реактором), находятся с помощью математического алгоритма, который минимизирует функцию стоимости с весовыми коэффициентами, предоставленными человеком ( инженер). Функция стоимости часто определяется как сумма отклонений ключевых измерений, таких как высота над уровнем моря или температура процесса, от их желаемых значений. Таким образом, алгоритм находит те настройки регулятора, которые минимизируют нежелательные отклонения. Величина самого управляющего воздействия также может быть включена в функцию затрат.

Алгоритм LQR сокращает объем работы, выполняемой инженером по системам управления для оптимизации контроллера. Однако инженеру по-прежнему необходимо указать параметры функции затрат и сравнить результаты с заданными целями проектирования. Часто это означает, что создание контроллера будет итеративным процессом, в котором инженер оценивает «оптимальные» контроллеры, созданные путем моделирования, а затем регулирует параметры для создания контроллера, более соответствующего целям проектирования.

Алгоритм LQR по сути является автоматическим способом поиска подходящего контроллера с обратной связью по состоянию. Таким образом, инженеры по управлению нередко предпочитают альтернативные методы, такие как полная обратная связь по состоянию, также известная как размещение полюсов, в которых существует более четкая взаимосвязь между параметрами контроллера и его поведением. Сложность поиска правильных весовых коэффициентов ограничивает применение синтеза контроллеров на основе LQR.

.

Конечный горизонт, LQR с непрерывным временем

Для линейной системы с непрерывным временем, определенной на t ∈ [t 0, t 1] {\ displaystyle t \ in [t_ {0}, t_ {1}]}t \ in [t_ {0}, t_ {1}] , описывается следующим образом:

x ˙ = A x + B u {\ displaystyle {\ dot {x}} = Ax + Bu}{\ dot {x}} = Ax + Bu

с квадратичной стоимостью функция определяется как:

J = x T (t 1) F (t 1) x (t 1) + ∫ t 0 t 1 (x TQ x + u TR u + 2 x TN u) dt {\ displaystyle J = x ^ {T} (t_ {1}) F (t_ {1}) x (t_ {1}) + \ int \ limits _ {t_ {0}} ^ {t_ {1}} \ left (x ^ {T} Qx + u ^ {T} Ru + 2x ^ {T} Nu \ right) dt}{\ displaystyle J = x ^ {T} (t_ {1}) F (t_ {1}) x (t_ {1}) + \ int \ limits _ {t_ {0}} ^ {t_ {1}} \ left (x ^ {T} Qx + u ^ {T} Ru + 2x ^ {T} Nu \ right) dt}

закон управления с обратной связью, минимизирующий стоимость:

u = - K x {\ displaystyle u = -Kx \,}u=-Kx\,

где K {\ displaystyle K}K определяется по формуле:

K = R - 1 (BTP (t) + NT) {\ displaystyle K = R ^ {- 1} (B ^ {T} P (t) + N ^ {T}) \,}K = R ^ {{- 1}} (B ^ {T} P (t) + N ^ {T}) \,

и P {\ displaystyle P}P находится путем решения непрерывное время дифференциальное уравнение Риккати :

ATP (t) + P (t) A - (P (t) B + N) R - 1 (BTP (t) + NT) + Q = - P ˙ ( t) {\ displaystyle A ^ {T} P (t) + P (t) A- (P (t) B + N) R ^ {- 1} (B ^ { T} P (t) + N ^ {T}) + Q = - {\ dot {P}} (t) \,}A ^ {T} P (t) + P (t) A- (P (t) B + N) R ^ {{- 1}} (B ^ {T} P (t) + N ^ {T}) + Q = - {\ dot {P}} (t) \,

с граничным условием:

P (t 1) = F (t 1). {\ displaystyle P (t_ {1}) = F (t_ {1}).}P (t_ {1}) = F (t_ {1}).

Условия первого порядка для J min :

1) Уравнение состояния

x ˙ = A Икс + В U {\ Displaystyle {\ dot {x}} = Ax + Bu}{\ dot {x}} = Ax + Bu

2) уравнение совместного состояния

- λ ˙ = Q x + N u + AT λ {\ displaystyle - {\ dot {\ lambda}} = Qx + Nu + A ^ {T} \ lambda}- {\ dot {\ lambda}} = Qx + Nu + A ^ {T} \ lambda

3) Стационарное уравнение

0 = R u + NT x + BT λ {\ displaystyle 0 = Ru + N ^ {T} x + B ^ {T} \ lambda}0 = Ru + N ^ {T} x + B ^ {T} \ лямбда

4) Граничные условия

x (t 0) = x 0 {\ displaystyle x (t_ {0}) = x_ {0}}x (t_ {0}) = x_ {0}

и λ (t 1) = F (t 1) x (t 1) {\ displaystyle \ lambda (t_ {1}) = F (t_ {1}) x (t_ {1})}\ lambda (t_ {1}) = F (t_ {1}) x ( t_ {1})

Бесконечный горизонт, LQR с непрерывным временем

Для линейной системы с непрерывным временем, описываемой следующим образом:

x ˙ = A x + B u {\ displaystyle {\ dot {x}} = Ax + Bu}{\ dot {x}} = Ax + Bu

с функцией стоимости, определенной как:

J = ∫ 0 ∞ (x TQ x + u TR u + 2 x TN u) dt {\ displaystyle J = \ int _ {0} ^ {\ infty } \ left (x ^ {T} Qx + u ^ {T} Ru + 2x ^ {T} Nu \ right) dt}J = \ int _ {{0}} ^ {\ infty} \ left (x ^ {T} Qx + u ^ {T} Ru + 2x ^ {T} Nu \ right) dt

закон управления с обратной связью, который минимизирует стоимость затрат:

u = - K x {\ displaystyle u = -Kx \,}u=-Kx\,

где K {\ displaystyle K}K определяется по формуле:

K = R - 1 (BTP + NT) {\ displaystyle K = R ^ {- 1} (B ^ {T} P + N ^ {T}) \,}K = R ^ {{- 1}} (B ^ {T} P + N ^ {T}) \,

и P {\ displaystyle P}P находится путем решения непрерывного времени алгебраического уравнения Риккати :

ATP + PA - (PB + N) R - 1 (BTP + NT) + Q = 0 {\ displaystyle A ^ {T} P + PA- (PB + N) R ^ {- 1} (B ^ {T} P + N ^ {T}) + Q = 0 \,}A ^ {T} P + PA- (PB + N) R ^ {{-1}} (B ^ {T} P + N ^ {T}) + Q = 0 \,

Это также можно записать как:

ATP + PA - PBR - 1 BTP + Q = 0 {\ displaystyle {\ mathcal {A}} ^ {T} P + P {\ mathcal {A}} - PBR ^ {- 1} B ^ {T} P + {\ mathcal {Q}} = 0 \,}{\ mathcal A} ^ {T} P + P {\ mathcal A} -PBR ^ {{- 1}} B ^ {T} P + {\ mathcal Q} = 0 \,

с

A = A - BR - 1 NTQ = Q - NR - 1 NT {\ Displaystyle {\ mathcal {A}} = A-BR ^ {- 1} N ^ {T} \ qquad {\ mathcal {Q}} = Q-NR ^ {- 1} N ^ {T } \,}{\ mathcal A} = A-BR ^ {{- 1}} N ^ {T} \ qquad {\ mathcal Q} = Q-NR ^ {{- 1}} N ^ {T} \,
Конечный горизонт, LQR с дискретным временем

Для линейной системы с дискретным временем, описываемой следующим образом:

xk + 1 = A xk + B uk {\ displaystyle x_ {k + 1} = Ax_ {k} + Bu_ {k} \,}x _ {{k + 1}} = Ax_ {k} + Bu_ {k} \,

с индексом производительности, определяемым как:

J = x NTQ x N + ∑ k = 0 N - 1 (xk TQ xk + uk TR uk + 2 xk TN uk) {\ displaystyle J = x_ {N} ^ {T} Qx_ {N} + \ sum \ limits _ {k = 0} ^ {N-1} \ left (x_ {k} ^ {T} Qx_ {k} + u_ {k} ^ {T} Ru_ {k} + 2x_ {k} ^ {T} Nu_ {k} \ right)}{\ displaystyle J = x_ {N} ^ {T} Qx_ {N} + \ sum \ limits _ {k = 0} ^ {N-1} \ left (x_ {k} ^ {T} Qx_ {k} + u_ {k} ^ {T} Ru_ {k} + 2x_ {k} ^ {T} Nu_ {k} \ right)}

оптимальное управление последовательность, минимизирующая индекс производительности, задается следующим образом:

uk = - F kxk {\ displaystyle u_ {k} = - F_ {k} x_ {k} \,}u_ {k} = - F_ {k} x _ {{k}} \,

где:

F k = (R + BTP k + 1 B) - 1 (BTP k + 1 A + NT) {\ displaystyle F_ {k} = (R + B ^ {T} P_ {k + 1} B) ^ {- 1} (B ^ {T} P_ {k + 1} A + N ^ {T}) \,}{\ displaystyle F_ {k} = (R + B ^ {T} P_ {k + 1} B) ^ {- 1} (B ^ {T} P_ {k + 1} A + N ^ {T}) \,}

и P k {\ displaystyle P_ {k}}P_k находится итеративно назад во времени по динамическое уравнение Риккати:

P k - 1 = ATP k A - (ATP k B + N) (R + BTP k B) - 1 (BTP k A + NT) + Q {\ displaystyle P_ {k-1 } = A ^ {T} P_ {k} A- (A ^ {T} P_ {k} B + N) \ left (R + B ^ {T} P_ {k} B \ right) ^ {- 1} (B ^ {T} P_ {k} A + N ^ {T}) + Q}P _ {{k-1}} = A ^ {T} P_ {k} A- (A ^ {T} P_ {k} B + N) \ left (R + B ^ {T} P_ {k} B \ right) ^ {{- 1}} (B ^ {T} P_ {k} A + N ^ {T}) + Q

из конечного условия PN = Q {\ displaystyle P_ {N} = Q}P_ {N} = Q . Обратите внимание, что u N {\ displaystyle u_ {N}}u_ {N} не определено, поскольку x {\ displaystyle x}x переводится в свое конечное состояние Икс N {\ Displaystyle x_ {N}}x_N по A x N - 1 + B u N - 1 {\ displaystyle Ax_ {N-1} + Bu_ {N-1}}Ax _ {{N-1}} + Bu _ {{N-1}} .

Бесконечный горизонт, LQR с дискретным временем

Для линейной системы с дискретным временем, описываемой следующим образом:

xk + 1 = A xk + B uk {\ displaystyle x_ {k + 1} = Ax_ {k } + Bu_ {k} \,}x _ {{k + 1}} = Ax_ {k} + Bu_ {k} \,

с индексом производительности, определенным как:

J = ∑ k = 0 ∞ (xk TQ xk + uk TR uk + 2 xk TN uk) {\ displaystyle J = \ sum \ limits _ {k = 0} ^ {\ infty} \ left (x_ {k} ^ {T} Qx_ {k} + u_ {k} ^ {T} Ru_ {k} + 2x_ {k} ^ {T} Nu_ {k} \ right)}J = \ sum \ limits _ {{k = 0}} ^ {{\ infty}} \ left (x_ {k} ^ { T} Qx_ {k} + u_ {k} ^ {T} Ru_ {k} + 2x_ {k} ^ {T} Nu_ {k} \ right)

оптимальная последовательность управления, минимизирующая показатель производительности, задается следующим образом:

uk = - F xk {\ displaystyle u_ {k} = - Fx_ {k} \,}u_ {k} = - Fx_ {k} \,

где:

F = (R + BTPB) - 1 (BTPA + NT) {\ displaystyle F = (R + B ^ {T} PB) ^ {- 1} (B ^ {T} PA + N ^ { T}) \,}F = (R + B ^ {T} PB) ^ {{- 1}} (B ^ {T} PA + N ^ {T}) \,

и P {\ displaystyle P}P - единственное положительно определенное решение дискретного времени алгебраического уравнения Риккати (DARE):

P = ATPA - (ATPB + N) (R + BTPB) - 1 (BTPA + NT) + Q {\ displaystyle P = A ^ {T} PA- (A ^ {T} PB + N) \ left (R + B ^ {T} PB \ right) ^ {- 1} (B ^ {T} PA + N ^ {T}) + Q}P = A ^ {T} PA- (A ^ {T} PB + N) \ left (R + B ^ {T} PB \ right) ^ {{- 1}} (B ^ {T} PA + N ^ {T}) + Q .

Это также можно записать как:

P = ATA - ATPB (R + BTPB) - 1 BTPA + Q {\ displaystyle P = {\ mathcal {A}} ^ {T} {\ mathcal {A}} - {\ mathcal {A}} ^ { T} PB \ left (R + B ^ {T} PB \ right) ^ {- 1} B ^ {T} P {\ mathcal {A}} + {\ mathcal {Q}}}{\ displaystyle P = {\ mathcal { A}} ^ {T} {\ mathcal {A}} - {\ mathcal {A}} ^ {T} PB \ left (R + B ^ {T} PB \ right) ^ {- 1} B ^ {T } P {\ mathcal {A}} + {\ mathcal {Q}}}

с:

A = A - BR - 1 NTQ = Q - NR - 1 NT {\ displaystyle {\ mathcal {A}} = A-BR ^ {- 1} N ^ {T} \ qquad {\ mathcal {Q}} = Q-NR ^ {- 1} N ^ {T}}{\ mathcal A} = A-BR ^ {{- 1 }} N ^ {T} \ qquad {\ mathcal Q} = Q-NR ^ {{- 1}} N ^ {T} .

Обратите внимание, что одним из способов решения алгебраического уравнения Риккати является повторение динамического уравнения Риккати для случая конечного горизонта до тех пор, пока оно не сходится.

Ссылки
  1. ^Chow, Gregory C. (1986). Анализ и управление динамическими экономическими системами. Krieger Publ. Co. ISBN 0-89874-969-7.
  • Kwakernaak, Huibert Sivan, Raphael (1972). Линейные оптимальные системы управления. Первое издание. Wiley-Interscience. ISBN 0-471-51110-2.
  • Зонтаг, Эдуардо (1998). Математическая теория управления: детерминированные конечномерные системы. Второе издание. Springer. ISBN 0-387-98489-5.
Внешние ссылки
Последняя правка сделана 2021-05-27 10:32:45
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте