Условия Каруша – Куна – Таккера

редактировать

В математической оптимизации, условия Каруша – Куна – Такера (KKT), также известные как условия Куна – Таккера, являются критериями первой производной (иногда называемыми необходимыми условиями первого порядка) для решения в нелинейное программирование должно быть оптимальным при условии, что удовлетворяются некоторые условия регулярности.

Допуская ограничения неравенства, подход KKT к нелинейному программированию обобщает метод множителей Лагранжа, который допускает только ограничения равенства. Подобно подходу Лагранжа, задача ограниченной максимизации (минимизации) переписывается в виде функции Лагранжа, оптимальной точкой которой является седловая точка, то есть глобальный максимум (минимум) по области переменных выбора и глобальный минимум (максимум) по множителям, поэтому теорему Каруша – Куна – Такера иногда называют теоремой о перевалке.

Условия KKT были первоначально названы в честь Гарольда В. Куна и Альберт У. Такер, который впервые опубликовал условия в 1951 году. Позднее ученые обнаружили, что необходимые условия для этой проблемы были сформулированы Уильямом Карушем в его магистерской диссертации в 1939 году..

Содержание
  • 1 Задача нелинейной оптимизации
  • 2 Необходимые условия
    • 2.1 Матричное представление
  • 3 Условия регулярности (или ограничения)
  • 4 Достаточные условия
    • 4.1 Достаточные условия второго порядка
  • 5 Экономика
  • 6 Функция ценности
  • 7 Обобщения
  • 8 См. Также
  • 9 Ссылки
  • 10 Дополнительная литература
  • 11 Внешние ссылки
Задача нелинейной оптимизации

Рассмотрим следующую нелинейную задачу минимизации или максимизации :

Оптимизировать f (Икс) {\ Displaystyle F (\ mathbf {x})}f (\ mathbf {x})
при условии
gi (x) ≤ 0, {\ displaystyle g_ {i} (\ mathbf {x}) \ leq 0,}{\displaystyle g_{i}(\mathbf {x})\leq 0,}
hj (x) = 0. {\ displaystyle h_ {j} (\ mathbf {x}) = 0.}{\displaystyle h_{j}(\mathbf {x})=0.}

где x ∈ X {\ displaystyle \ mathbf {x} \ in \ mathbf { X}}\ mathbf {x} \ in \ mathbf {X} - переменная оптимизации, выбранная из выпуклого подмножества из R n {\ displaystyle \ mathbb {R} ^ {n}}\mathbb {R} ^{n}, f {\ displaystyle f}f - target или функция полезности, gi (i = 1,…, m) {\ displaystyle g_ {i} \ (i = 1, \ ldots, m)}{\displaystyle g_{i}\ (i=1,\ldots,m)}- это неравенство ограничение функции и hj (j = 1,…, ℓ) {\ displaystyle h_ {j} \ (j = 1, \ ldots, \ ell)}{\displaystyle h_{j}\ (j=1,\ldots,\ell)}- функции равенства ограничения. Количество неравенств и равенств обозначается как m {\ displaystyle m}m и ℓ {\ displaystyle \ ell}\ell соответственно. В соответствии с задачей оптимизации ограничений можно сформировать функцию Лагранжа

L (x, μ, λ) = f (x) + μ ⊤ g (x) + λ ⊤ h (x) {\ displaystyle L (\ mathbf { x}, \ mathbf {\ mu}, \ mathbf {\ lambda}) = f (\ mathbf {x}) + \ mathbf {\ mu} ^ {\ top} \ mathbf {g} (\ mathbf {x}) + \ mathbf {\ lambda} ^ {\ top} \ mathbf {h} (\ mathbf {x})}{\ displaystyle L (\ mathbf {x}, \ mathbf {\ mu}, \ mathbf {\ lambda}) = f (\ mathbf {x}) + \ mathbf {\ mu} ^ {\ top} \ mathbf {g} (\ mathbf {x}) + \ mathbf {\ lambda} ^ {\ top} \ mathbf {h} (\ mathbf {x})}

где g (x) = (g 1 (x),…, gm (x)) ⊤ {\ displaystyle \ mathbf {g} (\ mathbf {x}) = \ left (g_ {1} (\ mathbf {x}), \ ldots, g_ {m} (\ mathbf {x}) \ right) ^ {\ top}}{\ displaystyle \ mathbf {g} (\ mathbf {x}) = \ left (g_ {1} (\ mathbf {x}), \ ldots, g_ {m} (\ mathbf {x }) \ right) ^ {\ top}} , час (x) = (час 1 (x),…, час ℓ (x)) ⊤ {\ displaystyle \ mathbf {h} (\ mathbf {x}) = \ left (h_ {1} (\ mathbf {x}), \ ldots, h _ {\ ell} (\ mathbf {x}) \ right) ^ {\ top}}{\ displaystyle \ mathbf {h} (\ mathbf {x}) = \ left (h_ {1} (\ mathbf {x}), \ ldots, час _ {\ ell} (\ mathbf {x}) \ right) ^ {\ top}} . Теорема Каруша – Куна – Таккера утверждает следующее.

Теорема. Если (x ∗, μ ∗) {\ displaystyle (\ mathbf {x} ^ {\ ast}, \ mathbf {\ mu} ^ {\ ast})}{\ displaystyle (\ mathbf {x} ^ {\ ast}, \ mathbf {\ mu} ^ {\ ast})} представляет собой седловую точку из L (x, μ) {\ displaystyle L (\ mathbf {x}, \ mathbf {\ mu})}{\ displaystyle L (\ mathbf {x}, \ mathbf {\ mu})} в Икс ∈ Икс {\ Displaystyle \ mathbf {x} \ in \ mathbf {X}}\ mathbf {x} \ in \ mathbf {X} , μ ≥ 0 {\ Displaystyle \ mathbf {\ mu} \ geq \ mathbf {0}}{\ displaystyle \ mathbf {\ mu} \ geq \ mathbf {0}} , то x ∗ {\ displaystyle \ mathbf {x} ^ {\ ast}}{\ displaystyle \ mathbf {x} ^ {\ ast}} является оптимальным вектором для указанной выше задачи оптимизации. Предположим, что f (x) {\ displaystyle f (\ mathbf {x})}f (\ mathbf {x}) и gi (x) {\ displaystyle g_ {i} (\ mathbf {x})}{\displaystyle g_{i}(\mathbf {x})}, i = 1,…, m {\ displaystyle i = 1, \ ldots, m}i = 1, \ ldots, m , выпуклые в x {\ displaystyle \ mathbf {x} }\ mathbf {x} и что существует x 0 ∈ X {\ displaystyle \ mathbf {x} _ {0} \ in \ mathbf {X}}{\ displaystyle \ mathbf {x} _ {0} \ in \ mathbf {X}} такое, что g (x 0) < 0 {\displaystyle \mathbf {g} (\mathbf {x} _{0})<0}{\ displaystyle \ mathbf {g} (\ mathbf {x} _ {0}) <0} . Затем с оптимальным вектором x ∗ {\ displaystyle \ mathbf {x} ^ {\ ast}}{\ displaystyle \ mathbf {x} ^ {\ ast}} для указанной выше задачи оптимизации связан неотрицательный вектор μ ∗ {\ displaystyle \ mathbf {\ mu} ^ {\ ast}}{\ displaystyle \ mathbf {\ mu} ^ {\ ast}} такой, что L (x ∗, μ ∗) {\ displaystyle L (\ mathbf {x} ^ {\ ast}, \ mathbf {\ mu} ^ {\ ast})}{\ displaystyle L (\ mathbf {x} ^ {\ ast}, \ mathbf {\ mu} ^ {\ ast})} - седловая точка L (x, μ) {\ displaystyle L (\ mathbf {x}, \ mathbf {\ mu})}{\ displaystyle L (\ mathbf {x}, \ mathbf {\ mu})} .

Поскольку идея этого подхода состоит в том, чтобы найти опорную гиперплоскость на допустимом множестве Γ = {х ∈ х: г (х) ≤ 0, i = 1,..., т} {\ displaystyle \ mathbf {\ Gamma} = \ left \ {\ mathbf {x} \ in \ mathbf {X}: g_ {i} (\ mathbf {x}) \ leq 0, i = 1, \ ldots, m \ right \}}{\di splaystyle \mathbf {\Gamma } =\left\{\mathbf {x} \in \mathbf {X} :g_{i}(\mathbf {x})\leq 0,i=1,\ldots,m\right\}}, в доказательстве теоремы Каруша – Куна – Таккера используется теорема об отделении гиперплоскостей.

Система уравнений и неравенств, соответствующая условиям KKT, обычно не решается напрямую, за исключением нескольких особых случаев, когда решение закрытой формы может быть получено аналитически. В общем, многие алгоритмы оптимизации можно интерпретировать как методы численного решения системы уравнений и неравенств ККТ.

Необходимые условия

Предположим, что целевая функция f: R n → R {\ displaystyle f: \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R}}f: \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R} и функции ограничений gi: R n → R {\ displaystyle g_ {i}: \, \! \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R}}g_ {i}: \, \! \ Mathbb {R} ^ {n} \ rightarrow \ mathbb {R} и hj: R n → R {\ displaystyle h_ {j}: \, \! \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R}}h_ {j}: \, \! \ mathbb {R } ^ {n} \ rightarrow \ mathbb {R} непрерывно дифференцируемые в точке x ∗ ∈ R n {\ displaystyle x ^ {*} \ in \ mathbb {R} ^ {n}}{\displaystyle x^{*}\in \mathbb {R} ^{n}}. Если x ∗ {\ displaystyle x ^ {*}}x^{*}является локальным оптимумом и задача оптимизации удовлетворяет некоторым условиям регулярности (см. Ниже), то существуют константы μ я (я = 1,…, m) {\ displaystyle \ mu _ {i} \ (i = 1, \ ldots, m)}\ mu _ {i} \ (i = 1, \ ldots, m) и λ j (j = 1, …, ℓ) {\ displaystyle \ lambda _ {j} \ (j = 1, \ ldots, \ ell)}{\ displaystyle \ lambda _ {j} \ (j = 1, \ ldots, \ ell)} , называемые множителями KKT, такие, что выполняются следующие четыре группы условий:

Диаграмма ограничений неравенства для задач оптимизации
Стационарность
Для максимизации f (x) {\ displaystyle f (x)}е (х) : ∇ f (x ∗) - ∑ i = 1 m μ i ∇ gi (x ∗) - ∑ j знак равно 1 ℓ λ J ∇ hj (x ∗) = 0 {\ displaystyle \ nabla f (x ^ {*}) - \ sum _ {i = 1} ^ {m} \ mu _ {i} \ nabla g_ {i} (x ^ {*}) - \ sum _ {j = 1} ^ {\ ell} \ lambda _ {j} \ nabla h_ {j} (x ^ {*}) = \ mathbf {0}}{\ displaystyle \ nabla f (x ^ {*}) - \ sum _ {i = 1} ^ {m} \ mu _ {i} \ nabla g_ {i} (x ^ {*}) - \ sum _ {j = 1} ^ {\ ell} \ lambda _ {j} \ nabla h_ {j } (x ^ {*}) = \ mathbf {0}}
Для минимизации f (x) {\ displaystyle f (x)}е (х) : ∇ f (x ∗) + ∑ i = 1 m μ i ∇ gi (x ∗) + ∑ J знак равно 1 ℓ λ J ∇ hj (x ∗) = 0 {\ displaystyle \ nabla f (x ^ {*}) + \ sum _ {i = 1} ^ {m} \ mu _ {i} \ nabla g_ {i} (x ^ {*}) + \ сумма _ {j = 1} ^ {\ ell} \ lambda _ {j} \ nabla h_ {j} (x ^ {*}) = \ mathbf {0}}{\ displaystyle \ nabla f (x ^ {*}) + \ sum _ {i = 1} ^ {m} \ mu _ {i} \ nabla g_ {i} (x ^ {*}) + \ sum _ {j = 1} ^ {\ ell} \ lambda _ {j} \ nabla h_ {j} (x ^ {*}) = \ mathbf {0}}
Первичная выполнимость
gi (x ∗) ≤ 0, если я = 1,…, m {\ displaystyle g_ {i} (x ^ {*}) \ leq 0, {\ text {for}} i = 1, \ ldots, m}{\ displaystyle g_ {i} (x ^ {*}) \ leq 0, {\ текст {для}} я = 1, \ ldots, m}
hj ( x ∗) = 0, для j = 1,…, ℓ {\ displaystyle h_ {j} (x ^ {*}) = 0, {\ text {for}} j = 1, \ ldots, \ ell \, \ !}{\ displaystyle h_ {j} (x ^ {*}) = 0, {\ text {for}} j = 1, \ ldots, \ ell \, \!}
Двойная выполнимость
μ i ≥ 0, для i = 1,…, m {\ displaystyle \ mu _ {i} \ geq 0, {\ text {for}} i = 1, \ ldots, m}{\displaystyle \mu _{i}\geq 0,{\text{ for }}i=1,\ldots,m}
Дополнительная слабина
∑ i = 1 м μ igi (x ∗) = 0. {\ displaystyle \ sum _ {i = 1} ^ {m} \ mu _ {i} g_ {i} ( x ^ {*}) = 0.}{\ displaystyle \ sum _ {i = 1} ^ {m } \ mu _ {i} g_ {i} (x ^ {*}) = 0.}

Последнее условие иногда записывается в эквивалентной форме: μ igi (x ∗) = 0, для i = 1,…, m. {\ displaystyle \ mu _ {i} g_ {i} (x ^ {*}) = 0, {\ text {for}} i = 1, \ ldots, m.}{\ displaystyle \ mu _ { i} g_ {i} (x ^ {*}) = 0, {\ text {for}} i = 1, \ ldots, m.}

В частном случае m = 0 {\ displaystyle m = 0}m=0, т.е. когда нет ограничений неравенства, условия KKT превращаются в условия Лагранжа, а множители KKT называются множителями Лагранжа.

Если некоторые функции недифференцируемы, доступны субдифференциальные версии условий Каруша – Куна – Таккера (KKT).

Матричное представление

Необходимые условия могут быть записаны с матрицами Якоби функций ограничений. Пусть g (x): R n → R m {\ displaystyle \ mathbf {g} (x): \, \! \ Mathbb {R} ^ {n} \ rightarrow \ mathbb {R} ^ {m} }{\ displaystyle \ mathbf {g} (x): \, \! \ mathbb {R } ^{n}\rightarrow \mathbb {R} ^{m}}определяется как g (x) = (g 1 (x),…, gm (x)) ⊤ {\ displaystyle \ mathbf {g} (x) = \ left (g_ { 1} (x), \ ldots, g_ {m} (x) \ right) ^ {\ top}}{\ displaystyle \ mathbf {g} (x) = \ left (g_ {1} (x), \ ldots, g_ {m} (x) \ right) ^ {\ top}} и пусть h (x): R n → R ℓ {\ displaystyle \ mathbf {h} (x): \, \! \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R} ^ {\ ell}}{\ displaystyle \ mathbf {h} (x): \, \! \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R} ^ {\ ell}} определяется как h (x) знак равно (час 1 (x),…, час ℓ (x)) ⊤ {\ displaystyle \ mathbf {h} (x) = \ left (h_ {1} (x), \ ldots, h _ {\ ell} (x) \ right) ^ {\ top}}{\displaystyle \mathbf {h} (x)=\left(h_{1}(x),\ldots,h_{\ell }(x)\right)^{\top }}. Пусть μ = (μ 1,…, μ m) ⊤ {\ displaystyle {\ boldsymbol {\ mu}} = \ left (\ mu _ {1}, \ ldots, \ mu _ {m} \ right) ^ {\ top}}{\displaystyle {\boldsymbol {\mu }}=\left(\mu _{1},\ldots,\mu _{m}\right)^{\top }}и λ = (λ 1,…, λ ℓ) ⊤ {\ displaystyle {\ boldsymbol {\ lambda}} = \ left (\ lambda _ {1}, \ ldots, \ lambda _ {\ ell} \ right) ^ {\ top}}{\displaystyle {\boldsymbol {\lambda }}=\left(\lambda _{1},\ldots,\lambda _{\ell }\right)^{\top }}. Тогда необходимые условия можно записать как:

Стационарность
Для максимизации f (x) {\ displaystyle f (x)}е (х) : ∇ f (x ∗) - D g (x *) ⊤ μ - D час (Икс *) ⊤ λ знак равно 0 {\ Displaystyle \ набла F (х ^ {*}) - D \ mathbf {g} (х ^ {*}) ^ {\ top} {\ boldsymbol {\ mu}} - D \ mathbf {h} (x ^ {*}) ^ {\ top} {\ boldsymbol {\ lambda}} = \ mathbf {0}}{\ displaystyle \ nabla f (x ^ {*}) - D \ mathbf { g} (x ^ {*}) ^ {\ top} {\ boldsymbol {\ mu}} - D \ mathbf {h} (x ^ {*}) ^ {\ top} {\ boldsymbol {\ lambda}} = \ mathbf {0}}
Для минимизации f (x) {\ displaystyle f (x)}е (х) : ∇ е (x ∗) + D g (x ∗) ⊤ μ + D h (x ∗) ⊤ λ = 0 {\ displaystyle \ nabla f (x ^ {*})) + D \ mathbf {g} (x ^ {*}) ^ {\ top} {\ boldsymbol {\ mu}} + D \ mathbf {h} (x ^ {*}) ^ {\ top} {\ boldsymbol {\ lambda}} = \ mathbf {0}}{\ displaystyle \ nabla f (x ^ {* }) + D \ mathbf {g} (x ^ {*}) ^ {\ top} {\ boldsymbol {\ mu}} + D \ mathbf {h} (x ^ {*}) ^ {\ top} {\ boldsymbol {\ lambda}} = \ mathbf {0}}
Первичная выполнимость
g (x ∗) ≤ 0 {\ displaystyle \ mathbf {g} (x ^ {*}) \ leq \ mathbf {0}}{\ displaystyle \ mathbf {g} (x ^ {*}) \ leq \ mathbf {0}}
час (x ∗) = 0 {\ displaystyle \ mathbf {h} (x ^ {*}) = \ mathbf {0}}{\ displaystyle \ mathbf {h} (x ^ {*}) = \ mathbf {0}}
Двойная выполнимость
μ ≥ 0 {\ displaystyle {\ boldsymbol { \ mu}} \ geq \ mathbf {0}}{\displaystyle {\boldsymbol {\mu }}\geq \mathbf {0} }
Дополнительная расслабленность
μ ⊤ g (x ∗) = 0. {\ displaystyle {\ boldsymbol {\ mu}} ^ {\ top} \ mathbf {g } (x ^ {*}) = 0.}{\ displaystyle {\ boldsymbol {\ mu}} ^ {\ top} \ mathbf {g} (x ^ {*}) = 0.}
Условия регулярности (или ограничение в качестве lifications)

Чтобы точка минимума x ∗ {\ displaystyle x ^ {*}}x^{*}удовлетворяла вышеуказанным условиям KKT, задача должна удовлетворять некоторым условиям регулярности; здесь приведены некоторые общие примеры:

ОграничениеАкронимЗаявление
Квалификация ограничения линейностиLCQЕсли gi { \ displaystyle g_ {i}}g_ {i} и hj {\ displaystyle h_ {j}}h_ {j} являются аффинными функциями, тогда никаких других условий не требуется.
Квалификация ограничения линейной независимостиLICQГрадиенты ограничений активного неравенства и градиенты ограничений равенства линейно независимы при x ∗ { \ displaystyle x ^ {*}}x^{*}.
Квалификация ограничения Мангасарян-ФромовицаMFCQГрадиенты ограничений равенства линейно независимы в x ∗ {\ displaystyle x ^ { *}}x^{*}и существует вектор d ∈ R n {\ displaystyle d \ in \ mathbb {R} ^ {n}}{\ displaystyle d \ in \ mathbb {R} ^ {n}} такой, что ∇ gi (x ∗) ⊤ d < 0 {\displaystyle \nabla g_{i}(x^{*})^{\top }d<0}{\ displaystyle \ nabla g_ {i} (x ^ {*}) ^ {\ top } d <0} для всех активных ограничений неравенства и ∇ hj (x ∗) ⊤ d = 0 {\ displaystyle \ nabla h_ {j} (x ^ {*}) ^ {\ top} d = 0}{\ displaystyle \ nabla h_ {j} (x ^ {*}) ^ {\ top} d = 0} для всех ограничений равенства.
Квалификация ограничения постоянного ранга CRCQДля каждого подмножества градиентов активных ограничений неравенства и градиентов равенство ограничивает ранг в окрестности x ∗ {\ displaystyle x ^ {*}}x^{*}является постоянным.
Квалификация ограничения постоянной положительной линейной зависимостиCPLDДля каждого подмножества градиентов активных ограничений неравенства и градиентов ограничений равенства, если подмножество векторов линейно зависит в x ∗ {\ displaystyle x ^ {*}}x^{*}с неотрицательными скалярами, связанными с ограничениями неравенства, тогда он остается линейно зависимым в окрестности x ∗ {\ displaystyle x ^ {*}}x^{*}.
Квалификация ограничения квазинормальностиQNCQЕсли градиенты активных ограничений неравенства и градиенты ограничений равенства линейно зависят в x ∗ {\ displaystyle x ^ {*}}x^{*}со связанными множителями λ j {\ displaystyle \ lambda _ {j}}\ lambda _ {j} для равенств и μ i ≥ 0 {\ displaystyle \ mu _ {i} \ geq 0}{\ displaystyle \ mu _ {i} \ geq 0} для неравенств, тогда нет последовательности xk → x ∗ {\ displaystyle x_ {k} \ to x ^ {*}}x_{k}\to x^{*}такой λ j ≠ 0 ⇒ λ jhj (xk)>0 {\ displaystyle \ lambda _ {j} \ n eq 0 \ Rightarrow \ lambda _ {j} h_ {j} (x_ {k})>0}{\displaystyle \lambda _{j}\neq 0\Rightarrow \lambda _{j}h_{j}(x_{k})>0} и μ i ≠ 0 ⇒ μ igi (xk)>0. {\ displaystyle \ mu _ {i} \ neq 0 \ Rightarrow \ mu _ {i} g_ {i} (x_ {k})>0.}{\displaystyle \mu _{i}\neq 0\Rightarrow \mu _{i}g_{i}(x_{k})>0.}
Состояние Слейтера SCвыпуклая задача (т. е. предполагая минимизацию, f, gi {\ displaystyle f, g_ {i}}{\ displaystyle f, g_ {i}} выпуклые и hj {\ displaystyle h_ {j }}h_ {j} аффинно), существует точка x {\ displaystyle x}xтакая, что h (x) = 0 {\ displaystyle h (x) = 0}h(x)=0и gi (x) < 0. {\displaystyle g_{i}(x)<0.}{\ displaystyle g_ {i} (x) <0.}

Можно показать, что

LICQ ⇒ MFCQ ⇒ CPLD ⇒ QNCQ

и

LICQ ⇒ CRCQ ⇒ CPLD ⇒ QNCQ

(и обратное неверно), хотя MFCQ не эквивалентен CRCQ. На практике предпочтительны более слабые квалификационные ограничения, поскольку они обеспечивают более строгие условия оптимальности.

Достаточные условия

В некоторых случаях, необходимых условий также достаточно для оптимальности. одних условий недостаточно для оптимальности, и требуется дополнительная информация, такая как достаточные условия второго порядка (SOSC). Для гладких функций SOSC включает вторые производные, что объясняет его название.

Необходимые условия являются достаточными для оптимальности, если целевая функция f {\ displaystyle f}f задачи максимизации является вогнутой функцией, ограничения неравенства gj {\ displaystyle g_ {j}}g_ {j} - непрерывно дифференцируемые выпуклые функции и ограничения равенства hi {\ displaystyle h_ {i}}h_ {i} - это аффинные функции. Аналогично, если целевая функция f {\ displaystyle f}f задачи минимизации является выпуклой функцией, необходимые условия также достаточны для оптимальности.

Мартин в 1985 году показал, что более широкий класс функций, в которых условия KKT гарантируют глобальную оптимальность, представляют собой так называемые функции типа 1 invex.

достаточные условия второго порядка

Для гладких, нелинейных задач оптимизации достаточное условие второго порядка задается следующим образом.

Решение x ∗, λ ∗, μ ∗ {\ displaystyle x ^ {*}, \ lambda ^ {*}, \ mu ^ {*}}{\ displaystyle x ^ {*}, \ lambda ^ {*}, \ mu ^ {*}} найдено в приведенный выше участок является ограниченным локальным минимумом, если для лагранжиана

L (x, λ, μ) = f (x) + ∑ i = 1 m μ igi (x) + ∑ j = 1 ℓ λ jhj (x) {\ Displaystyle L (х, \ лямбда, \ му) = е (х) + \ сумма _ {я = 1} ^ {м} \ му _ {я} g_ {я} (х) + \ сумма _ { j = 1} ^ {\ ell} \ lambda _ {j} h_ {j} (x)}{\ displaystyle L (x, \ lambda, \ mu) = f (x) + \ sum _ {i = 1} ^ {m} \ mu _ {i} g_ {i} (x) + \ sum _ {j = 1} ^ {\ ell} \ lambda _ {j} h_ {j} (x)}

, тогда

s T ∇ xx 2 L (x ∗, λ ∗, μ ∗) s ≥ 0 {\ displaystyle s ^ {T} \ nabla _ {xx} ^ {2} L (x ^ {*}, \ lambda ^ {*}, \ mu ^ {*}) s \ geq 0}{\ displaystyle s ^ {T} \ nabla _ {xx} ^ {2} L (x ^ {*}, \ lambda ^ {*}, \ му ^ {*}) s \ geq 0}

где s ≠ 0 {\ displaystyle s \ neq 0}s \ neq 0 - вектор, удовлетворяющий следующему:

[∇ xgi (x ∗), ∇ xhj (x ∗)] T s = 0 {\ displaystyle \ left [\ nabla _ {x} g_ {i} (x ^ {*}), \ nabla _ {x} h_ {j} (x ^ {*}) \ right] ^ {T} s = 0}{\displaystyle \left[\nabla _{x}g_{i}(x^{*}),\nabla _{x}h_{j}(x^{*})\right]^{T}s=0}

где только те активные ограничения неравенства gi (x) {\ displaystyle g_ {i} (x)}g_ {i} (x) , соответствующие строгой комплементарности (то есть где μ i>0 {\ displaystyle \ mu _ {i}>0}{\displaystyle \mu _{i}>0} ). Решение представляет собой строгий ограниченный локальный минимум в случае, если неравенство также строгое.

Если s T ∇ xx 2 L (x ∗, λ ∗, μ ∗) s = 0 {\ displaystyle s ^ {T} \ nabla _ {xx} ^ {2} L (x ^ {*}, \ lambda ^ {*}, \ mu ^ {*}) s = 0}{\ displaystyle s ^ {T} \ nabla _ {xx} ^ {2} L (x ^ {*}, \ lambda ^ {* }, \ mu ^ {*}) s = 0} , следует использовать разложение Тейлора третьего порядка лагранжиана, чтобы проверить, x ∗ { \ displaystyle x ^ {*}}x^{*}- это локальный минимум. Минимизация f (x 1, x 2) = (x 2 - x 1 2) (x 2 - 3 x 1 2) {\ displaystyle f (x_ {1}, x_ {2}) = (x_ {2} -x_ {1} ^ {2}) (x_ {2} -3x_ {1} ^ {2})}{\ displaystyle f (x_ {1}, x_ {2}) = (x_ {2} -x_ {1} ^ {2}) (x_ {2} -3x_ {1} ^ {2})} - хороший контрпример, см. Также Поверхность Пеано.

Экономика

Часто в математической экономике подход ККТ используется в теоретических моделях для получения качественных результатов. Например, рассмотрим фирму, которая максимизирует выручку от продаж при условии минимального ограничения прибыли. Если Q {\ displaystyle Q}Q быть количеством произведенного вывода (которое необходимо выбрать), R (Q) {\ displaystyle R (Q)}R (Q) будет выручка от продаж с положительной первой производной и нулевым значением при нулевом выпуске C (Q) {\ displaystyle C (Q)}{\displaystyle C(Q)}будет производственными затратами с положительной первой производной и не- отрицательное значение при нулевом выходе и G min {\ displaystyle G _ {\ min}}{\ displaystyle G _ {\ min}} быть положительным минимально допустимым уровнем прибыли, тогда проблема будет значимой, если функция дохода выравнивается, поэтому в конечном итоге она становится менее крутой, чем функция затрат. Проблема, выраженная в ранее заданной форме минимизации:

Свернуть - R (Q) {\ displaystyle -R (Q)}-R (Q)
при условии
G min ≤ R (Q) - C (Q) {\ displaystyle G _ {\ min} \ leq R (Q) -C (Q)}{\displaystyle G_{\min }\leq R(Q)-C(Q)}
Q ≥ 0, {\ displaystyle Q \ geq 0,}Q \ geq 0,

и условиями KKT являются

(d R d Q) (1 + μ) - μ (d C d Q) ≤ 0, Q ≥ 0, Q [(d R d Q) (1 + μ) - μ (d C d Q)] = 0, R (Q) - C (Q) - G min ≥ 0, μ ≥ 0, μ [R (Q) - C (Q) - G min] = 0. {\ displaystyle {\ begin {align} \ left ({ \ frac {{\ text {d}} R} {{\ text {d}} Q}} \ right) (1+ \ mu) - \ mu \ left ({\ frac {{\ text {d}} C } {{\ text {d}} Q}} \ right) \ leq 0, \\ [5pt] Q \ geq 0, \\ [5pt] Q \ left [\ left ({\ frac {{\ text {d }} R} {{\ text {d}} Q}} \ right) (1+ \ mu) - \ mu \ left ({\ frac {{\ text {d}} C} {{\ text {d}) } Q}} \ right) \ right] = 0, \\ [5pt] R (Q) -C (Q) -G _ {\ min} \ geq 0, \\ [5pt] \ mu \ geq 0, \ \ [5pt] \ mu [R (Q) -C (Q) -G _ {\ min}] = 0. \ end {align}}}{\ displaystyle {\ begin {align} \ left ({\ frac {{\ text {d}} R} {{\ text {d}} Q }} \ right) (1+ \ mu) - \ mu \ left ({\ frac {{\ text {d}} C} {{\ text {d}} Q}} \ right) \ leq 0, \\ [5pt] Q \ geq 0, \\ [5pt] Q \ left [\ left ({\ frac {{\ text {d}} R} {{\ text {d}} Q}} \ right) (1+ \ mu) - \ mu \ left ({\ frac {{\ text {d}} C} {{\ text {d}} Q}} \ right) \ right] = 0, \\ [5pt] R (Q) -C (Q) -G _ {\ min} \ geq 0, \\ [5pt] \ mu \ geq 0, \\ [5pt] \ mu [R (Q) -C (Q) -G _ {\ min}] = 0. \ end {align}}}

Поскольку Q = 0 {\ displaystyle Q = 0 }Q = 0 нарушит ограничение минимальной прибыли, мы имеем Q>0 {\ displaystyle Q>0}{\displaystyle Q>0} и, следовательно, третье условие следует, что первое условие выполнено с равенством. Решение этого равенства дает

d R d Q = μ 1 + μ (d C d Q). {\ displaystyle {\ frac {{\ text {d}} R} {{\ text {d}} Q}} = {\ frac {\ mu} {1+ \ mu}} \ left ({\ frac {{ \ text {d}} C} {{\ text {d}} Q}} \ right).}{\ displaystyle {\ frac {{\ text {d}} R} {{\ text {d }} Q}} = {\ frac {\ mu} {1+ \ mu}} \ left ({\ frac {{\ text {d}} C} {{\ text {d}} Q}} \ right).}

Потому что было дано, что d R / d Q {\ displaystyle {\ text {d}} R / {\ text {d}} Q}{\ text {d}} R / {\ text {d}} Q и d C / d Q {\ displaystyle {\ text {d}} C / {\ text {d}} Q}{\ text {d}} C / {\ text {d}} Q строго положительны, это неравенство вместе с условием неотрицательности на μ {\ displaystyle \ mu}\mu гарантирует, что μ {\ displaystyle \ mu}\mu положительно, и поэтому компания, стремящаяся максимизировать доход, работает на уровне выпуска, при котором предельный доход d R / d Q {\ displaystyle {\ text {d}} R / {\ text { d}} Q}{\ text {d}} R / {\ text {d}} Q меньше предельных затрат d C / d Q {\ displaystyle {\ text {d}} C / {\ text {d}} Q }{\ text {d}} C / {\ text {d}} Q - результат, представляющий интерес, поскольку он контрастирует с поведением максимизирующей прибыль фирмы, которая работает на уровне, на котором они равны.

Функция значения

Если мы пересмотрим проблему оптимизации как проблему максимизации с постоянными ограничениями неравенства:

Максимизируйте f (x) {\ displaystyle {\ text {Maximize}} \; f (x)}{\ text {Развернуть }} \; е (х)
при условии {\ displaystyle {\ text {subject to}} \}{\text{subject to }}\
gi (x) ≤ ai, hj (x) = 0. {\ displaystyle g_ {i} (x) \ leq a_ {i}, h_ {j} (x) = 0.}g_ {i} (x) \ leq a_ {i}, h_ {j} (x) = 0.

Функция значения определяется как

V (a 1,…, an) = sup xf (x) {\ displaystyle V (a_ {1}, \ ldots, a_ {n}) = \ sup \ limits _ {x} f (x)}V (a_ {1}, \ ldots, a_ {n}) = \ sup \ limits _ { х} е (х)
при условии {\ displaystyle {\ text {subject to}} \}{\text{subject to }}\
gi (x) ≤ ai, hj (x) знак равно 0 {\ displaystyle g_ {i} (x) \ leq a_ {i}, h_ {j} (x) = 0}{\displaystyle g_{i}(x)\leq a_{i},h_{j}(x)=0}
j ∈ {1,…, ℓ}, i ∈ {1,…, m}, {\ displaystyle j \ in \ {1, \ ldots, \ ell \}, i \ in \ {1, \ ldots, m \},}{\ displaystyle j \ in \ {1, \ ldots, \ ell \}, i \ in \ {1, \ ldots, m \},}

, поэтому домен V {\ displaystyle V}V равно {a ∈ R m ∣ для некоторого x ∈ X, gi (x) ≤ ai, i ∈ {1,…, m}}. {\ displaystyle \ {a \ in \ mathbb {R} ^ {m} \ mid {\ text {для некоторых}} x \ in X, g_ {i} (x) \ leq a_ {i}, i \ in \ {1, \ ldots, m \} \}.}{\displaystyle \{a\in \mathbb {R} ^{m}\mid {\text{for some }}x\in X,g _{i}(x)\leq a_{i},i\in \{1,\ldots,m\}\}.}

Учитывая это определение, каждый коэффициент μ i {\ displaystyle \ mu _ {i}}\mu _{i}представляет собой скорость, с которой значение функция увеличивается по мере увеличения ai {\ displaystyle a_ {i}}a_{i}. Таким образом, если каждый ai {\ displaystyle a_ {i}}a_{i}интерпретируется как ограничение ресурса, коэффициенты говорят вам, насколько увеличение ресурса увеличит оптимальное значение нашей функции f { \ displaystyle f}f . Эта интерпретация особенно важна в экономике и используется, например, в задачах максимизации полезности.

Обобщения

с дополнительным множителем μ 0 ≥ 0 {\ displaystyle \ mu _ {0 } \ geq 0}{\ displaystyle \ mu _ {0} \ geq 0} , который может быть равен нулю (если (μ 0, μ, λ) ≠ 0 {\ displaystyle (\ mu _ {0}, \ mu, \ lambda) \ neq 0}{\ displaystyle (\ mu _ { 0}, \ mu, \ lambda) \ neq 0} ) перед ∇ f (x ∗) {\ displaystyle \ nabla f (x ^ {*})}\ nabla f (x ^ {*}) условия стационарности KKT превращаются в

μ 0 ∇ f (x ∗) + ∑ i = 1 m μ i ∇ gi (x ∗) + ∑ j = 1 ℓ λ j ∇ hj (x ∗) = 0, μ jgi (x ∗) = 0, я = 1,…, м, {\ displaystyle {\ begin {align} \ mu _ {0} \, \ nabla f (x ^ {*}) + \ sum _ {i = 1} ^ {m} \ mu _ {i} \, \ nabla g_ {i} (x ^ {*}) + \ sum _ {j = 1} ^ {\ ell} \ lambda _ {j} \, \ nabla h_ {j} ( x ^ {*}) = 0, \\ [4pt] \ mu _ {j} g_ {i} (x ^ {*}) = 0, \ quad i = 1, \ dots, m, \ end {выровнено }}}{\ displaystyle {\ begin {align} \ mu _ {0} \, \ nabla f (x ^ {*}) + \ sum _ {i = 1} ^ {m} \ mu _ {i} \, \ nabla g_ {i} (x ^ {*}) + \ sum _ {j = 1} ^ {\ ell} \ lambda _ {j} \, \ nabla h_ {j} (x ^ {*}) = 0, \\ [4pt] \ mu _ {j} g_ {i} (x ^ {*}) = 0, \ quad i = 1, \ dots, m, \ end {выровнено} }}

, которые называются условиями Фрица Джона. Эти условия оптимальности выполняются без оговорок ограничений и эквивалентны условию оптимальности KKT или (not-MFCQ).

Условия KKT относятся к более широкому классу необходимых условий первого порядка (FONC), которые допускают негладкие функции, использующие подчиненные.

См. Также
Список литературы
  1. ^Табак, Даниил; Куо, Бенджамин С. (1971). Оптимальное управление математическим программированием. Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. С. 19–20. ISBN 0-13-638106-5.
  2. ^Кун, Х. У. ; Такер А. У. (1951). «Нелинейное программирование». Труды 2-го симпозиума в Беркли. Беркли: Калифорнийский университет Press. С. 481–492. MR 0047303.
  3. ^W. Каруш (1939). Минимумы функций нескольких переменных с неравенствами в качестве боковых ограничений (диссертация на степень магистра). Кафедра математики Univ. Чикаго, Чикаго, Иллинойс.
  4. ^Кьельдсен, Тинн Хофф (2000). «Контекстуализированный исторический анализ теоремы Куна-Такера в нелинейном программировании: влияние Второй мировой войны». Historia Math. 27 (4): 331–361. doi : 10.1006 / hmat.2000.2289. MR 1800317.
  5. ^Уолш, Г. Р. (1975). «Свойство перевала функции Лагранжа». Методы оптимизации. Нью-Йорк: Джон Вили и сыновья. С. 39–44. ISBN 0-471-91922-5.
  6. ^Kemp, Murray C.; Кимура, Йошио (1978). Введение в математическую экономику. Нью-Йорк: Спрингер. Стр. 38–44. ISBN 0-387-90304-6.
  7. ^Бойд, Стивен; Ванденберге, Ливен (2004). Выпуклая оптимизация. Кембридж: Cambridge University Press. п. 244. ISBN 0-521-83378-7. MR 2061575.
  8. ^Рущинский, Анджей (2006). Нелинейная оптимизация. Принстон, Нью-Джерси: Princeton University Press. ISBN 978-0691119151. MR 2199043.
  9. ^Дмитрий Бертсекас (1999). Нелинейное программирование (2-е изд.). Athena Scientific. С. 329–330. ISBN 9781886529007.
  10. ^Родриго Эустакио; Элизабет Карас; Адемир Рибейро. Ограничение квалификации для нелинейного программирования (PDF) (Технический отчет). Федеральный университет Параны.
  11. ^Мартин Д. Х. (1985). «Сущность косности». J. Optim. Теория Appl. 47 (1): 65–76. DOI : 10.1007 / BF00941316. S2CID 122906371.
  12. ^Хэнсон, М.А. (1999). «Невыпуклость и теорема Куна-Такера». J. Math. Анальный. Appl. 236 (2): 594–604. doi : 10.1006 / jmaa.1999.6484.
  13. ^Чанг, Альфа К. Фундаментальные методы математической экономики, 3-е издание, 1984 г., стр. 750–752.
Дополнительная литература
  • Андреани, Р.; Martínez, J.M.; Шувердт, М. Л. (2005). «О связи между условием постоянной положительной линейной зависимости и квалификацией ограничения квазинормальности». Журнал теории оптимизации и приложений. 125 (2): 473–485. DOI : 10.1007 / s10957-004-1861-9. S2CID 122212394.
  • Авриэль, Мардохей (2003). Нелинейное программирование: анализ и методы. Дувр. ISBN 0-486-43227-0.
  • Болтянский, В.; Мартини, H.; Солтан, В. (1998). «Теорема Куна – Такера». Геометрические методы и проблемы оптимизации. Нью-Йорк: Спрингер. С. 78–92. ISBN 0-7923-5454-0.
  • Boyd, S.; Ванденберге, Л. (2004). «Условия оптимальности» (PDF). Выпуклая оптимизация. Издательство Кембриджского университета. С. 241–249. ISBN 0-521-83378-7.
  • Kemp, Murray C.; Кимура, Йошио (1978). Введение в математическую экономику. Нью-Йорк: Спрингер. С. 38–73. ISBN 0-387-90304-6.
  • Рау, Николас (1981). «Множители Лагранжа». Матрицы и математическое программирование. Лондон: Макмиллан. С. 156–174. ISBN 0-333-27768-6.
  • Nocedal, J.; Райт, С. Дж. (2006). Численная оптимизация. Нью-Йорк: Спрингер. ISBN 978-0-387-30303-1.
  • Сундарам, Рангараджан К. (1996). «Ограничения неравенства и теорема Куна и Таккера». Первый курс теории оптимизации. Нью-Йорк: Издательство Кембриджского университета. С. 145–171. ISBN 0-521-49770-1.
Внешние ссылки
Последняя правка сделана 2021-05-25 13:03:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте