Расширенный лагранжевый метод

редактировать

Расширенный лагранжевый метод - это определенный класс алгоритмов для решения ограниченного оптимизация проблем. Они имеют сходство с методами штрафа в том, что они заменяют задачу ограниченной оптимизации серией неограниченных задач и добавляют штрафной член к цели ; разница в том, что расширенный метод Лагранжа добавляет еще один член, предназначенный для имитации множителя Лагранжа. Расширенный лагранжиан связан с методом множителей Лагранжа.

, но не идентичен ему. С другой стороны, неограниченная цель - это лагранжиан ограниченной задачи с дополнительным штрафным членом (увеличение ).

Этот метод был первоначально известен как метод множителей и много изучался в 1970 и 1980-х годах как хорошая альтернатива штрафным методам. Впервые он был обсужден Магнусом Хестенесом и Майклом Пауэллом в 1969 году. Метод был изучен Р. Тиррелл Рокафеллар в отношении двойственности Фенхеля, особенно в отношении методов проксимальной точки и максимальных монотонных операторов : эти методы использовались в структурной оптимизации. Этот метод также изучал Димитрий Бертсекас, в частности, в его книге 1982 года, вместе с расширениями, включающими неквадратичные функции регуляризации, такие как энтропийная регуляризация, которая дает начало «экспоненциальному методу множителей., "метод, который обрабатывает ограничения неравенства с дважды дифференцируемой расширенной функцией Лагранжа.

С 1970-х годов последовательное квадратичное программирование (SQP) и методы внутренней точки (IPM) привлекают все большее внимание, отчасти потому, что в них легче использовать разреженная матрица подпрограммы из числовых программных библиотек, и частично потому, что IPM доказали свою сложность благодаря теории самосогласованных функций. Расширенный метод Лагранжа был обновлен системами оптимизации LANCELOT и AMPL, которые позволили использовать методы разреженных матриц для решения кажущихся плотными, но «частично разделимых» проблем. Этот метод все еще полезен для некоторых проблем. Примерно в 2007 году произошло возрождение расширенных методов Лагранжа в таких областях, как шумоподавление с полной вариацией и сжатое зондирование. В частности, вариант стандартного расширенного метода Лагранжа, который использует частичные обновления (аналогично методу Гаусса-Зейделя для решения линейных уравнений), известный как метод переменного направления множителей или ADMM привлекли к себе внимание.

Содержание

1 Общий метод
2 Метод переменного направления множителей
3 Стохастическая оптимизация
4 Альтернативные подходы
5 Программное обеспечение
6 См. Также
7 Ссылки
8 Библиография

Общий метод

Допустим, мы решаем следующую задачу с ограничениями:

min f (x) {\ displaystyle \ min f (\ mathbf {x})}

\ min f ({\ mathbf {x}})

subject to

ci (x) = 0 ∀ i ∈ I. {\ displaystyle c_ {i} (\ mathbf {x}) = 0 ~ \ forall i \ in I.}

c_ {i} ({\ mathbf {x}}) = 0 ~ \ forall i \ in I.

Эту проблему можно решить как серию задач безусловной минимизации. Для справки сначала перечислим k-й шаг метода метода штрафа :

min Φ k (x) = f (x) + μ k ∑ i ∈ I c i (x) 2. {\ displaystyle \ min \ Phi _ {k} (\ mathbf {x}) = f (\ mathbf {x}) + \ mu _ {k} ~ \ sum _ {i \ in I} ~ c_ {i} ( \ mathbf {x}) ^ {2}.}

{\ displaystyle \ min \ Phi _ {k} (\ mathbf {x}) = f (\ mathbf {x}) + \ mu _ {k} ~ \ sum _ {i \ in I} ~ c_ {i} (\ mathbf {x}) ^ {2}.}

Метод штрафа решает эту проблему, а затем на следующей итерации повторно решает проблему, используя большее значение $μ k {\ displaystyle \ mu _ { k}}$ $\ mu _ {k}$ (и используя старое решение в качестве первоначального предположения или "горячего старта").

Расширенный лагранжев метод использует следующую неограниченную цель:

min Φ k (x) = f (x) + μ k 2 ∑ i ∈ I ci (x) 2 + ∑ i ∈ I λ ici (Икс) {\ Displaystyle \ мин \ Phi _ {к} (\ mathbf {x}) = F (\ mathbf {x}) + {\ frac {\ mu _ {k}} {2}} ~ \ сумма _ {i \ in I} ~ c_ {i} (\ mathbf {x}) ^ {2} + \ sum _ {i \ in I} ~ \ lambda _ {i} c_ {i} (\ mathbf {x}) }

{\ displaystyle \ min \ Phi _ {k} (\ mathbf {x}) = f (\ mathbf {x}) + {\ frac {\ mu _ {k}} {2}} ~ \ sum _ {i \ in I} ~ c_ {i } (\ mathbf {x}) ^ {2} + \ sum _ {i \ in I} ~ \ lambda _ {i} c_ {i} (\ mathbf {x})}

и после каждой итерации, помимо обновления $μ k {\ displaystyle \ mu _ {k}}$ $\ mu _ {k}$ , переменная $λ {\ displaystyle \ lambda}$ $\ lambda$ также обновляется в соответствии с правилом

λ i ← λ i + μ kci (xk) {\ displaystyle \ lambda _ {i} \ leftarrow \ lambda _ {i} + \ mu _ {k} c_ { i} (\ mathbf {x} _ {k})}

{ \ displaystyle \ lambda _ {i} \ leftarrow \ lambda _ {i} + \ mu _ {k} c_ {i} (\ mathbf {x} _ {k})}

где $xk {\ displaystyle \ mathbf {x} _ {k}}$ $\ mathbf {x} _ {k }$ - решение неограниченной задачи на k-й шаг, т.е. $xk = argmin Φ k (x) {\ displaystyle \ mathbf {x} _ {k} = {\ text {argmin}} \ Phi _ {k} (\ mathbf {x})}$ ${\ displaystyle \ mathbf {x} _ {k} = {\ text {argmin}} \ Phi _ {k} (\ mathbf {x})}$

Переменная $λ {\ displaystyle \ lambda}$ $\ lambda$ является оценкой множителя Лагранжа и точности этой оценки улучшается с каждым шагом. Основное преимущество метода заключается в том, что в отличие от метода штрафа , нет необходимости брать $μ → ∞ {\ displaystyle \ mu \ rightarrow \ infty}$ $\ mu \ Rightarrow \ infty$ , чтобы решить исходную задачу с ограничениями. Вместо этого, из-за наличия множителя Лагранжа, $μ {\ displaystyle \ mu}$ $\ mu$ может оставаться намного меньше, что позволяет избежать плохой обусловленности.

Метод может быть расширен для обработки ограничений неравенства. Для обсуждения практических улучшений см.

Метод множителей с переменным направлением

Метод множителей с переменным направлением (ADMM) - это вариант расширенной схемы Лагранжа, в которой используются частичные обновления для двойных переменные. Этот метод часто применяется для решения таких задач, как

min x f (x) + g (x). {\ displaystyle \ min _ {x} f (x) + g (x).}

\ min _ {x} f (x) + g (x).

Это эквивалентно задаче с ограничениями

min x, yf (x) + g (y), при условии x = у. {\ displaystyle \ min _ {x, y} f (x) + g (y), \ quad {\ text {subject to}} \ quad x = y.}

\ min _ {{x, y}} f (x) + g (y), \ quad {\ text {при условии}} \ quad x = y.

Хотя это изменение может показаться тривиальным, проблема теперь можно атаковать с помощью методов ограниченной оптимизации (в частности, расширенного метода Лагранжа), а целевая функция разделима по x и y. Двойное обновление требует одновременного решения функции близости по x и y; Метод ADMM позволяет приблизительно решить эту проблему, сначала решая для x с фиксированным y, а затем решая для y с фиксированным x. Вместо того, чтобы выполнять итерацию до сходимости (например, метод Якоби ), алгоритм переходит непосредственно к обновлению двойной переменной, а затем повторяет процесс. Это не эквивалентно точной минимизации, но, что удивительно, все же можно показать, что этот метод сходится к правильному ответу (при некоторых предположениях). Из-за этого приближения алгоритм отличается от чисто расширенного лагранжевого метода.

ADMM можно рассматривать как приложение, а алгоритм Дугласа-Рачфорда, в свою очередь, является экземпляром; подробности можно найти здесь. Есть несколько современных программных пакетов, которые решают Basis Purit и варианты и используют ADMM; такие пакеты включают YALL1 (2009 г.), SpaRSA (2009 г.) и SALSA (2009 г.). Существуют также пакеты, которые используют ADMM для решения более общих проблем, некоторые из которых могут использовать несколько вычислительных ядер SNAPVX (2015), parADMM (2016).

Стохастическая оптимизация

Стохастическая оптимизация рассматривает проблему минимизации функции потерь с доступом к зашумленным выборкам функции (градиента). Цель состоит в том, чтобы получить оценку оптимального параметра (минимизатор) для каждой новой выборки. ADMM изначально был пакетным методом. Однако с некоторыми изменениями его также можно использовать для стохастической оптимизации. Поскольку в стохастической настройке у нас есть доступ только к зашумленным образцам градиента, мы используем неточную аппроксимацию лагранжиана как

$L ^ ρ, k = f 1 (xk) + ⟨∇ f (xk, ζ k + 1), Икс⟩ + г (Y) - Z T (A Икс + В Y - с) + ρ 2 ‖ A Икс + В Y - с ‖ 2 + ‖ Икс - XK ‖ 2 2 η К + 1, {\ Displaystyle {\ шляпа {\ mathcal {L}}} _ {\ rho, k} = f_ {1} (x_ {k}) + \ langle \ nabla f (x_ {k}, \ zeta _ {k + 1}), x \ rangle + g (y) -z ^ {T} (Ax + By-c) + {\ frac {\ rho} {2}} \ Vert Ax + By-c \ Vert ^ {2} + {\ frac { \ Vert x-x_ {k} \ Vert ^ {2}} {2 \ eta _ {k + 1}}},}$ ${\ displaystyle {\ hat {\ mathcal {L}}} _ {\ rho, k} = f_ {1} (x_ {k}) + \ langle \ nabla f (x_ { k}, \ zeta _ {k + 1}), x \ rangle + g (y) -z ^ {T} (Ax + By-c) + {\ frac {\ rho} {2}} \ Vert Ax + By-c \ Vert ^ {2} + {\ frac {\ Vert x-x_ {k} \ Vert ^ {2}} {2 \ eta _ {k + 1}}},}$

где $η k + 1 {\ displaystyle \ eta _ {k + 1 }}$ $\ eta _ {{ к + 1}}$ - размер шага, изменяющийся во времени.

Метод множителей с переменным направлением (ADMM) - популярный метод для крупномасштабной сетевой и распределенной оптимизации, и он используется во многих приложения, например ADMM часто применяется для решения регуляризованных задач, где оптимизация функций и регуляризация могут выполняться локально, а затем координироваться глобально с помощью ограничений. Задачи регуляризованной оптимизации особенно актуальны в режиме высокой размерности, поскольку регуляризация является естественным механизмом для преодоления некорректности и поощрения экономичности в оптимальном решении, например, разреженности и низкого ранга. Благодаря эффективности ADMM при решении регуляризованных задач, он имеет хороший потенциал для стохастической оптимизации в больших размерностях.

Альтернативные подходы

Программное обеспечение

Открытый исходный код и несвободные / коммерческие реализации расширенного Лагранжевый метод:

Accord.NET (реализация C # расширенного лагранжевого оптимизатора)
ALGLIB (реализации C # и C ++ предварительно обусловленного расширенного лагранжевого решателя)
(GPL 3, коммерческая лицензия доступно)
LANCELOT (бесплатная лицензия для «внутреннего использования», платные коммерческие опции)
MINOS (также использует расширенный лагранжев метод для некоторых типов проблем).
Код для Apache 2.0 доступна в Интернете.

См. также

Ссылки

^Hestenes, MR (1969). «Множители и градиентные методы». Журнал теории оптимизации и приложений. 4 : 303–320. doi : 10.1007 / BF00927673.
^Пауэлл, М. Дж. Д. (1969). «Метод нелинейных ограничений в задачах минимизации». В Флетчер, Р. (ред.). Оптимизация. Нью-Йорк: Academic Press. С. 283–298. ISBN 0-12-260650-7.
^Берцекас, Дмитрий П. (1996) [1982]. Ограниченная оптимизация и методы множителя Лагранжа. Athena Scientific.
^ Nocedal Wright (2006), глава 17
^Eckstein, J.; Бертсекас, Д. П. (1992). «О методе расщепления Дугласа – Рачфорда и алгоритме проксимальной точки для максимальных монотонных операторов». Математическое программирование. 55 (1–3): 293–318. CiteSeerX 10.1.1.141.6246. doi : 10.1007 / BF01581204.
^Ouyang, H.; Курицы.; Тран Л. и Грей А. Г. (2013). «Стохастический метод переменных направлений множителей». Материалы 30-й Международной конференции по машинному обучению: 80–88.
^Boyd, S.; Парих, Н.; Chu, E.; Пелеато, Б. Экштейн, Дж. (2011). «Распределенная оптимизация и статистическое обучение с помощью метода множителей переменного направления». Основы и тенденции {\ textregistered} в машинном обучении. 3 (1): 1–122. CiteSeerX 10.1.1.360.1664. doi : 10.1561 / 2200000016.
^Wahlberg, B.; Boyd, S.; Аннергрен, М.; Ван, Ю. (2012). "Алгоритм ADMM для класса регуляризованных задач оценивания полной вариации". arXiv : 1203.1828 [stat.ML ].
^Esser, E.; Чжан, X.; Чан, Т. (2010). «Общая основа для класса первично-дуальных алгоритмов первого порядка для выпуклой оптимизации в области визуализации». SIAM Journal on Imaging Sciences. 3 (4).
^Mota, J. FC; Xavier, J. MF; Aguiar, P. MQ; Пущель, М. (2012). «Распределенный ADMM для прогнозирующего управления моделью и контроля перегрузки». Решение и контроль (CDC), 2012 г. 51-я ежегодная конференция IEEE О.
^«Код ПРИЧИНЫ».

Библиография

Бертсекас, Дмитрий П. (1999), Нелинейное программирование (2-е изд.), Бельмонт, Массачусетс: Athena Scientific, ISBN 978-1-886529-00-7
Носедал, Хорхе; Райт, Стивен Дж. (2006), Численная оптимизация (2-е изд.), Берлин, Нью-Йорк: Springer-Verlag, ISBN 978-0-387-30303- 1