Стохастическая аппроксимация

редактировать

Методы стохастической аппроксимации - это семейство итерационных методов, обычно используемых для задач поиска корня или для задач оптимизации. Рекурсивные правила обновления методов стохастической аппроксимации могут использоваться, среди прочего, для решения линейных систем, когда собранные данные искажены шумом, или для аппроксимации экстремальных значений функций, которые не могут быть вычислены напрямую, а могут быть оценены только через зашумленные наблюдения.

Вкратце, алгоритмы стохастической аппроксимации имеют дело с функцией формы, которая является ожидаемым значением функции, зависящей от случайной величины. Цель состоит в том, чтобы восстановить свойства такой функции, не оценивая ее напрямую. Вместо этого алгоритмы стохастической аппроксимации используют случайные выборки для эффективной аппроксимации таких свойств, как нули или экстремумы. ж ( θ ) знак равно E ξ [ F ( θ , ξ ) ] {\ textstyle е (\ theta) = \ OperatorName {E} _ {\ xi} [F (\ theta, \ xi)]} ξ {\ textstyle \ xi} ж {\ textstyle f} F ( θ , ξ ) {\ textstyle F (\ theta, \ xi)} ж {\ textstyle f}

В последнее время стохастические аппроксимации нашли широкое применение в области статистики и машинного обучения, особенно в условиях работы с большими данными. Эти приложения варьируются от методов и алгоритмов стохастической оптимизации до онлайн-форм алгоритма EM, обучения с подкреплением через временные различия, глубокого обучения и других. Алгоритмы стохастической аппроксимации также использовались в социальных науках для описания коллективной динамики: фиктивная игра в теории обучения и алгоритмы консенсуса могут быть изучены с помощью их теории.

Самыми ранними и прототипными алгоритмами такого типа являются алгоритмы Роббинса – Монро и Кифера – Вулфовица, представленные соответственно в 1951 и 1952 годах.

СОДЕРЖАНИЕ
  • 1 Алгоритм Роббинса – Монро
    • 1.1 Результаты сложности
    • 1.2 Последующие события и усреднение Поляка – Рупперта
    • 1.3 Применение в стохастической оптимизации
      • 1.3.1 Сходимость алгоритма
      • 1.3.2 Пример (где подходит метод стохастического градиента) [8]
  • 2 Алгоритм Кифера – Вулфовица
    • 2.1 Последующие события и важные вопросы
  • 3 Дальнейшие разработки
  • 4 См. Также
  • 5 ссылки
Алгоритм Роббинса – Монро

Алгоритм Роббинса – Монро, представленный в 1951 году Гербертом Роббинсом и Саттоном Монро, представляет методологию решения задачи поиска корня, где функция представлена ​​как математическое ожидание. Предположим, что у нас есть функция и константа, такие что уравнение имеет единственный корень в точке. Предполагается, что, хотя мы не можем непосредственно наблюдать функцию, мы можем вместо этого получить измерения случайной величины где. Структура алгоритма состоит в том, чтобы затем генерировать итерации формы: M ( θ ) {\ textstyle М (\ тета)} α {\ textstyle \ alpha} M ( θ ) знак равно α {\ textstyle М (\ тета) = \ альфа} θ * {\ textstyle \ theta ^ {*}} M ( θ ) {\ textstyle М (\ тета)} N ( θ ) {\ textstyle N (\ theta)} E [ N ( θ ) ] знак равно M ( θ ) {\ textstyle \ OperatorName {E} [N (\ theta)] = M (\ theta)}

θ п + 1 знак равно θ п - а п ( N ( θ п ) - α ) {\ displaystyle \ theta _ {n + 1} = \ theta _ {n} -a_ {n} (N (\ theta _ {n}) - \ alpha)}

Вот последовательность положительных размеров шага. Роббинс и Монро доказали теорему 2, которая сходится по (а значит, и по вероятности) к, а Блюм позже доказал, что сходимость на самом деле с вероятностью единица, при условии, что: а 1 , а 2 , {\ displaystyle a_ {1}, a_ {2}, \ dots} θ п {\ displaystyle \ theta _ {n}} L 2 {\ Displaystyle L ^ {2}} θ * {\ displaystyle \ theta ^ {*}}

  • N ( θ ) {\ textstyle N (\ theta)} равномерно ограничен,
  • M ( θ ) {\ textstyle М (\ тета)} не убывает,
  • M ( θ * ) {\ textstyle M '(\ theta ^ {*})} существует и положительно, и
  • Последовательность удовлетворяет следующим требованиям: а п {\ textstyle a_ {n}}
п знак равно 0 а п знак равно  а также  п знак равно 0 а п 2 lt; {\ displaystyle \ qquad \ sum _ {n = 0} ^ {\ infty} a_ {n} = \ infty \ quad {\ t_dv {and}} \ quad \ sum _ {n = 0} ^ {\ infty} a_ {п} ^ {2} lt;\ infty \ quad}

Конкретная последовательность шагов, удовлетворяющая этим условиям, предложенная Роббинсом – Монро, имеет вид:, для. Возможны и другие серии, но для усреднения шума должно быть выполнено указанное выше условие. а п знак равно а / п {\ textstyle a_ {n} = a / n} а gt; 0 {\ textstyle agt; 0} N ( θ ) {\ textstyle N (\ theta)}

Результаты сложности

  1. Если является дважды непрерывно дифференцируемым и сильно выпуклым, а минимизатор принадлежит внутренней части, то алгоритм Роббинса – Монро достигнет асимптотически оптимальной скорости сходимости по отношению к целевой функции, равной, где - минимальное значение сверх. ж ( θ ) {\ textstyle f (\ theta)} ж ( θ ) {\ textstyle f (\ theta)} Θ {\ textstyle \ Theta} E [ ж ( θ п ) - ж * ] знак равно О ( 1 / п ) {\ textstyle \ OperatorName {E} [е (\ theta _ {n}) - f ^ {*}] = O (1 / n)} ж * {\ textstyle f ^ {*}} ж ( θ ) {\ textstyle f (\ theta)} θ Θ {\ textstyle \ theta \ in \ Theta}
  2. Напротив, в общем выпуклом случае, где отсутствуют как предположение гладкости, так и сильная выпуклость, Немировский и Юдин показали, что асимптотически оптимальная скорость сходимости относительно значений целевой функции равна. Они также доказали, что этот показатель не может быть улучшен. О ( 1 / п ) {\ textstyle O (1 / {\ sqrt {n}})}

Последующие события и усреднение Поляка – Рупперта

Хотя алгоритм Роббинса – Монро теоретически может быть реализован в предположении дважды непрерывной дифференцируемости и сильной выпуклости, он может работать довольно плохо при реализации. Это в первую очередь связано с тем, что алгоритм очень чувствителен к выбору последовательности размера шага, и предполагаемая асимптотически оптимальная политика размера шага может быть весьма вредной вначале. О ( 1 / п ) {\ textstyle O (1 / п)}

Чанг (1954) и Фабиан (1968) показали, что мы можем достичь оптимальной скорости сходимости с помощью (или). Лай и Роббинс разработали адаптивные процедуры оценки, которые имеют минимальную асимптотическую дисперсию. Однако применение таких оптимальных методов требует большого количества априорной информации, которую трудно получить в большинстве ситуаций. Чтобы преодолеть этот недостаток, Поляк (1991) и Рупперт (1988) независимо разработали новый оптимальный алгоритм, основанный на идее усреднения траекторий. Поляк и Юдицкий также представили метод ускорения Роббинса – Монро для линейных и нелинейных задач поиска корня за счет использования более длинных шагов и усреднения итераций. Алгоритм будет иметь следующую структуру: О ( 1 / п ) {\ textstyle O (1 / {\ sqrt {n}})} а п знак равно 2 ж ( θ * ) - 1 / п {\ textstyle a_ {n} = \ bigtriangledown ^ {2} f (\ theta ^ {*}) ^ {- 1} / n} а п знак равно 1 ( п M ( θ * ) ) {\ textstyle a_ {n} = {\ frac {1} {(nM '(\ theta ^ {*}))}}} M ( θ * ) {\ textstyle M '(\ theta ^ {*})} θ п {\ textstyle \ theta _ {п}}

θ п + 1 - θ п знак равно а п ( α - N ( θ п ) ) , θ ¯ п знак равно 1 п я знак равно 0 п - 1 θ я {\ displaystyle \ theta _ {n + 1} - \ theta _ {n} = a_ {n} (\ alpha -N (\ theta _ {n})), \ qquad {\ bar {\ theta}} _ { n} = {\ frac {1} {n}} \ sum _ {i = 0} ^ {n-1} \ theta _ {i}} Сходимость к единственному корню зависит от того, что последовательность шагов убывает достаточно медленно. Это θ ¯ п {\ displaystyle {\ bar {\ theta}} _ {n}} θ * {\ displaystyle \ theta ^ {*}} { а п } {\ Displaystyle \ {а_ {п} \}}

A1)

а п 0 , а п - а п + 1 а п знак равно о ( а п ) {\ displaystyle a_ {n} \ rightarrow 0, \ qquad {\ frac {a_ {n} -a_ {n + 1}} {a_ {n}}} = o (a_ {n})}

Следовательно, последовательность с удовлетворяет этому ограничению, но не удовлетворяет, следовательно, более длинные шаги. При предположениях, изложенных в алгоритме Роббинса – Монро, результирующая модификация приведет к той же асимптотически оптимальной скорости сходимости, но с более надежной политикой размера шага. До этого идея использования более длинных шагов и усреднения итераций уже была предложена Немировским и Юдиным для случаев решения задачи стохастической оптимизации с непрерывными выпуклыми целями и для задач с выпукло-вогнутой седловой точкой. Было замечено, что эти алгоритмы достигают неасимптотической скорости. а п знак равно п - α {\ textstyle a_ {n} = n ^ {- \ alpha}} 0 lt; α lt; 1 {\ textstyle 0 lt;\ альфа lt;1} α знак равно 1 {\ textstyle \ альфа = 1} О ( 1 / п ) {\ textstyle O (1 / {\ sqrt {n}})} О ( 1 / п ) {\ textstyle O (1 / {\ sqrt {n}})}

Более общий результат дается в главе 11 книги Кушнера и Инь путем определения интерполированного времени, интерполированного процесса и интерполированного нормализованного процесса как т п знак равно я знак равно 0 п - 1 а я {\ textstyle t_ {n} = \ sum _ {i = 0} ^ {n-1} a_ {i}} θ п ( ) {\ textstyle \ theta ^ {п} (\ cdot)} U п ( ) {\ textstyle U ^ {п} (\ cdot)}

θ п ( т ) знак равно θ п + я , U п ( т ) знак равно ( θ п + я - θ * ) / а п + я для т [ т п + я - т п , т п + я + 1 - т п ) , я 0 {\ displaystyle \ theta ^ {n} (t) = \ theta _ {n + i}, \ quad U ^ {n} (t) = (\ theta _ {n + i} - \ theta ^ {*}) / {\ sqrt {a_ {n + i}}} \ quad {\ t_dv {for}} \ quad t \ in [t_ {n + i} -t_ {n}, t_ {n + i + 1} -t_ {n}), i \ geq 0} Пусть будет итеративное среднее значение и соответствующая нормализованная ошибка. Θ п знак равно а п т я знак равно п п + т / а п - 1 θ я {\ displaystyle \ Theta _ {n} = {\ frac {a_ {n}} {t}} \ sum _ {i = n} ^ {n + t / a_ {n} -1} \ theta _ {i} } U ^ п ( т ) знак равно а п т я знак равно п п + т / а п - 1 ( θ я - θ * ) {\ displaystyle {\ hat {U}} ^ {n} (t) = {\ frac {\ sqrt {a_ {n}}} {t}} \ sum _ {i = n} ^ {n + t / a_ {n} -1} (\ theta _ {i} - \ theta ^ {*})}

С предположением A1) и следующим A2)

A2) Имеются матрица Гурвица и симметричная положительно определенная матрица, слабо сходящаяся к, где - статистическое решение А {\ textstyle A} Σ {\ textstyle \ Sigma} { U п ( ) } {\ textstyle \ {U ^ {п} (\ cdot) \}} U ( ) {\ textstyle U (\ cdot)} U ( ) {\ textstyle U (\ cdot)}

d U знак равно А U d т + Σ 1 / 2 d ш {\ Displaystyle dU = AU \, dt + \ Sigma ^ {1/2} \, dw} где - стандартный винеровский процесс. ш ( ) {\ textstyle ш (\ cdot)}

доволен, и определимся. Тогда для каждого, V ¯ знак равно ( А - 1 ) Σ ( А ) - 1 {\ textstyle {\ bar {V}} = (A ^ {- 1}) '\ Sigma (A') ^ {- 1}} т {\ textstyle t}

U ^ п ( т ) D N ( 0 , V т ) , где V т знак равно V ¯ / т + О ( 1 / т 2 ) . {\ displaystyle {\ hat {U}} ^ {n} (t) {\ stackrel {\ mathcal {D}} {\ longrightarrow}} {\ mathcal {N}} (0, V_ {t}), \ quad {\ text {where}} \ quad V_ {t} = {\ bar {V}} / t + O (1 / t ^ {2}).}

Успех идеи усреднения объясняется разделением временной шкалы исходной последовательности и усредненной последовательности, при этом временной масштаб первой более быстрый. { θ п } {\ textstyle \ {\ theta _ {п} \}} { Θ п } {\ textstyle \ {\ Theta _ {n} \}}

Применение в стохастической оптимизации

Предположим, мы хотим решить следующую задачу стохастической оптимизации

грамм ( θ * ) знак равно мин θ Θ E [ Q ( θ , Икс ) ] , {\ displaystyle g (\ theta ^ {*}) = \ min _ {\ theta \ in \ Theta} \ operatorname {E} [Q (\ theta, X)],} где дифференцируема и выпукла, то эта задача эквивалентна найти корень из. Здесь можно интерпретировать некоторую «наблюдаемую» стоимость как функцию выбранных и случайных эффектов. На практике может быть трудно получить аналитическую форму, метод Роббинса – Монро позволяет сгенерировать последовательность для аппроксимации, если можно сгенерировать, в которой условное ожидание данного является точным, т.е. моделируется из условного распределения, определяемого формулой грамм ( θ ) знак равно E [ Q ( θ , Икс ) ] {\ textstyle г (\ theta) = \ OperatorName {E} [Q (\ theta, X)]} θ * {\ displaystyle \ theta ^ {*}} грамм ( θ ) знак равно 0 {\ Displaystyle \ набла г (\ тета) = 0} Q ( θ , Икс ) {\ Displaystyle Q (\ theta, X)} θ {\ displaystyle \ theta} Икс {\ displaystyle X} грамм ( θ ) {\ Displaystyle \ набла г (\ тета)} ( θ п ) п 0 {\ Displaystyle (\ тета _ {п}) _ {п \ geq 0}} θ * {\ displaystyle \ theta ^ {*}} ( Икс п ) п 0 {\ displaystyle (X_ {n}) _ {n \ geq 0}} Икс п {\ displaystyle X_ {n}} θ п {\ displaystyle \ theta _ {n}} грамм ( θ п ) {\ Displaystyle \ набла г (\ тета _ {п})} Икс п {\ displaystyle X_ {n}} E [ ЧАС ( θ , Икс ) | θ знак равно θ п ] знак равно грамм ( θ п ) . {\ displaystyle \ operatorname {E} [H (\ theta, X) | \ theta = \ theta _ {n}] = \ nabla g (\ theta _ {n}).}

Вот объективная оценка. Если зависит от, как правило, нет естественного способа получения случайного результата, который представляет собой несмещенную оценку градиента. В некоторых особых случаях, когда применимы методы IPA или отношения правдоподобия, можно получить несмещенную оценку градиента. Если рассматривается как некий «фундаментальной», лежащей в основе случайного процесса, который генерируется независимо от, а при некоторых условиях для регуляризации производной-интегральных операций обмена, так что, то дает фундаментальную несмещенную оценку градиента. Однако для некоторых приложений мы должны использовать конечно-разностные методы, в которых условное ожидание близко, но не в точности равно ему. ЧАС ( θ , Икс ) {\ Displaystyle Н (\ тета, Х)} грамм ( θ ) {\ Displaystyle \ набла г (\ тета)} Икс {\ displaystyle X} θ {\ displaystyle \ theta} ЧАС ( θ , Икс ) {\ Displaystyle Н (\ тета, Х)} ЧАС ( θ , Икс ) {\ Displaystyle Н (\ тета, Х)} Икс {\ displaystyle X} θ {\ displaystyle \ theta} E [ θ Q ( θ , Икс ) ] знак равно грамм ( θ ) {\ displaystyle \ operatorname {E} {\ Big [} {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X) {\ Big]} = \ nabla g (\ theta)} ЧАС ( θ , Икс ) знак равно θ Q ( θ , Икс ) {\ Displaystyle Н (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X)} ЧАС ( θ , Икс ) {\ Displaystyle Н (\ тета, Х)} грамм ( θ ) {\ Displaystyle \ набла г (\ тета)}

Затем мы определяем рекурсию аналогично методу Ньютона в детерминированном алгоритме:

θ п + 1 знак равно θ п - ε п ЧАС ( θ п , Икс п + 1 ) . {\ displaystyle \ theta _ {n + 1} = \ theta _ {n} - \ varepsilon _ {n} H (\ theta _ {n}, X_ {n + 1}).}

Сходимость алгоритма

Следующий результат дает достаточные условия для сходимости алгоритма: θ п {\ displaystyle \ theta _ {n}}

C1) ε п 0 , п 0. {\ displaystyle \ varepsilon _ {n} \ geq 0, \ forall \; n \ geq 0.}

C2) п знак равно 0 ε п знак равно {\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} = \ infty}

C3) п знак равно 0 ε п 2 lt; {\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} ^ {2} lt;\ infty}

C4) | Икс п | B ,  для фиксированной границы  B . {\ displaystyle | X_ {n} | \ leq B, {\ text {для фиксированной границы}} B.}

C5) грамм ( θ )  строго выпуклый, т. е. {\ displaystyle g (\ theta) {\ text {строго выпуклый, т.е.}}}

инф δ | θ - θ * | 1 / δ θ - θ * , грамм ( θ ) gt; 0 ,  для каждого  0 lt; δ lt; 1. {\ displaystyle \ inf _ {\ delta \ leq | \ theta - \ theta ^ {*} | \ leq 1 / \ delta} \ langle \ theta - \ theta ^ {*}, \ nabla g (\ theta) \ rangle gt; 0, {\ text {для каждого}} 0 lt;\ delta lt;1.}

Потом сходится почти наверняка. θ п {\ displaystyle \ theta _ {n}} θ * {\ displaystyle \ theta ^ {*}}

Вот несколько интуитивных объяснений этих условий. Предположим, это равномерно ограниченные случайные величины. Если C2) не выполняется, т. Е. Тогда ЧАС ( θ п , Икс п + 1 ) {\ Displaystyle Н (\ тета _ {п}, X_ {п + 1})} п знак равно 0 ε п lt; {\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} lt;\ infty}

θ п - θ 0 знак равно - я знак равно 0 п - 1 ε я ЧАС ( θ я , Икс я + 1 ) {\ displaystyle \ theta _ {n} - \ theta _ {0} = - \ sum _ {i = 0} ^ {n-1} \ varepsilon _ {i} H (\ theta _ {i}, X_ {i +1})} является ограниченной последовательностью, поэтому итерация не может сойтись, если первоначальная догадка слишком далека от нее. Что касается C3), обратите внимание, что если сходится к, то θ * {\ displaystyle \ theta ^ {*}} θ 0 {\ displaystyle \ theta _ {0}} θ * {\ displaystyle \ theta ^ {*}} θ п {\ displaystyle \ theta _ {n}} θ * {\ displaystyle \ theta ^ {*}} θ п + 1 - θ п знак равно - ε п ЧАС ( θ п , Икс п + 1 ) 0 ,  в виде  п . {\ displaystyle \ theta _ {n + 1} - \ theta _ {n} = - \ varepsilon _ {n} H (\ theta _ {n}, X_ {n + 1}) \ rightarrow 0, {\ text { as}} n \ rightarrow \ infty.} поэтому мы должны иметь и условие C3) обеспечивает это. Естественный выбор был бы. Условие C5) является довольно жестким условием по форме ; он дает направление поиска алгоритма. ε п 0 {\ displaystyle \ varepsilon _ {n} \ downarrow 0} ε п знак равно 1 / п {\ displaystyle \ varepsilon _ {n} = 1 / n} грамм ( θ ) {\ Displaystyle г (\ тета)}

Пример (где подходит метод стохастического градиента)

Предположим, где дифференцируема и является случайной величиной, не зависящей от. Тогда зависит от среднего значения, и метод стохастического градиента будет подходящим в этой задаче. Мы можем выбрать Q ( θ , Икс ) знак равно ж ( θ ) + θ Т Икс {\ Displaystyle Q (\ theta, X) = е (\ theta) + \ theta ^ {T} X} ж {\ displaystyle f} Икс р п {\ Displaystyle X \ in \ mathbb {R} ^ {p}} θ {\ displaystyle \ theta} грамм ( θ ) знак равно E [ Q ( θ , Икс ) ] знак равно ж ( θ ) + θ Т E Икс {\ displaystyle g (\ theta) = \ operatorname {E} [Q (\ theta, X)] = f (\ theta) + \ theta ^ {T} \ operatorname {E} X} Икс {\ displaystyle X} ЧАС ( θ , Икс ) знак равно θ Q ( θ , Икс ) знак равно θ ж ( θ ) + Икс . {\ Displaystyle Н (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} f (\ тета) + X.}

Алгоритм Кифера – Вулфовица

Алгоритм Кифера – Вулфовица был введен в 1952 году Якобом Вулфовицем и Джеком Кифером и был мотивирован публикацией алгоритма Роббинса – Монро. Однако алгоритм был представлен как метод, который стохастически оценивает максимум функции. Позвольте быть функцией, которая имеет максимум в точке. Предполагается, что неизвестно; тем не менее, определенные наблюдения, где, могут быть сделаны в любой момент. Структура алгоритма соответствует градиентному методу, при этом итерации генерируются следующим образом: M ( Икс ) {\ Displaystyle М (х)} θ {\ displaystyle \ theta} M ( Икс ) {\ Displaystyle М (х)} N ( Икс ) {\ Displaystyle N (х)} E [ N ( Икс ) ] знак равно M ( Икс ) {\ Displaystyle \ OperatorName {E} [N (x)] = M (x)} Икс {\ displaystyle x}

Икс п + 1 знак равно Икс п + а п ( N ( Икс п + c п ) - N ( Икс п - c п ) 2 c п ) {\ Displaystyle x_ {n + 1} = x_ {n} + a_ {n} {\ bigg (} {\ frac {N (x_ {n} + c_ {n}) - N (x_ {n} -c_ { n})} {2c_ {n}}} {\ bigg)}}

где и независимы, а градиент аппроксимируется конечными разностями. Последовательность определяет последовательность ширины конечной разности, используемую для приближения градиента, в то время как последовательность определяет последовательность положительных размеров шага, взятых вдоль этого направления. Кифер и Вулфовиц доказали, что если удовлетворяются определенные условия регулярности, то будет сходиться по вероятности, как, а позже Блюм в 1954 году показал, сходится к почти наверняка, при условии, что: N ( Икс п + c п ) {\ Displaystyle N (x_ {n} + c_ {n})} N ( Икс п - c п ) {\ Displaystyle N (x_ {n} -c_ {n})} M ( Икс ) {\ Displaystyle М (х)} { c п } {\ displaystyle \ {c_ {n} \}} { а п } {\ Displaystyle \ {а_ {п} \}} M ( Икс ) {\ Displaystyle М (х)} Икс п {\ displaystyle x_ {n}} θ {\ displaystyle \ theta} п {\ Displaystyle п \ к \ infty} Икс п {\ displaystyle x_ {n}} θ {\ displaystyle \ theta}

  • Вар ( N ( Икс ) ) S lt; {\ Displaystyle \ OperatorName {Var} (N (x)) \ Leq S lt;\ infty} для всех. Икс {\ displaystyle x}
  • Функция имеет единственную точку максимума (минимума) и является сильно вогнутой (выпуклой). M ( Икс ) {\ Displaystyle М (х)}
    • Алгоритм был впервые представлен с требованием, чтобы функция поддерживала сильную глобальную выпуклость (вогнутость) во всем допустимом пространстве. Учитывая, что это условие слишком ограничительно, чтобы накладывать его на всю область, Кифер и Вулфовиц предположили, что достаточно наложить условие на компактный набор, который, как известно, включает оптимальное решение. M ( ) {\ Displaystyle М (\ cdot)} C 0 р d {\ Displaystyle C_ {0} \ subset \ mathbb {R} ^ {d}}
  • Функция удовлетворяет следующим условиям регулярности: M ( Икс ) {\ Displaystyle М (х)}
    • Существует и такое, что β gt; 0 {\ displaystyle \ betagt; 0} B gt; 0 {\ displaystyle Bgt; 0} | Икс - θ | + | Икс - θ | lt; β | M ( Икс ) - M ( Икс ) | lt; B | Икс - Икс | {\ displaystyle | x '- \ theta | + | x' '- \ theta | lt;\ beta \ quad \ Longrightarrow \ quad | M (x') - M (x '') | lt;B | x'-x ' '|}
    • Существует и такое, что ρ gt; 0 {\ displaystyle \ rhogt; 0} р gt; 0 {\ displaystyle Rgt; 0} | Икс - Икс | lt; ρ | M ( Икс ) - M ( Икс ) | lt; р {\ Displaystyle | x'-x '' | lt;\ rho \ quad \ Longrightarrow \ quad | M (x ') - M (x' ') | lt;R}
    • Для каждого существует такое, что δ gt; 0 {\ displaystyle \ deltagt; 0} π ( δ ) gt; 0 {\ Displaystyle \ пи (\ дельта)gt; 0} | z - θ | gt; δ инф δ / 2 gt; ε gt; 0 | M ( z + ε ) - M ( z - ε ) | ε gt; π ( δ ) {\ displaystyle | z- \ theta |gt; \ delta \ quad \ Longrightarrow \ quad \ inf _ {\ delta / 2gt; \ varepsilongt; 0} {\ frac {| M (z + \ varepsilon) -M (z- \ varepsilon) |} {\ varepsilon}}gt; \ pi (\ delta)}
  • Выбранные последовательности и должны быть бесконечными последовательностями положительных чисел, таких что { а п } {\ Displaystyle \ {а_ {п} \}} { c п } {\ displaystyle \ {c_ {n} \}}
    • c п 0 в виде п {\ displaystyle \ quad c_ {n} \ rightarrow 0 \ quad {\ text {as}} \ quad n \ to \ infty}
    • п знак равно 0 а п знак равно {\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} = \ infty}
    • п знак равно 0 а п c п lt; {\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} c_ {n} lt;\ infty}
    • п знак равно 0 а п 2 c п - 2 lt; {\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} ^ {2} c_ {n} ^ {- 2} lt;\ infty}

Подходящим выбором последовательностей, рекомендованным Кифером и Вулфовицем, будет и. а п знак равно 1 / п {\ displaystyle a_ {n} = 1 / n} c п знак равно п - 1 / 3 {\ displaystyle c_ {n} = n ^ {- 1/3}}

Последующие события и важные вопросы

  1. Алгоритм Кифера Вулфовица требует, чтобы для каждого вычисления градиента моделировались по крайней мере разные значения параметров для каждой итерации алгоритма, где - размерность пространства поиска. Это означает, что при большом размере алгоритм Кифера – Вулфовица потребует значительных вычислительных затрат на итерацию, что приведет к медленной сходимости. d + 1 {\ displaystyle d + 1} d {\ displaystyle d} d {\ displaystyle d}
    1. Чтобы решить эту проблему, Сполл предложил использовать одновременные возмущения для оценки градиента. Этот метод потребует только двух симуляций на итерацию, независимо от размера. d {\ displaystyle d}
  2. В условиях, требуемых для сходимости, бывает трудно найти возможность указать заранее определенный компакт, который удовлетворяет сильной выпуклости (или вогнутости) и содержит уникальное решение. Что касается реальных приложений, если домен достаточно большой, эти предположения могут быть довольно ограничительными и в высшей степени нереалистичными.
Дальнейшие разработки

Вокруг этих алгоритмов выросла обширная теоретическая литература, касающаяся условий сходимости, скорости сходимости, многомерных и других обобщений, правильного выбора размера шага, возможных моделей шума и так далее. Эти методы также применяются в теории управления, и в этом случае неизвестная функция, которую мы хотим оптимизировать или найти ноль, может изменяться во времени. В этом случае размер шага не должен сходиться к нулю, но его следует выбирать так, чтобы отслеживать функцию. , 2-е изд., Глава 3 а п {\ displaystyle a_ {n}}

К. Йохан Масрелиес и Р. Дуглас Мартин были первыми, кто применил стохастическую аппроксимацию к робастному оцениванию.

Основным инструментом для анализа алгоритмов стохастических приближений (включая алгоритмы Роббинса – Монро и Кифера – Вулфовица) является теорема Арье Дворецки, опубликованная в трудах третьего симпозиума Беркли по математической статистике и вероятности в 1956 году.

Смотрите также
Рекомендации
Последняя правка сделана 2024-01-11 04:04:34
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте