Стохастическая аппроксимация

редактировать

Методы стохастической аппроксимации - это семейство итерационных методов, обычно используемых для задач поиска корня или для задач оптимизации. Рекурсивные правила обновления методов стохастической аппроксимации могут использоваться, среди прочего, для решения линейных систем, когда собранные данные искажены шумом, или для аппроксимации экстремальных значений функций, которые не могут быть вычислены напрямую, а могут быть оценены только через зашумленные наблюдения.

Вкратце, алгоритмы стохастической аппроксимации имеют дело с функцией формы, которая является ожидаемым значением функции, зависящей от случайной величины. Цель состоит в том, чтобы восстановить свойства такой функции, не оценивая ее напрямую. Вместо этого алгоритмы стохастической аппроксимации используют случайные выборки для эффективной аппроксимации таких свойств, как нули или экстремумы. ${\ textstyle е (\ theta) = \ OperatorName {E} _ {\ xi} [F (\ theta, \ xi)]}$ ${\ textstyle е (\ theta) = \ OperatorName {E} _ {\ xi} [F (\ theta, \ xi)]}$ ${\ textstyle \ xi}$ ${\ textstyle \ xi}$ ${\ textstyle f}$ ${\ textstyle f}$ ${\ textstyle F (\ theta, \ xi)}$ ${\ textstyle F (\ theta, \ xi)}$ ${\ textstyle f}$ ${\ textstyle f}$

В последнее время стохастические аппроксимации нашли широкое применение в области статистики и машинного обучения, особенно в условиях работы с большими данными. Эти приложения варьируются от методов и алгоритмов стохастической оптимизации до онлайн-форм алгоритма EM, обучения с подкреплением через временные различия, глубокого обучения и других. Алгоритмы стохастической аппроксимации также использовались в социальных науках для описания коллективной динамики: фиктивная игра в теории обучения и алгоритмы консенсуса могут быть изучены с помощью их теории.

Самыми ранними и прототипными алгоритмами такого типа являются алгоритмы Роббинса – Монро и Кифера – Вулфовица, представленные соответственно в 1951 и 1952 годах.

СОДЕРЖАНИЕ

1 Алгоритм Роббинса – Монро
- 1.1 Результаты сложности
- 1.2 Последующие события и усреднение Поляка – Рупперта
- 1.3 Применение в стохастической оптимизации
  - 1.3.1 Сходимость алгоритма
  - 1.3.2 Пример (где подходит метод стохастического градиента) ^[8]
2 Алгоритм Кифера – Вулфовица
- 2.1 Последующие события и важные вопросы
3 Дальнейшие разработки
4 См. Также
5 ссылки

Алгоритм Роббинса – Монро

Алгоритм Роббинса – Монро, представленный в 1951 году Гербертом Роббинсом и Саттоном Монро, представляет методологию решения задачи поиска корня, где функция представлена как математическое ожидание. Предположим, что у нас есть функция и константа, такие что уравнение имеет единственный корень в точке. Предполагается, что, хотя мы не можем непосредственно наблюдать функцию, мы можем вместо этого получить измерения случайной величины где. Структура алгоритма состоит в том, чтобы затем генерировать итерации формы: ${\ textstyle М (\ тета)}$ ${\ textstyle М (\ тета)}$ ${\ textstyle \ alpha}$ ${\ textstyle \ alpha}$ ${\ textstyle М (\ тета) = \ альфа}$ ${\ textstyle М (\ тета) = \ альфа}$ ${\ textstyle \ theta ^ {*}}$ ${\ textstyle \ theta ^ {*}}$ ${\ textstyle М (\ тета)}$ ${\ textstyle М (\ тета)}$ ${\ textstyle N (\ theta)}$ ${\ textstyle N (\ theta)}$ ${\ textstyle \ OperatorName {E} [N (\ theta)] = M (\ theta)}$ ${\ textstyle \ OperatorName {E} [N (\ theta)] = M (\ theta)}$

{\ displaystyle \ theta _ {n + 1} = \ theta _ {n} -a_ {n} (N (\ theta _ {n}) - \ alpha)}

{\ displaystyle \ theta _ {n + 1} = \ theta _ {n} -a_ {n} (N (\ theta _ {n}) - \ alpha)}

Вот последовательность положительных размеров шага. Роббинс и Монро доказали ^{теорему 2,} которая сходится по (а значит, и по вероятности) к, а Блюм позже доказал, что сходимость на самом деле с вероятностью единица, при условии, что: ${\ displaystyle a_ {1}, a_ {2}, \ dots}$ $а_ {1}, а_ {2}, \ точки$ ${\ displaystyle \ theta _ {n}}$ $\ theta_n$ ${\ Displaystyle L ^ {2}}$ $L ^ {2}$ ${\ displaystyle \ theta ^ {*}}$ $\ тета ^ *$

${\ textstyle N (\ theta)}$ ${\ textstyle N (\ theta)}$ равномерно ограничен,
${\ textstyle М (\ тета)}$ ${\ textstyle М (\ тета)}$ не убывает,
${\ textstyle M '(\ theta ^ {*})}$ ${\ textstyle M '(\ theta ^ {*})}$ существует и положительно, и
Последовательность удовлетворяет следующим требованиям: ${\ textstyle a_ {n}}$ ${\ textstyle a_ {n}}$

{\ displaystyle \ qquad \ sum _ {n = 0} ^ {\ infty} a_ {n} = \ infty \ quad {\ t_dv {and}} \ quad \ sum _ {n = 0} ^ {\ infty} a_ {п} ^ {2} lt;\ infty \ quad}

\ qquad \ sum _ {{n = 0}} ^ {{\ infty}} a_ {n} = \ infty \ quad {\ t_dv {and}} \ quad \ sum _ {{n = 0}} ^ {{ \ infty}} a_ {n} ^ {2} lt;\ infty \ quad

Конкретная последовательность шагов, удовлетворяющая этим условиям, предложенная Роббинсом – Монро, имеет вид:, для. Возможны и другие серии, но для усреднения шума должно быть выполнено указанное выше условие. ${\ textstyle a_ {n} = a / n}$ ${\ textstyle a_ {n} = a / n}$ ${\ textstyle agt; 0}$ ${\ textstyle agt; 0}$ ${\ textstyle N (\ theta)}$ ${\ textstyle N (\ theta)}$

Результаты сложности

Если является дважды непрерывно дифференцируемым и сильно выпуклым, а минимизатор принадлежит внутренней части, то алгоритм Роббинса – Монро достигнет асимптотически оптимальной скорости сходимости по отношению к целевой функции, равной, где - минимальное значение сверх. ${\ textstyle f (\ theta)}$ ${\ textstyle f (\ theta)}$ ${\ textstyle f (\ theta)}$ ${\ textstyle f (\ theta)}$ ${\ textstyle \ Theta}$ ${\ textstyle \ Theta}$ ${\ textstyle \ OperatorName {E} [е (\ theta _ {n}) - f ^ {*}] = O (1 / n)}$ ${\ textstyle \ OperatorName {E} [е (\ theta _ {n}) - f ^ {*}] = O (1 / n)}$ ${\ textstyle f ^ {*}}$ ${\ textstyle f ^ {*}}$ ${\ textstyle f (\ theta)}$ ${\ textstyle f (\ theta)}$ ${\ textstyle \ theta \ in \ Theta}$ ${\ textstyle \ theta \ in \ Theta}$
Напротив, в общем выпуклом случае, где отсутствуют как предположение гладкости, так и сильная выпуклость, Немировский и Юдин показали, что асимптотически оптимальная скорость сходимости относительно значений целевой функции равна. Они также доказали, что этот показатель не может быть улучшен. ${\ textstyle O (1 / {\ sqrt {n}})}$ ${\ textstyle O (1 / {\ sqrt {n}})}$

Последующие события и усреднение Поляка – Рупперта

Хотя алгоритм Роббинса – Монро теоретически может быть реализован в предположении дважды непрерывной дифференцируемости и сильной выпуклости, он может работать довольно плохо при реализации. Это в первую очередь связано с тем, что алгоритм очень чувствителен к выбору последовательности размера шага, и предполагаемая асимптотически оптимальная политика размера шага может быть весьма вредной вначале. ${\ textstyle O (1 / п)}$ ${\ textstyle O (1 / п)}$

Чанг (1954) и Фабиан (1968) показали, что мы можем достичь оптимальной скорости сходимости с помощью (или). Лай и Роббинс разработали адаптивные процедуры оценки, которые имеют минимальную асимптотическую дисперсию. Однако применение таких оптимальных методов требует большого количества априорной информации, которую трудно получить в большинстве ситуаций. Чтобы преодолеть этот недостаток, Поляк (1991) и Рупперт (1988) независимо разработали новый оптимальный алгоритм, основанный на идее усреднения траекторий. Поляк и Юдицкий также представили метод ускорения Роббинса – Монро для линейных и нелинейных задач поиска корня за счет использования более длинных шагов и усреднения итераций. Алгоритм будет иметь следующую структуру: ${\ textstyle O (1 / {\ sqrt {n}})}$ ${\ textstyle O (1 / {\ sqrt {n}})}$ ${\ textstyle a_ {n} = \ bigtriangledown ^ {2} f (\ theta ^ {*}) ^ {- 1} / n}$ ${\ textstyle a_ {n} = \ bigtriangledown ^ {2} f (\ theta ^ {*}) ^ {- 1} / n}$ ${\ textstyle a_ {n} = {\ frac {1} {(nM '(\ theta ^ {*}))}}}$ ${\ textstyle a_ {n} = {\ frac {1} {(nM '(\ theta ^ {*}))}}}$ ${\ textstyle M '(\ theta ^ {*})}$ ${\ textstyle M '(\ theta ^ {*})}$ ${\ textstyle \ theta _ {п}}$ ${\ textstyle \ theta _ {п}}$

{\ displaystyle \ theta _ {n + 1} - \ theta _ {n} = a_ {n} (\ alpha -N (\ theta _ {n})), \ qquad {\ bar {\ theta}} _ { n} = {\ frac {1} {n}} \ sum _ {i = 0} ^ {n-1} \ theta _ {i}}

{\ displaystyle \ theta _ {n + 1} - \ theta _ {n} = a_ {n} (\ alpha -N (\ theta _ {n})), \ qquad {\ bar {\ theta}} _ { n} = {\ frac {1} {n}} \ sum _ {i = 0} ^ {n-1} \ theta _ {i}}

Сходимость к единственному корню зависит от того, что последовательность шагов убывает достаточно медленно. Это

{\ displaystyle {\ bar {\ theta}} _ {n}}

{\ displaystyle {\ bar {\ theta}} _ {n}}

{\ displaystyle \ theta ^ {*}}

\ тета ^ *

{\ Displaystyle \ {а_ {п} \}}

\ {a_ {n} \}

A1)

{\ displaystyle a_ {n} \ rightarrow 0, \ qquad {\ frac {a_ {n} -a_ {n + 1}} {a_ {n}}} = o (a_ {n})}

{\ displaystyle a_ {n} \ rightarrow 0, \ qquad {\ frac {a_ {n} -a_ {n + 1}} {a_ {n}}} = o (a_ {n})}

Следовательно, последовательность с удовлетворяет этому ограничению, но не удовлетворяет, следовательно, более длинные шаги. При предположениях, изложенных в алгоритме Роббинса – Монро, результирующая модификация приведет к той же асимптотически оптимальной скорости сходимости, но с более надежной политикой размера шага. До этого идея использования более длинных шагов и усреднения итераций уже была предложена Немировским и Юдиным для случаев решения задачи стохастической оптимизации с непрерывными выпуклыми целями и для задач с выпукло-вогнутой седловой точкой. Было замечено, что эти алгоритмы достигают неасимптотической скорости. ${\ textstyle a_ {n} = n ^ {- \ alpha}}$ ${\ textstyle a_ {n} = n ^ {- \ alpha}}$ ${\ textstyle 0 lt;\ альфа lt;1}$ ${\ textstyle 0 lt;\ альфа lt;1}$ ${\ textstyle \ альфа = 1}$ ${\ textstyle \ альфа = 1}$ ${\ textstyle O (1 / {\ sqrt {n}})}$ ${\ textstyle O (1 / {\ sqrt {n}})}$ ${\ textstyle O (1 / {\ sqrt {n}})}$ ${\ textstyle O (1 / {\ sqrt {n}})}$

Более общий результат дается в главе 11 книги Кушнера и Инь путем определения интерполированного времени, интерполированного процесса и интерполированного нормализованного процесса как ${\ textstyle t_ {n} = \ sum _ {i = 0} ^ {n-1} a_ {i}}$ ${\ textstyle t_ {n} = \ sum _ {i = 0} ^ {n-1} a_ {i}}$ ${\ textstyle \ theta ^ {п} (\ cdot)}$ ${\ textstyle \ theta ^ {п} (\ cdot)}$ ${\ textstyle U ^ {п} (\ cdot)}$ ${\ textstyle U ^ {п} (\ cdot)}$

{\ displaystyle \ theta ^ {n} (t) = \ theta _ {n + i}, \ quad U ^ {n} (t) = (\ theta _ {n + i} - \ theta ^ {*}) / {\ sqrt {a_ {n + i}}} \ quad {\ t_dv {for}} \ quad t \ in [t_ {n + i} -t_ {n}, t_ {n + i + 1} -t_ {n}), i \ geq 0}

{\ displaystyle \ theta ^ {n} (t) = \ theta _ {n + i}, \ quad U ^ {n} (t) = (\ theta _ {n + i} - \ theta ^ {*}) / {\ sqrt {a_ {n + i}}} \ quad {\ t_dv {for}} \ quad t \ in [t_ {n + i} -t_ {n}, t_ {n + i + 1} -t_ {n}), i \ geq 0}

Пусть будет итеративное среднее значение и соответствующая нормализованная ошибка.

{\ displaystyle \ Theta _ {n} = {\ frac {a_ {n}} {t}} \ sum _ {i = n} ^ {n + t / a_ {n} -1} \ theta _ {i} }

{\ displaystyle \ Theta _ {n} = {\ frac {a_ {n}} {t}} \ sum _ {i = n} ^ {n + t / a_ {n} -1} \ theta _ {i} }

{\ displaystyle {\ hat {U}} ^ {n} (t) = {\ frac {\ sqrt {a_ {n}}} {t}} \ sum _ {i = n} ^ {n + t / a_ {n} -1} (\ theta _ {i} - \ theta ^ {*})}

{\ displaystyle {\ hat {U}} ^ {n} (t) = {\ frac {\ sqrt {a_ {n}}} {t}} \ sum _ {i = n} ^ {n + t / a_ {n} -1} (\ theta _ {i} - \ theta ^ {*})}

С предположением A1) и следующим A2)

A2) Имеются матрица Гурвица и симметричная положительно определенная матрица, слабо сходящаяся к, где - статистическое решение ${\ textstyle A}$ ${\ textstyle A}$ ${\ textstyle \ Sigma}$ ${\ textstyle \ Sigma}$ ${\ textstyle \ {U ^ {п} (\ cdot) \}}$ ${\ textstyle \ {U ^ {п} (\ cdot) \}}$ ${\ textstyle U (\ cdot)}$ ${\ textstyle U (\ cdot)}$ ${\ textstyle U (\ cdot)}$ ${\ textstyle U (\ cdot)}$

{\ Displaystyle dU = AU \, dt + \ Sigma ^ {1/2} \, dw}

{\ Displaystyle dU = AU \, dt + \ Sigma ^ {1/2} \, dw}

где - стандартный винеровский процесс.

{\ textstyle ш (\ cdot)}

{\ textstyle ш (\ cdot)}

доволен, и определимся. Тогда для каждого, ${\ textstyle {\ bar {V}} = (A ^ {- 1}) '\ Sigma (A') ^ {- 1}}$ ${\ textstyle {\ bar {V}} = (A ^ {- 1}) '\ Sigma (A') ^ {- 1}}$ ${\ textstyle t}$ ${\ textstyle t}$

{\ displaystyle {\ hat {U}} ^ {n} (t) {\ stackrel {\ mathcal {D}} {\ longrightarrow}} {\ mathcal {N}} (0, V_ {t}), \ quad {\ text {where}} \ quad V_ {t} = {\ bar {V}} / t + O (1 / t ^ {2}).}

{\ displaystyle {\ hat {U}} ^ {n} (t) {\ stackrel {\ mathcal {D}} {\ longrightarrow}} {\ mathcal {N}} (0, V_ {t}), \ quad {\ text {where}} \ quad V_ {t} = {\ bar {V}} / t + O (1 / t ^ {2}).}

Успех идеи усреднения объясняется разделением временной шкалы исходной последовательности и усредненной последовательности, при этом временной масштаб первой более быстрый. ${\ textstyle \ {\ theta _ {п} \}}$ ${\ textstyle \ {\ theta _ {п} \}}$ ${\ textstyle \ {\ Theta _ {n} \}}$ ${\ textstyle \ {\ Theta _ {n} \}}$

Применение в стохастической оптимизации

Предположим, мы хотим решить следующую задачу стохастической оптимизации

{\ displaystyle g (\ theta ^ {*}) = \ min _ {\ theta \ in \ Theta} \ operatorname {E} [Q (\ theta, X)],}

{\ displaystyle g (\ theta ^ {*}) = \ min _ {\ theta \ in \ Theta} \ operatorname {E} [Q (\ theta, X)],}

где дифференцируема и выпукла, то эта задача эквивалентна найти корень из. Здесь можно интерпретировать некоторую «наблюдаемую» стоимость как функцию выбранных и случайных эффектов. На практике может быть трудно получить аналитическую форму, метод Роббинса – Монро позволяет сгенерировать последовательность для аппроксимации, если можно сгенерировать, в которой условное ожидание данного является точным, т.е. моделируется из условного распределения, определяемого формулой

{\ textstyle г (\ theta) = \ OperatorName {E} [Q (\ theta, X)]}

{\ textstyle г (\ theta) = \ OperatorName {E} [Q (\ theta, X)]}

{\ displaystyle \ theta ^ {*}}

\ тета ^ *

{\ Displaystyle \ набла г (\ тета) = 0}

{\ Displaystyle \ набла г (\ тета) = 0}

{\ Displaystyle Q (\ theta, X)}

{\ Displaystyle Q (\ theta, X)}

{\ displaystyle \ theta}

\ theta

{\ displaystyle X}

Икс

{\ Displaystyle \ набла г (\ тета)}

{\ Displaystyle \ набла г (\ тета)}

{\ Displaystyle (\ тета _ {п}) _ {п \ geq 0}}

{\ Displaystyle (\ тета _ {п}) _ {п \ geq 0}}

{\ displaystyle \ theta ^ {*}}

\ тета ^ *

{\ displaystyle (X_ {n}) _ {n \ geq 0}}

{\ displaystyle (X_ {n}) _ {n \ geq 0}}

{\ displaystyle X_ {n}}

{\ displaystyle X_ {n}}

{\ displaystyle \ theta _ {n}}

{\ displaystyle \ theta _ {n}}

{\ Displaystyle \ набла г (\ тета _ {п})}

{\ Displaystyle \ набла г (\ тета _ {п})}

{\ displaystyle X_ {n}}

X_ {n}

{\ displaystyle \ operatorname {E} [H (\ theta, X) | \ theta = \ theta _ {n}] = \ nabla g (\ theta _ {n}).}

{\ displaystyle \ operatorname {E} [H (\ theta, X) | \ theta = \ theta _ {n}] = \ nabla g (\ theta _ {n}).}

Вот объективная оценка. Если зависит от, как правило, нет естественного способа получения случайного результата, который представляет собой несмещенную оценку градиента. В некоторых особых случаях, когда применимы методы IPA или отношения правдоподобия, можно получить несмещенную оценку градиента. Если рассматривается как некий «фундаментальной», лежащей в основе случайного процесса, который генерируется независимо от, а при некоторых условиях для регуляризации производной-интегральных операций обмена, так что, то дает фундаментальную несмещенную оценку градиента. Однако для некоторых приложений мы должны использовать конечно-разностные методы, в которых условное ожидание близко, но не в точности равно ему. ${\ Displaystyle Н (\ тета, Х)}$ ${\ Displaystyle Н (\ тета, Х)}$ ${\ Displaystyle \ набла г (\ тета)}$ ${\ Displaystyle \ набла г (\ тета)}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle \ theta}$ $\ theta$ ${\ Displaystyle Н (\ тета, Х)}$ ${\ Displaystyle Н (\ тета, Х)}$ ${\ Displaystyle Н (\ тета, Х)}$ ${\ Displaystyle Н (\ тета, Х)}$ ${\ displaystyle X}$ $Икс$ ${\ displaystyle \ theta}$ $\ theta$ ${\ displaystyle \ operatorname {E} {\ Big [} {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X) {\ Big]} = \ nabla g (\ theta)}$ ${\ displaystyle \ operatorname {E} {\ Big [} {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X) {\ Big]} = \ nabla g (\ theta)}$ ${\ Displaystyle Н (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X)}$ ${\ Displaystyle Н (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X)}$ ${\ Displaystyle Н (\ тета, Х)}$ ${\ Displaystyle Н (\ тета, Х)}$ ${\ Displaystyle \ набла г (\ тета)}$ ${\ Displaystyle \ набла г (\ тета)}$

Затем мы определяем рекурсию аналогично методу Ньютона в детерминированном алгоритме:

{\ displaystyle \ theta _ {n + 1} = \ theta _ {n} - \ varepsilon _ {n} H (\ theta _ {n}, X_ {n + 1}).}

{\ displaystyle \ theta _ {n + 1} = \ theta _ {n} - \ varepsilon _ {n} H (\ theta _ {n}, X_ {n + 1}).}

Сходимость алгоритма

Следующий результат дает достаточные условия для сходимости алгоритма: ${\ displaystyle \ theta _ {n}}$ ${\ displaystyle \ theta _ {n}}$

C1) ${\ displaystyle \ varepsilon _ {n} \ geq 0, \ forall \; n \ geq 0.}$ ${\ displaystyle \ varepsilon _ {n} \ geq 0, \ forall \; n \ geq 0.}$

C2) ${\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} = \ infty}$ ${\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} = \ infty}$

C3) ${\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} ^ {2} lt;\ infty}$ ${\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} ^ {2} lt;\ infty}$

C4) ${\ displaystyle | X_ {n} | \ leq B, {\ text {для фиксированной границы}} B.}$ ${\ displaystyle | X_ {n} | \ leq B, {\ text {для фиксированной границы}} B.}$

C5) ${\ displaystyle g (\ theta) {\ text {строго выпуклый, т.е.}}}$ ${\ displaystyle g (\ theta) {\ text {строго выпуклый, т.е.}}}$

{\ displaystyle \ inf _ {\ delta \ leq | \ theta - \ theta ^ {*} | \ leq 1 / \ delta} \ langle \ theta - \ theta ^ {*}, \ nabla g (\ theta) \ rangle gt; 0, {\ text {для каждого}} 0 lt;\ delta lt;1.}

{\ displaystyle \ inf _ {\ delta \ leq | \ theta - \ theta ^ {*} | \ leq 1 / \ delta} \ langle \ theta - \ theta ^ {*}, \ nabla g (\ theta) \ rangle gt; 0, {\ text {для каждого}} 0 lt;\ delta lt;1.}

Потом сходится почти наверняка. ${\ displaystyle \ theta _ {n}}$ ${\ displaystyle \ theta _ {n}}$ ${\ displaystyle \ theta ^ {*}}$ ${\ displaystyle \ theta ^ {*}}$

Вот несколько интуитивных объяснений этих условий. Предположим, это равномерно ограниченные случайные величины. Если C2) не выполняется, т. Е. Тогда ${\ Displaystyle Н (\ тета _ {п}, X_ {п + 1})}$ ${\ Displaystyle Н (\ тета _ {п}, X_ {п + 1})}$ ${\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} lt;\ infty}$ ${\ Displaystyle \ сумма _ {п = 0} ^ {\ infty} \ varepsilon _ {п} lt;\ infty}$

{\ displaystyle \ theta _ {n} - \ theta _ {0} = - \ sum _ {i = 0} ^ {n-1} \ varepsilon _ {i} H (\ theta _ {i}, X_ {i +1})}

{\ displaystyle \ theta _ {n} - \ theta _ {0} = - \ sum _ {i = 0} ^ {n-1} \ varepsilon _ {i} H (\ theta _ {i}, X_ {i +1})}

является ограниченной последовательностью, поэтому итерация не может сойтись, если первоначальная догадка слишком далека от нее. Что касается C3), обратите внимание, что если сходится к, то

{\ displaystyle \ theta ^ {*}}

{\ displaystyle \ theta ^ {*}}

{\ displaystyle \ theta _ {0}}

{\ displaystyle \ theta _ {0}}

{\ displaystyle \ theta ^ {*}}

{\ displaystyle \ theta ^ {*}}

{\ displaystyle \ theta _ {n}}

{\ displaystyle \ theta _ {n}}

{\ displaystyle \ theta ^ {*}}

{\ displaystyle \ theta ^ {*}}

{\ displaystyle \ theta _ {n + 1} - \ theta _ {n} = - \ varepsilon _ {n} H (\ theta _ {n}, X_ {n + 1}) \ rightarrow 0, {\ text { as}} n \ rightarrow \ infty.}

{\ displaystyle \ theta _ {n + 1} - \ theta _ {n} = - \ varepsilon _ {n} H (\ theta _ {n}, X_ {n + 1}) \ rightarrow 0, {\ text { as}} n \ rightarrow \ infty.}

поэтому мы должны иметь и условие C3) обеспечивает это. Естественный выбор был бы. Условие C5) является довольно жестким условием по форме ; он дает направление поиска алгоритма.

{\ displaystyle \ varepsilon _ {n} \ downarrow 0}

{\ displaystyle \ varepsilon _ {n} \ downarrow 0}

{\ displaystyle \ varepsilon _ {n} = 1 / n}

{\ displaystyle \ varepsilon _ {n} = 1 / n}

{\ Displaystyle г (\ тета)}

г (\ тета)

Пример (где подходит метод стохастического градиента)

Предположим, где дифференцируема и является случайной величиной, не зависящей от. Тогда зависит от среднего значения, и метод стохастического градиента будет подходящим в этой задаче. Мы можем выбрать ${\ Displaystyle Q (\ theta, X) = е (\ theta) + \ theta ^ {T} X}$ ${\ Displaystyle Q (\ theta, X) = е (\ theta) + \ theta ^ {T} X}$ ${\ displaystyle f}$ $ж$ ${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$ ${\ Displaystyle X \ in \ mathbb {R} ^ {p}}$ ${\ displaystyle \ theta}$ $\ theta$ ${\ displaystyle g (\ theta) = \ operatorname {E} [Q (\ theta, X)] = f (\ theta) + \ theta ^ {T} \ operatorname {E} X}$ ${\ displaystyle g (\ theta) = \ operatorname {E} [Q (\ theta, X)] = f (\ theta) + \ theta ^ {T} \ operatorname {E} X}$ ${\ displaystyle X}$ $Икс$ ${\ Displaystyle Н (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} f (\ тета) + X.}$ ${\ Displaystyle Н (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} Q (\ theta, X) = {\ frac {\ partial} {\ partial \ theta}} f (\ тета) + X.}$

Алгоритм Кифера – Вулфовица

Алгоритм Кифера – Вулфовица был введен в 1952 году Якобом Вулфовицем и Джеком Кифером и был мотивирован публикацией алгоритма Роббинса – Монро. Однако алгоритм был представлен как метод, который стохастически оценивает максимум функции. Позвольте быть функцией, которая имеет максимум в точке. Предполагается, что неизвестно; тем не менее, определенные наблюдения, где, могут быть сделаны в любой момент. Структура алгоритма соответствует градиентному методу, при этом итерации генерируются следующим образом: ${\ Displaystyle М (х)}$ $М (х)$ ${\ displaystyle \ theta}$ $\ theta$ ${\ Displaystyle М (х)}$ $М (х)$ ${\ Displaystyle N (х)}$ $N (х)$ ${\ Displaystyle \ OperatorName {E} [N (x)] = M (x)}$ ${\ Displaystyle \ OperatorName {E} [N (x)] = M (x)}$ ${\ displaystyle x}$ $Икс$

{\ Displaystyle x_ {n + 1} = x_ {n} + a_ {n} {\ bigg (} {\ frac {N (x_ {n} + c_ {n}) - N (x_ {n} -c_ { n})} {2c_ {n}}} {\ bigg)}}

{\ Displaystyle x_ {n + 1} = x_ {n} + a_ {n} {\ bigg (} {\ frac {N (x_ {n} + c_ {n}) - N (x_ {n} -c_ { n})} {2c_ {n}}} {\ bigg)}}

где и независимы, а градиент аппроксимируется конечными разностями. Последовательность определяет последовательность ширины конечной разности, используемую для приближения градиента, в то время как последовательность определяет последовательность положительных размеров шага, взятых вдоль этого направления. Кифер и Вулфовиц доказали, что если удовлетворяются определенные условия регулярности, то будет сходиться по вероятности, как, а позже Блюм в 1954 году показал, сходится к почти наверняка, при условии, что: ${\ Displaystyle N (x_ {n} + c_ {n})}$ ${\ Displaystyle N (x_ {n} + c_ {n})}$ ${\ Displaystyle N (x_ {n} -c_ {n})}$ ${\ Displaystyle N (x_ {n} -c_ {n})}$ ${\ Displaystyle М (х)}$ $М (х)$ ${\ displaystyle \ {c_ {n} \}}$ $\ {c_ {n} \}$ ${\ Displaystyle \ {а_ {п} \}}$ $\ {a_ {n} \}$ ${\ Displaystyle М (х)}$ $М (х)$ ${\ displaystyle x_ {n}}$ $x_ {n}$ ${\ displaystyle \ theta}$ $\ theta$ ${\ Displaystyle п \ к \ infty}$ ${\ Displaystyle п \ к \ infty}$ ${\ displaystyle x_ {n}}$ $x_ {n}$ ${\ displaystyle \ theta}$ $\ theta$

${\ Displaystyle \ OperatorName {Var} (N (x)) \ Leq S lt;\ infty}$ ${\ Displaystyle \ OperatorName {Var} (N (x)) \ Leq S lt;\ infty}$ для всех. ${\ displaystyle x}$ $Икс$
Функция имеет единственную точку максимума (минимума) и является сильно вогнутой (выпуклой). M ( Икс ) {\ Displaystyle М (х)}
- Алгоритм был впервые представлен с требованием, чтобы функция поддерживала сильную глобальную выпуклость (вогнутость) во всем допустимом пространстве. Учитывая, что это условие слишком ограничительно, чтобы накладывать его на всю область, Кифер и Вулфовиц предположили, что достаточно наложить условие на компактный набор, который, как известно, включает оптимальное решение. ${\ Displaystyle М (\ cdot)}$ ${\ Displaystyle М (\ cdot)}$ ${\ Displaystyle C_ {0} \ subset \ mathbb {R} ^ {d}}$ $C_ {0} \ subset {\ mathbb R} ^ {d}$
Функция удовлетворяет следующим условиям регулярности: M ( Икс ) {\ Displaystyle М (х)}
- Существует и такое, что ${\ displaystyle \ betagt; 0}$ $\ betagt; 0$ ${\ displaystyle Bgt; 0}$ $Bgt; 0$ ${\ displaystyle | x '- \ theta | + | x' '- \ theta | lt;\ beta \ quad \ Longrightarrow \ quad | M (x') - M (x '') | lt;B | x'-x ' '|}$ ${\ displaystyle | x '- \ theta | + | x' '- \ theta | lt;\ beta \ quad \ Longrightarrow \ quad | M (x') - M (x '') | lt;B | x'-x ' '|}$
- Существует и такое, что ${\ displaystyle \ rhogt; 0}$ ${\ displaystyle \ rhogt; 0}$ ${\ displaystyle Rgt; 0}$ ${\ displaystyle Rgt; 0}$ ${\ Displaystyle | x'-x '' | lt;\ rho \ quad \ Longrightarrow \ quad | M (x ') - M (x' ') | lt;R}$ ${\ Displaystyle | x'-x '' | lt;\ rho \ quad \ Longrightarrow \ quad | M (x ') - M (x' ') | lt;R}$
- Для каждого существует такое, что ${\ displaystyle \ deltagt; 0}$ $\ дельтаgt; 0$ ${\ Displaystyle \ пи (\ дельта)gt; 0}$ ${\ Displaystyle \ пи (\ дельта)gt; 0}$ ${\ displaystyle | z- \ theta |gt; \ delta \ quad \ Longrightarrow \ quad \ inf _ {\ delta / 2gt; \ varepsilongt; 0} {\ frac {| M (z + \ varepsilon) -M (z- \ varepsilon) |} {\ varepsilon}}gt; \ pi (\ delta)}$ ${\ displaystyle | z- \ theta |gt; \ delta \ quad \ Longrightarrow \ quad \ inf _ {\ delta / 2gt; \ varepsilongt; 0} {\ frac {| M (z + \ varepsilon) -M (z- \ varepsilon) |} {\ varepsilon}}gt; \ pi (\ delta)}$
Выбранные последовательности и должны быть бесконечными последовательностями положительных чисел, таких что { а п } {\ Displaystyle \ {а_ {п} \}} { c п } {\ displaystyle \ {c_ {n} \}}
- ${\ displaystyle \ quad c_ {n} \ rightarrow 0 \ quad {\ text {as}} \ quad n \ to \ infty}$ ${\ displaystyle \ quad c_ {n} \ rightarrow 0 \ quad {\ text {as}} \ quad n \ to \ infty}$
- ${\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} = \ infty}$ ${\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} = \ infty}$
- ${\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} c_ {n} lt;\ infty}$ ${\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} c_ {n} lt;\ infty}$
- ${\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} ^ {2} c_ {n} ^ {- 2} lt;\ infty}$ ${\ displaystyle \ sum _ {n = 0} ^ {\ infty} a_ {n} ^ {2} c_ {n} ^ {- 2} lt;\ infty}$

Подходящим выбором последовательностей, рекомендованным Кифером и Вулфовицем, будет и. ${\ displaystyle a_ {n} = 1 / n}$ $a_ {n} = 1 / n$ ${\ displaystyle c_ {n} = n ^ {- 1/3}}$ $c_ {n} = n ^ {{- 1/3}}$

Последующие события и важные вопросы

Алгоритм Кифера Вулфовица требует, чтобы для каждого вычисления градиента моделировались по крайней мере разные значения параметров для каждой итерации алгоритма, где - размерность пространства поиска. Это означает, что при большом размере алгоритм Кифера – Вулфовица потребует значительных вычислительных затрат на итерацию, что приведет к медленной сходимости. d + 1 {\ displaystyle d + 1} d {\ displaystyle d} d {\ displaystyle d}
1. Чтобы решить эту проблему, Сполл предложил использовать одновременные возмущения для оценки градиента. Этот метод потребует только двух симуляций на итерацию, независимо от размера. ${\ displaystyle d}$ $d$
В условиях, требуемых для сходимости, бывает трудно найти возможность указать заранее определенный компакт, который удовлетворяет сильной выпуклости (или вогнутости) и содержит уникальное решение. Что касается реальных приложений, если домен достаточно большой, эти предположения могут быть довольно ограничительными и в высшей степени нереалистичными.

Дальнейшие разработки

Вокруг этих алгоритмов выросла обширная теоретическая литература, касающаяся условий сходимости, скорости сходимости, многомерных и других обобщений, правильного выбора размера шага, возможных моделей шума и так далее. Эти методы также применяются в теории управления, и в этом случае неизвестная функция, которую мы хотим оптимизировать или найти ноль, может изменяться во времени. В этом случае размер шага не должен сходиться к нулю, но его следует выбирать так, чтобы отслеживать функцию. ^{, 2-е изд., Глава 3} ${\ displaystyle a_ {n}}$ $а_ {п}$

К. Йохан Масрелиес и Р. Дуглас Мартин были первыми, кто применил стохастическую аппроксимацию к робастному оцениванию.

Основным инструментом для анализа алгоритмов стохастических приближений (включая алгоритмы Роббинса – Монро и Кифера – Вулфовица) является теорема Арье Дворецки, опубликованная в трудах третьего симпозиума Беркли по математической статистике и вероятности в 1956 году.

Смотрите также

Стохастический градиентный спуск

Рекомендации