Обучение с подкреплением

редактировать

Обучение с подкреплением (RL) - это область машинного обучения, связанная с тем, как программные агенты должен предпринимать действия в среде, чтобы максимизировать понятие кумулятивного вознаграждения. Обучение с подкреплением - это одна из трех базовых парадигм машинного обучения, наряду с контролируемым обучением и неконтролируемым обучением.

Обучение с подкреплением отличается от контролируемого обучения тем, что не требует представления помеченных пар ввода / вывода и не требует неоптимальные действия, требующие явной корректировки. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и эксплуатацией (текущими знаниями).

Окружающая среда обычно описывается в форме марковского процесса принятия решений (MDP), потому что многие алгоритмы обучения с подкреплением для этого контекста используют методы динамического программирования. Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знания точной математической модели MDP и нацелены на большие MDP, где точные методы становятся невозможными.

Содержание

1 Введение
2 Исследование
3 Алгоритмы для обучения управления
- 3.1 Критерий оптимальности
  - 3.1.1 Политика
  - 3.1.2 Функция состояния-значения
- 3.2 Брутфорс
- 3.3 Функция значения
  - 3.3.1 Методы Монте-Карло
  - 3.3.2 Методы временной разницы
- 3.4 Прямой поиск политик
4 Теория
5 Исследования
6 Сравнение алгоритмов обучения с подкреплением
- 6.1 Глубокое обучение с подкреплением
- 6.2 Обратное обучение с подкреплением
- 6.3 Безопасное обучение с подкреплением
7 См. Также
8 Ссылки
9 Дополнительная литература
10 Внешние ссылки

Введение

Типичная структура обучения с подкреплением (RL) сценарий: агент выполняет действия в среде, что интерпретируется как вознаграждение и da представление состояния, которые передаются обратно в агент.

Из-за своей универсальности обучение с подкреплением изучается во многих дисциплинах, таких как теория игр, теория управления, исследование операций, теория информации, оптимизация на основе моделирования, многоагентные системы, разведка роя и статистика. В литературе по исследованию операций и контролю обучение с подкреплением называется приблизительным динамическим программированием или нейродинамическим программированием. Проблемы, представляющие интерес в обучении с подкреплением, также изучались в теории оптимального управления, которая в основном связана с существованием и характеристикой оптимальных решений и алгоритмов для их точного вычисления, и в меньшей степени с обучением или приближением., особенно при отсутствии математической модели окружающей среды. В экономике и теории игр обучение с подкреплением может использоваться для объяснения того, как может возникнуть равновесие при ограниченной рациональности.

Базовое подкрепление моделируется как марковский процесс принятия решений. (MDP) :

набор состояний среды и агента, S;
набор действий, A, агента;
$P a (s, s ') = Pr (st + 1 знак равно s ′ ∣ ст = s, at = a) {\ displaystyle P_ {a} (s, s ') = \ Pr (s_ {t + 1} = s' \ mid s_ {t} = s, a_ {t } = a)}$ $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ - вероятность перехода (в момент времени $t {\ displaystyle t}$ $t$ ) из состояния $s {\ displaystyle s}$ $s$ в состояние $s ′ {\ displaystyle s '}$ $s'$ под действием $a {\ displaystyle a}$ $a$ .
$R a (s, s ′) {\ displaystyle R_ {a} (s, s ')}$ $R_a(s,s')$ - немедленное вознаграждение после перехода с $s {\ displaystyle s}$ $s$ на $s ′ {\ displaystyle s'}$ $s'$ с действием $a {\ displaystyle a}$ $a$ .

Агент обучения с подкреплением взаимодействует со своей средой дискретными временными шагами. В каждый момент времени t агент получает текущее состояние $s t {\ displaystyle s_ {t}}$ $s_{t}$ и награждает $r t {\ displaystyle r_ {t}}$ $r_{t}$ . Затем он выбирает действие $a t {\ displaystyle a_ {t}}$ $a_{t}$ из набора доступных действий, которое впоследствии отправляется в среду. Среда переходит в новое состояние $st + 1 {\ displaystyle s_ {t + 1}}$ $s_{t+1}$ и награда $rt + 1 {\ displaystyle r_ {t + 1}}$ $r_{t+1}$ связанный с переходом $(st, at, st + 1) {\ displaystyle (s_ {t}, a_ {t}, s_ {t + 1})}$ $(s_{t},a_{t},s_{t+1})$ определен. Цель агента обучения с подкреплением - изучить политику: $π: A × S → [0, 1] {\ displaystyle \ pi: A \ times S \ rightarrow [0,1]}$ $\pi :A\times S\rightarrow [0,1]$ , $π ( a, s) знак равно Pr (at = a ∣ st = s) {\ displaystyle \ pi (a, s) = \ Pr (a_ {t} = a \ mid s_ {t} = s)}$ $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ который максимизирует ожидаемое совокупное вознаграждение.

Формулировка проблемы в виде MDP предполагает, что агент непосредственно наблюдает за текущим состоянием окружающей среды; в этом случае говорят, что проблема полностью наблюдаема. Если агент имеет доступ только к подмножеству состояний или наблюдаемые состояния искажены шумом, говорят, что агент имеет частичную наблюдаемость, и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений. В обоих случаях набор действий, доступных агенту, может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3, а переход состояния пытается уменьшить значение на 4, переход не будет разрешен.

Когда производительность агента сравнивается с производительностью агента, который действует оптимально, разница в производительности порождает понятие сожаление. Чтобы действовать почти оптимально, агент должен рассуждать о долгосрочных последствиях своих действий (то есть максимизировать будущий доход), хотя немедленное вознаграждение, связанное с этим, может быть отрицательным.

Таким образом, обучение с подкреплением особенно хорошо подходит для задач, которые включают долгосрочное и краткосрочное вознаграждение. Он успешно применяется для решения различных задач, включая управление роботом, планирование работы лифта, телекоммуникации, нарды, шашки и Go (AlphaGo. ).

Два элемента делают обучение с подкреплением мощным: использование примеров для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам обучение с подкреплением может использоваться в больших средах в следующих ситуациях:

Модель среды известна, но аналитическое решение недоступно;
Дана только имитационная модель окружающей среды (предмет оптимизации на основе моделирования );
Единственный способ собрать информацию об окружающей среде - это взаимодействовать с ней.

Первые две из этих проблем могут быть рассматривал проблемы планирования (поскольку доступна какая-то модель), в то время как последнюю можно рассматривать как настоящую проблему обучения. Однако обучение с подкреплением преобразует обе проблемы планирования в проблемы машинного обучения.

Исследование

Компромисс между разведкой и эксплуатацией был наиболее тщательно изучен с помощью проблемы многорукого бандита и для MDP в пространстве конечных состояний в Burnetas and Katehakis (1997).

Обучение с подкреплением требует умных механизмов исследования; простой выбор действий без ссылки на оценочное распределение вероятностей показывает низкую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются с количеством состояний (или масштабируются до проблем с бесконечными пространствами состояний), простые методы исследования являются наиболее практичными.

Одним из таких методов является $ε {\ displaystyle \ varepsilon}$ $\varepsilon$ -greedy, где $0 < ε < 1 {\displaystyle 0<\varepsilon <1}$ $0<\varepsilon <1$ - параметр, управляющий объемом разведки и эксплуатации. С вероятностью $1 - ε {\ displaystyle 1- \ varepsilon}$ $1-\varepsilon$ выбирается эксплуатация, и агент выбирает действие, которое, по его мнению, имеет лучший долгосрочный эффект (связи между действиями нарушаются равномерно наугад). В качестве альтернативы, с вероятностью $ε {\ displaystyle \ varepsilon}$ $\varepsilon$ выбирается разведка, и действие выбирается равномерно случайным образом. $ε {\ displaystyle \ varepsilon}$ $\varepsilon$ обычно является фиксированным параметром, но его можно настроить либо в соответствии с расписанием (что заставляет агента все меньше исследовать), либо адаптивно на основе эвристики.

Алгоритмы для управления обучением

Даже если пренебречь проблемой исследования и даже если состояние было наблюдаемым (предполагается в дальнейшем), остается проблема использовать прошлый опыт, чтобы выяснить, какие действия приводят к более высоким совокупным вознаграждениям.

Критерий оптимальности

Политика

Выбор действия агента моделируется как карта, называемая политикой:

π: A × S → [0, 1] {\ displaystyle \ pi: A \ times S \ rightarrow [0,1]}

\pi :A\times S\rightarrow [0,1]

π (a, s) = Pr (at = a ∣ st = s) {\ displaystyle \ pi (a, s) = \ Pr ( a_ {t} = a \ mid s_ {t} = s)}

\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)

Карта политик дает вероятность принятия действия $a {\ displaystyle a}$ $a$ в состоянии $s {\ displaystyle s}$ $s$ . Существуют также и не вероятностные политики.

Функция значения состояния

Функция значения $V π (s) {\ displaystyle V _ {\ pi} (s)}$ $V_{\pi }(s)$ определяется как ожидаемый результат начиная с состояния $s {\ displaystyle s}$ $s$ , т.е. $s 0 = s {\ displaystyle s_ {0} = s}$ $s_{0}=s$ , и последовательно следуя политике $π {\ displaystyle \ pi}$ $\pi$ . Следовательно, грубо говоря, функция цены оценивает, «насколько хорошо» находиться в данном состоянии.

V π (s) = E ⁡ [R] = E ⁡ [∑ t = 0 ∞ γ trt ∣ s 0 = s], {\ displaystyle V _ {\ pi} (s) = \ operatorname {E} [R] = \ operatorname {E} \ left [\ sum _ {t = 0} ^ {\ infty} \ gamma ^ { t} r_ {t} \ mid s_ {0} = s \ right],}

V_{\pi }(s)=\operatorname {E} [R]=\operatorname {E} \left[\sum _{t=0}^{\infty }\gamma ^{t}r_{t}\mid s_{0}=s\right],

где случайная величина $R {\ displaystyle R}$ $R$ обозначает return, и определяется как сумма будущих дисконтированных вознаграждений (гамма меньше 1, по мере того, как конкретное состояние становится старше, его влияние на более поздние состояния становится все меньше и меньше. Таким образом, мы дисконтируем его эффект).

R = ∑ T = 0 ∞ γ trt, {\ displaystyle R = \ sum _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ {t},}

R=\sum _{t=0}^{\infty }\gamma ^{t}r_{t},

где $rt {\ displaystyle r_ {t}}$ $r_{t}$ - награда на этапе $t {\ displaystyle t}$ $t$ , $γ ∈ [0, 1) {\ displaystyle \ gamma \ in [0,1)}$ $\gamma \in [0,1)$ - ставка дисконтирования.

Алгоритм должен найти политику с максимальной ожидаемой доходностью. Из теории MDP известно, что без потери общности поиск можно ограничить набором так называемых стационарных политик. Политика является стационарной, если возвращаемое ею распределение действий зависит только от последнего посещенного состояния (из истории агента наблюдения). В дальнейшем поиск может быть ограничен детерминированными стационарными политиками. Детерминированная стационарная политика детерминированно выбирает действия на основе текущего состояния. Поскольку любую такую политику можно идентифицировать с помощью отображения набора состояний в набор действий, эти политики можно идентифицировать с помощью таких отображений без потери общности.

Грубая сила

Метод грубой силы включает в себя два шага:

Для каждой возможной политики образец возвращается, следуя ей
Выберите политику с наибольшим ожидаемым доходом

Одна из проблем заключается в том, что количество политик может быть большим или даже бесконечным. Другой заключается в том, что разброс доходов может быть большим, что требует множества выборок для точной оценки доходности каждого полиса.

Эти проблемы можно решить, если предположить некоторую структуру и позволить выборкам, сгенерированным из одной политики, влиять на оценки, сделанные для других. Двумя основными подходами к достижению этого являются оценка функции значения и прямой поиск политики.

функция значения

Подходы функции значения пытаются найти политику, которая максимизирует отдачу, поддерживая набор оценок ожидаемых доходов для некоторой политики (обычно либо «текущей» [политики], либо оптимальной [вне политики]).

Эти методы основаны на теории MDP, где оптимальность определяется в более сильном смысле, чем приведенный выше: политика называется оптимальной, если она обеспечивает наилучший ожидаемый доход из любого начального состояния (т. Е. дистрибутивы не играют роли в этом определении). Опять же, среди стационарных политик всегда можно найти оптимальную политику.

Для определения оптимальности формальным образом определите значение политики $π {\ displaystyle \ pi}$ $\pi$ как

V π (s) = E [R ∣ s, π], {\ displaystyle V ^ {\ pi} (s) = E [R \ mid s, \ pi],}

V^{\pi }(s)=E[R\mid s,\pi ],

где $R {\ displaystyle R}$ $R$ стоит для возврата, связанного со следующим $π {\ displaystyle \ pi}$ $\pi$ из начального состояния $s {\ displaystyle s}$ $s$ . Определение $V ∗ (s) {\ displaystyle V ^ {*} (s)}$ $V^{*}(s)$ как максимально возможное значение $V π (s) {\ displaystyle V ^ {\ pi} (s)}$ $V^{\pi }(s)$ , где $π {\ displaystyle \ pi}$ $\pi$ разрешено изменять,

V ∗ (s) = max π V π (s). {\ displaystyle V ^ {*} (s) = \ max _ {\ pi} V ^ {\ pi} (s).}

V^{*}(s)=\max _{\pi }V^{\pi }(s).

Политика, которая достигает этих оптимальных значений в каждом состоянии, называется оптимальной. Ясно, что политика, оптимальная в этом строгом смысле, также оптимальна в том смысле, что она максимизирует ожидаемую прибыль $ρ π {\ displaystyle \ rho ^ {\ pi}}$ $\rho ^{\pi }$ , поскольку $ρ π знак равно E [V π (S)] {\ displaystyle \ rho ^ {\ pi} = E [V ^ {\ pi} (S)]}$ $\rho ^{\pi }=E[V^{\pi }(S)]$ , где $S {\ displaystyle S}$ $S$ - состояние, произвольно выбираемое из распределения $μ {\ displaystyle \ mu}$ $\mu$ .

Хотя значений состояния достаточно для определения оптимальности, полезно определять значения действий. Учитывая состояние $s {\ displaystyle s}$ $s$ , действие $a {\ displaystyle a}$ $a$ и политику $π {\ displaystyle \ pi}$ $\pi$ , действие-значение пары $(s, a) {\ displaystyle (s, a)}$ $(s,a)$ под $π {\ displaystyle \ pi}$ $\pi$ определяется как

Q π (s, a) = E ⁡ [R ∣ s, a, π], {\ displaystyle Q ^ {\ pi} (s, a) = \ operatorname {E} [ R \ mid s, a, \ pi], \,}

Q^{\pi }(s,a)=\operatorname {E} [R\mid s,a,\pi ],\,

где $R {\ displaystyle R}$ $R$ теперь обозначает случайный возврат, связанный с первым действием $a {\ displaystyle a}$ $a$ в состоянии $s {\ displaystyle s}$ $s$ и после $π {\ displaystyle \ pi}$ $\pi$ .

Согласно теории MDP, если $π ∗ {\ displaystyle \ pi ^ {*}}$ $\pi^*$ является оптимальной политикой, мы действуем оптимально (предпринимаем оптимальные действия), выбирая действие из $Q π ∗ (s, ⋅) {\ displaystyle Q ^ {\ pi ^ {*}} (s, \ cdot)}$ $Q^{\pi ^{*}}(s,\cdot)$ с наивысшим значением в каждом состоянии, $s {\ displaystyle s}$ $s$ . Функция ценности действия такой оптимальной политики ( $Q π ∗ {\ displaystyle Q ^ {\ pi ^ {*}}}$ $Q^{\pi ^{*}}$ ) называется функцией оптимальной ценности действия и обычно обозначается по $Q ∗ {\ displaystyle Q ^ {*}}$ $Q^{*}$ . Таким образом, одного знания оптимальной функции действия и ценности достаточно, чтобы знать, как действовать оптимально.

Предполагая полное знание MDP, два основных подхода к вычислению оптимальной функции значения действия - это итерация значения и итерация политики. Оба алгоритма вычисляют последовательность функций $Q k {\ displaystyle Q_ {k}}$ $Q_{k}$ ( $k = 0, 1, 2,… {\ displaystyle k = 0,1,2, \ ldots}$ $k=0,1,2,\ldots$ ), которые сходятся к $Q ∗ {\ displaystyle Q ^ {*}}$ $Q^{*}$ . Вычисление этих функций включает в себя вычисление ожиданий по всему пространству состояний, что непрактично для всех, кроме самых маленьких (конечных) MDP. В методах обучения с подкреплением ожидания аппроксимируются усреднением по выборкам и использованием методов аппроксимации функций, чтобы справиться с необходимостью представления функций ценности в больших пространствах состояния и действия.

Методы Монте-Карло

Методы Монте-Карло могут использоваться в алгоритме, имитирующем итерацию политики. Итерация политики состоит из двух этапов: оценка политики и улучшение политики.

Монте-Карло используется на этапе оценки политики. На этом этапе, учитывая стационарную детерминированную политику $π {\ displaystyle \ pi}$ $\pi$ , цель состоит в том, чтобы вычислить значения функции $Q π (s, a) {\ displaystyle Q ^ {\ pi} (s, a)}$ $Q^{\pi }(s,a)$ (или хорошее приближение к ним) для всех пар состояние-действие $(s, a) {\ displaystyle (s, a)}$ $(s,a)$ . Предположим (для простоты), что MDP конечен, что имеется достаточно памяти для размещения значений действий и что проблема носит эпизодический характер и после каждого эпизода новый начинается с некоторого случайного начального состояния. Затем оценка значения данной пары состояние-действие $(s, a) {\ displaystyle (s, a)}$ $(s,a)$ может быть вычислена путем усреднения выборочных результатов, полученных из $(s, a) {\ displaystyle (s, a)}$ $(s,a)$ с течением времени. Таким образом, при наличии достаточного времени эта процедура может построить точную оценку $Q {\ displaystyle Q}$ $Q$ функции значения действия $Q π {\ displaystyle Q ^ {\ pi}}$ $Q^{\pi }$ . На этом завершается описание этапа оценки политики.

На этапе улучшения политики следующая политика получается путем вычисления жадной политики в отношении $Q {\ displaystyle Q}$ $Q$ : задано состояние $s {\ displaystyle s}$ $s$ , эта новая политика возвращает действие, которое максимизирует $Q (s, ⋅) {\ displaystyle Q (s, \ cdot)}$ $Q(s,\cdot)$ . На практике ленивое вычисление может отложить вычисление максимизирующих действий до того момента, когда они потребуются.

Проблемы с этой процедурой включают:

Процедура может тратить слишком много времени на оценку неоптимальной политики.
Она неэффективно использует выборки, так как длинная траектория улучшает оценку только одного состояния - пара действий, которая начала траекторию.
Когда возврат по траекториям имеет большое отклонение, сходимость медленная.
Это работает только в эпизодических проблемах ;
Он работает только в небольших конечных MDP.

Методы временного различия

Первая проблема исправляется, позволяя процедуре изменять политику (в некоторых или во всех состояниях) до того, как значения установятся. Это тоже может быть проблематичным, поскольку может помешать сближению. Большинство современных алгоритмов делают это, давая начало классу обобщенных алгоритмов итерации политики. К этой категории относятся многие методы актерской критики.

Вторую проблему можно исправить, разрешив траекториям вносить вклад в любую пару состояние-действие в них. Это также может в некоторой степени помочь с третьей проблемой, хотя лучшее решение, когда доходность имеет высокую дисперсию, - это методы Саттона временной разницы (TD), основанные на рекурсивном уравнении Беллмана. Вычисление в методах TD может быть инкрементным (когда после каждого перехода память изменяется и переход отбрасывается) или пакетным (когда переходы группируются и оценки вычисляются один раз на основе пакета). Пакетные методы, такие как метод наименьших квадратов временной разности, могут лучше использовать информацию в выборках, в то время как инкрементные методы являются единственным выбором, когда пакетные методы невозможны из-за их высокой вычислительной сложности или сложности памяти. Некоторые методы пытаются объединить два подхода. Методы, основанные на временных различиях, также решают четвертую проблему.

Для решения пятой проблемы используются методы аппроксимации функций. Приближение линейной функции начинается с отображения $ϕ {\ displaystyle \ phi}$ $\phi$ , которое назначает конечномерный вектор каждой паре состояние-действие. Затем значения действия пары состояние-действие $(s, a) {\ displaystyle (s, a)}$ $(s,a)$ получаются путем линейного объединения компонентов $ϕ (s, a) {\ displaystyle \ phi (s, a)}$ $\phi (s,a)$ с некоторыми весами $θ {\ displaystyle \ theta}$ $\theta$ :

Q (s, a) = ∑ i = 1 d θ i ϕ i (с, а). {\ displaystyle Q (s, a) = \ sum _ {i = 1} ^ {d} \ theta _ {i} \ phi _ {i} (s, a).}

Q(s,a)=\sum _{i=1}^{d}\theta _{i}\phi _{i}(s,a).

Затем алгоритмы корректируют веса вместо корректировки значений, связанных с отдельными парами состояние-действие. Были исследованы методы, основанные на идеях из непараметрической статистики (которые можно увидеть для построения собственных функций).

Итерация значений также может использоваться в качестве отправной точки, что дает начало алгоритму Q-Learning и его многочисленным вариантам.

Проблема с использованием значений действий заключается в что им могут потребоваться очень точные оценки значений конкурирующих действий, которые может быть трудно получить, когда доходы зашумлены, хотя эта проблема в некоторой степени смягчается методами временной разницы. Использование так называемого метода аппроксимации совместимых функций ставит под угрозу общность и эффективность. Другая проблема, характерная для TD, связана с их опорой на рекурсивное уравнение Беллмана. Большинство методов TD имеют так называемый параметр $λ {\ displaystyle \ lambda}$ $\lambda$ $(0 ≤ λ ≤ 1) {\ displaystyle (0 \ leq \ lambda \ leq 1)}$ $(0\leq \lambda \leq 1)$ , который может непрерывно интерполировать между методами Монте-Карло, не основанными на уравнениях Беллмана, и основными методами TD, которые полностью полагаются на уравнения Беллмана. Это может быть эффективным средством решения этой проблемы.

Прямой поиск политики

Альтернативным методом является поиск непосредственно в (некотором подмножестве) пространства политики, и в этом случае проблема становится случаем стохастической оптимизации. Доступны два подхода: методы на основе градиента и методы без градиента.

Основанные на градиенте методы (методы градиента политики) начинаются с отображения из конечномерного пространства (параметров) в пространство политик: с учетом вектора параметров $θ {\ displaystyle \ theta}$ $\theta$ , пусть $π θ {\ displaystyle \ pi _ {\ theta}}$ $\pi _{\theta }$ обозначает политику, связанную с $θ {\ displaystyle \ theta}$ $\theta$ . Определение функции производительности как

ρ (θ) = ρ π θ, {\ displaystyle \ rho (\ theta) = \ rho ^ {\ pi _ {\ theta}},}

\rho (\theta)=\rho ^{\pi _{\theta }},

в мягких условиях эта функция будет быть дифференцируемым как функция вектора параметров $θ {\ displaystyle \ theta}$ $\theta$ . Если градиент $ρ {\ displaystyle \ rho}$ $\rho$ был известен, можно было бы использовать градиентный подъем. Поскольку аналитическое выражение для градиента недоступно, доступна только зашумленная оценка. Такая оценка может быть построена разными способами, что приводит к появлению таких алгоритмов, как метод REINFORCE Уильямса (который известен как метод отношения правдоподобия в литературе по оптимизации на основе моделирования ). Методы поиска политики использовались в контексте робототехники. Многие методы поиска политики могут застрять в локальных оптимумах (так как они основаны на локальном поиске ).

Большой класс методов позволяет избежать использования информации о градиенте. К ним относятся моделирование отжига, кросс-энтропийный поиск или методы эволюционных вычислений. Многие безградиентные методы могут достичь (теоретически и в пределе) глобального оптимума.

Методы поиска политики могут медленно сходиться при наличии зашумленных данных. Например, это происходит в эпизодических задачах, когда траектории длинные и разброс доходностей велик. В этом случае могут помочь методы, основанные на функциях значений, которые полагаются на временные различия. В последние годы были предложены методы «субъект – критик», которые хорошо себя зарекомендовали при решении различных задач.

Теория

Как асимптотическое, так и основанное на конечной выборке поведение большинства алгоритмов хорошо изучено. Известны алгоритмы с доказуемо хорошей производительностью в сети (решающие проблему исследования).

Эффективное исследование MDP дано в Burnetas and Katehakis (1997). Ограничения производительности за конечное время также появились для многих алгоритмов, но ожидается, что эти границы будут довольно неопределенными, и, следовательно, потребуется дополнительная работа, чтобы лучше понять относительные преимущества и ограничения.

Для инкрементальных алгоритмов проблемы асимптотической сходимости решены. Алгоритмы, основанные на временных различиях, сходятся при более широком наборе условий, чем это было возможно ранее (например, при использовании с произвольным приближением гладких функций).

Исследования

Темы исследований включают

адаптивные методы, которые работают с меньшим количеством параметров (или без них) в большом количестве условий
, решая проблему исследования в больших MDP
комбинации с основанными на логике структурами
крупномасштабные эмпирические оценки
обучение и действия в соответствии с частичной информацией (например, с использованием прогнозируемого представления состояния )
модульное и иерархическое обучение с подкреплением
улучшение существующих методов поиска по функциям ценности и политике
алгоритмы, которые хорошо работают с большими (или непрерывными) пространствами действий
переносное обучение
на протяжении всей жизни обучение
эффективное планирование на основе выборки (например, на основе поиска по дереву Монте-Карло ).
обнаружение ошибок в проектах программного обеспечения
Внутренняя мотивация, которая отличает поиск информации и поведение типа любопытства от целенаправленного поведения, зависящего от задачи (как правило), путем введения функции вознаграждения, основанной на максимальном использовании новой информации на
Когнитивное моделирование с использованием обучения с подкреплением активно исследуется в вычислительной психологии
Многоагентное или распределенное обучение с подкреплением представляет интерес. Применения расширяются.
Обучение с подкреплением между актерами и критиками
Алгоритмы обучения с подкреплением, такие как TD-обучение, исследуются в качестве модели для обучения мозга на основе дофамина. В этой модели дофаминергические проекции из черной субстанции в базальные ганглии действуют как ошибка предсказания. Обучение с подкреплением использовалось как часть модели обучения человеческим навыкам, особенно в отношении взаимодействия между неявным и явным обучением при приобретении навыков (первая публикация этого приложения была в 1995–1996 гг.).

Сравнение подкрепления алгоритмы обучения

Алгоритм	Описание	Модель	Политика	Пространство действий	Пространство состояний	Оператор
Монте-Карло	Каждое посещение Монте-Карло	Без моделей	Либо	Дискретный	Дискретный	Образцы-средства
Q -обучение	Состояние – действие – вознаграждение – состояние	Без модели	Вне политики	Дискретный	Дискретный	Q-значение
SARSA	Состояние– действие– награда– состояние– действие	Модель-Бесплатно	Политика	Дискретный	Дискретное	Q-значение
Q-обучение - Лямбда	Состояние – действие – вознаграждение – состояние с трассировками соответствия	Без модели	Вне политики	Дискретный	Диск rete	Q-value
SARSA - Lambda	Состояние – действие – вознаграждение – состояние – действие со следами соответствия критериям	Без модели	В соответствии с политикой	Дискретный	Дискретный	Q-value
DQN	Deep Q Network	Без модели	Off-policy	Discrete	Continuous	Q-value
DDPG	Глубокий детерминированный градиент политики	Модель -Free	Off-policy	Continuous	Continuous	Q-value
A3C	Асинхронный алгоритм Advantage Actor-Critic	Model-Free	On-policy	Continuous	Continuous	Advantage
NAF	Q -Обучение с нормализованными функциями преимущества	Без модели	вне политики	Непрерывное	Непрерывное	Преимущество
TRPO	Оптимизация политики доверительной области	Без модели	В соответствии с политикой	Непрерывный	Непрерывный	Преимущество
	Оптимизация проксимальной политики	Мод el-Free	On-policy	Continuous	Continuous	Advantage
TD3	Twin Delayed Deep Deterministic Policy Gradient	Без модели	Вне политики	Непрерывный	Непрерывный	Q-value
SAC	Soft Actor-Critic	Model-Free	Off-policy	Continuous	Continuous	Advantage

Глубокое обучение с подкреплением

Этот подход расширяет возможности обучения с подкреплением за счет использования глубокой нейронной сети без явного проектирования пространства состояний. Работа Google по изучению игр ATARI DeepMind привлекла внимание к глубокому обучению с подкреплением или сквозному обучению с подкреплением.

обратному обучению с подкреплением

В обучении с обратным подкреплением (IRL) функция вознаграждения отсутствует. Вместо этого функция вознаграждения выводится на основе наблюдаемого поведения эксперта. Идея состоит в том, чтобы имитировать наблюдаемое поведение, которое часто является оптимальным или близким к оптимальному.

Безопасное обучение с подкреплением

Безопасное обучение с подкреплением (SRL) можно определить как процесс обучения политикам, которые максимизируют ожидание возврата при проблемах, в которых важно обеспечить разумную производительность системы и / или соблюдать ограничения безопасности во время процессов обучения и / или развертывания.

См. также

Ссылки

Дополнительная литература

Ауэр, Питер ; Якш, Томас; Ортнер, Рональд (2010). «Почти оптимальные границы сожаления для обучения с подкреплением». Журнал исследований машинного обучения. 11 : 1563–1600.
Бузониу, Лучиан; Бабушка, Роберт; Де Шуттер, Барт ; Эрнст, Дэмиен (2010). Обучение с подкреплением и динамическое программирование с использованием аппроксиматоров функций. Тейлор и Фрэнсис CRC Press. ISBN 978-1-4398-2108-4.
Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Bellemare, Marc G.; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении. 11 (3–4): 219–354. arXiv : 1811.12560. Bibcode : 2018arXiv181112560F. doi : 10.1561 / 2200000071. S2CID 54434537.
Пауэлл, Уоррен (2007). Приближенное динамическое программирование: решение проклятия размерности. Wiley-Interscience. ISBN 978-0-470-17155-4.
Саттон, Ричард С. ; Барто, Эндрю Г. (1998). Обучение с подкреплением: Введение. MIT Press. ISBN 978-0-262-19398-6.
Саттон, Ричард С. (1988). «Учимся предсказывать методом временных разностей». Машинное обучение. 3 : 9–44. doi : 10.1007 / BF00115009.
Сита, Иштван; Сепесвари, Чаба (2010). «Обучение с подкреплением на основе моделей с почти жесткими границами сложности исследования» (PDF). ICML 2010. Omnipress. С. 1031–1038. Archived from the original (PDF) on 2010-07-14.

External links

Reinforcement Learning Repository
Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta )
Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst )
Hybrid reinforcement learning
Real-world reinforcement learning experiments at Delft University of Technology
Stanford University Andrew Ng Lecture on Reinforcement Learning
Dissecting Reinforcement Learning Series of blog post on RL with Python code