Обучение с подкреплением (RL) - это область машинного обучения, связанная с тем, как программные агенты должен предпринимать действия в среде, чтобы максимизировать понятие кумулятивного вознаграждения. Обучение с подкреплением - это одна из трех базовых парадигм машинного обучения, наряду с контролируемым обучением и неконтролируемым обучением.
Обучение с подкреплением отличается от контролируемого обучения тем, что не требует представления помеченных пар ввода / вывода и не требует неоптимальные действия, требующие явной корректировки. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и эксплуатацией (текущими знаниями).
Окружающая среда обычно описывается в форме марковского процесса принятия решений (MDP), потому что многие алгоритмы обучения с подкреплением для этого контекста используют методы динамического программирования. Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знания точной математической модели MDP и нацелены на большие MDP, где точные методы становятся невозможными.
Из-за своей универсальности обучение с подкреплением изучается во многих дисциплинах, таких как теория игр, теория управления, исследование операций, теория информации, оптимизация на основе моделирования, многоагентные системы, разведка роя и статистика. В литературе по исследованию операций и контролю обучение с подкреплением называется приблизительным динамическим программированием или нейродинамическим программированием. Проблемы, представляющие интерес в обучении с подкреплением, также изучались в теории оптимального управления, которая в основном связана с существованием и характеристикой оптимальных решений и алгоритмов для их точного вычисления, и в меньшей степени с обучением или приближением., особенно при отсутствии математической модели окружающей среды. В экономике и теории игр обучение с подкреплением может использоваться для объяснения того, как может возникнуть равновесие при ограниченной рациональности.
Базовое подкрепление моделируется как марковский процесс принятия решений. (MDP) :
Агент обучения с подкреплением взаимодействует со своей средой дискретными временными шагами. В каждый момент времени t агент получает текущее состояние и награждает . Затем он выбирает действие из набора доступных действий, которое впоследствии отправляется в среду. Среда переходит в новое состояние и награда связанный с переходом определен. Цель агента обучения с подкреплением - изучить политику: , который максимизирует ожидаемое совокупное вознаграждение.
Формулировка проблемы в виде MDP предполагает, что агент непосредственно наблюдает за текущим состоянием окружающей среды; в этом случае говорят, что проблема полностью наблюдаема. Если агент имеет доступ только к подмножеству состояний или наблюдаемые состояния искажены шумом, говорят, что агент имеет частичную наблюдаемость, и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений. В обоих случаях набор действий, доступных агенту, может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3, а переход состояния пытается уменьшить значение на 4, переход не будет разрешен.
Когда производительность агента сравнивается с производительностью агента, который действует оптимально, разница в производительности порождает понятие сожаление. Чтобы действовать почти оптимально, агент должен рассуждать о долгосрочных последствиях своих действий (то есть максимизировать будущий доход), хотя немедленное вознаграждение, связанное с этим, может быть отрицательным.
Таким образом, обучение с подкреплением особенно хорошо подходит для задач, которые включают долгосрочное и краткосрочное вознаграждение. Он успешно применяется для решения различных задач, включая управление роботом, планирование работы лифта, телекоммуникации, нарды, шашки и Go (AlphaGo. ).
Два элемента делают обучение с подкреплением мощным: использование примеров для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам обучение с подкреплением может использоваться в больших средах в следующих ситуациях:
Первые две из этих проблем могут быть рассматривал проблемы планирования (поскольку доступна какая-то модель), в то время как последнюю можно рассматривать как настоящую проблему обучения. Однако обучение с подкреплением преобразует обе проблемы планирования в проблемы машинного обучения.
Компромисс между разведкой и эксплуатацией был наиболее тщательно изучен с помощью проблемы многорукого бандита и для MDP в пространстве конечных состояний в Burnetas and Katehakis (1997).
Обучение с подкреплением требует умных механизмов исследования; простой выбор действий без ссылки на оценочное распределение вероятностей показывает низкую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются с количеством состояний (или масштабируются до проблем с бесконечными пространствами состояний), простые методы исследования являются наиболее практичными.
Одним из таких методов является -greedy, где - параметр, управляющий объемом разведки и эксплуатации. С вероятностью выбирается эксплуатация, и агент выбирает действие, которое, по его мнению, имеет лучший долгосрочный эффект (связи между действиями нарушаются равномерно наугад). В качестве альтернативы, с вероятностью выбирается разведка, и действие выбирается равномерно случайным образом. обычно является фиксированным параметром, но его можно настроить либо в соответствии с расписанием (что заставляет агента все меньше исследовать), либо адаптивно на основе эвристики.
Даже если пренебречь проблемой исследования и даже если состояние было наблюдаемым (предполагается в дальнейшем), остается проблема использовать прошлый опыт, чтобы выяснить, какие действия приводят к более высоким совокупным вознаграждениям.
Выбор действия агента моделируется как карта, называемая политикой:
Карта политик дает вероятность принятия действия в состоянии . Существуют также и не вероятностные политики.
Функция значения определяется как ожидаемый результат начиная с состояния , т.е. , и последовательно следуя политике . Следовательно, грубо говоря, функция цены оценивает, «насколько хорошо» находиться в данном состоянии.
где случайная величина обозначает return, и определяется как сумма будущих дисконтированных вознаграждений (гамма меньше 1, по мере того, как конкретное состояние становится старше, его влияние на более поздние состояния становится все меньше и меньше. Таким образом, мы дисконтируем его эффект).
где - награда на этапе , - ставка дисконтирования.
Алгоритм должен найти политику с максимальной ожидаемой доходностью. Из теории MDP известно, что без потери общности поиск можно ограничить набором так называемых стационарных политик. Политика является стационарной, если возвращаемое ею распределение действий зависит только от последнего посещенного состояния (из истории агента наблюдения). В дальнейшем поиск может быть ограничен детерминированными стационарными политиками. Детерминированная стационарная политика детерминированно выбирает действия на основе текущего состояния. Поскольку любую такую политику можно идентифицировать с помощью отображения набора состояний в набор действий, эти политики можно идентифицировать с помощью таких отображений без потери общности.
Метод грубой силы включает в себя два шага:
Одна из проблем заключается в том, что количество политик может быть большим или даже бесконечным. Другой заключается в том, что разброс доходов может быть большим, что требует множества выборок для точной оценки доходности каждого полиса.
Эти проблемы можно решить, если предположить некоторую структуру и позволить выборкам, сгенерированным из одной политики, влиять на оценки, сделанные для других. Двумя основными подходами к достижению этого являются оценка функции значения и прямой поиск политики.
Подходы функции значения пытаются найти политику, которая максимизирует отдачу, поддерживая набор оценок ожидаемых доходов для некоторой политики (обычно либо «текущей» [политики], либо оптимальной [вне политики]).
Эти методы основаны на теории MDP, где оптимальность определяется в более сильном смысле, чем приведенный выше: политика называется оптимальной, если она обеспечивает наилучший ожидаемый доход из любого начального состояния (т. Е. дистрибутивы не играют роли в этом определении). Опять же, среди стационарных политик всегда можно найти оптимальную политику.
Для определения оптимальности формальным образом определите значение политики как
где стоит для возврата, связанного со следующим из начального состояния . Определение как максимально возможное значение , где разрешено изменять,
Политика, которая достигает этих оптимальных значений в каждом состоянии, называется оптимальной. Ясно, что политика, оптимальная в этом строгом смысле, также оптимальна в том смысле, что она максимизирует ожидаемую прибыль , поскольку , где - состояние, произвольно выбираемое из распределения .
Хотя значений состояния достаточно для определения оптимальности, полезно определять значения действий. Учитывая состояние , действие и политику , действие-значение пары под определяется как
где теперь обозначает случайный возврат, связанный с первым действием в состоянии и после .
Согласно теории MDP, если является оптимальной политикой, мы действуем оптимально (предпринимаем оптимальные действия), выбирая действие из с наивысшим значением в каждом состоянии, . Функция ценности действия такой оптимальной политики () называется функцией оптимальной ценности действия и обычно обозначается по . Таким образом, одного знания оптимальной функции действия и ценности достаточно, чтобы знать, как действовать оптимально.
Предполагая полное знание MDP, два основных подхода к вычислению оптимальной функции значения действия - это итерация значения и итерация политики. Оба алгоритма вычисляют последовательность функций (), которые сходятся к . Вычисление этих функций включает в себя вычисление ожиданий по всему пространству состояний, что непрактично для всех, кроме самых маленьких (конечных) MDP. В методах обучения с подкреплением ожидания аппроксимируются усреднением по выборкам и использованием методов аппроксимации функций, чтобы справиться с необходимостью представления функций ценности в больших пространствах состояния и действия.
Методы Монте-Карло могут использоваться в алгоритме, имитирующем итерацию политики. Итерация политики состоит из двух этапов: оценка политики и улучшение политики.
Монте-Карло используется на этапе оценки политики. На этом этапе, учитывая стационарную детерминированную политику , цель состоит в том, чтобы вычислить значения функции (или хорошее приближение к ним) для всех пар состояние-действие . Предположим (для простоты), что MDP конечен, что имеется достаточно памяти для размещения значений действий и что проблема носит эпизодический характер и после каждого эпизода новый начинается с некоторого случайного начального состояния. Затем оценка значения данной пары состояние-действие может быть вычислена путем усреднения выборочных результатов, полученных из с течением времени. Таким образом, при наличии достаточного времени эта процедура может построить точную оценку функции значения действия . На этом завершается описание этапа оценки политики.
На этапе улучшения политики следующая политика получается путем вычисления жадной политики в отношении : задано состояние , эта новая политика возвращает действие, которое максимизирует . На практике ленивое вычисление может отложить вычисление максимизирующих действий до того момента, когда они потребуются.
Проблемы с этой процедурой включают:
Первая проблема исправляется, позволяя процедуре изменять политику (в некоторых или во всех состояниях) до того, как значения установятся. Это тоже может быть проблематичным, поскольку может помешать сближению. Большинство современных алгоритмов делают это, давая начало классу обобщенных алгоритмов итерации политики. К этой категории относятся многие методы актерской критики.
Вторую проблему можно исправить, разрешив траекториям вносить вклад в любую пару состояние-действие в них. Это также может в некоторой степени помочь с третьей проблемой, хотя лучшее решение, когда доходность имеет высокую дисперсию, - это методы Саттона временной разницы (TD), основанные на рекурсивном уравнении Беллмана. Вычисление в методах TD может быть инкрементным (когда после каждого перехода память изменяется и переход отбрасывается) или пакетным (когда переходы группируются и оценки вычисляются один раз на основе пакета). Пакетные методы, такие как метод наименьших квадратов временной разности, могут лучше использовать информацию в выборках, в то время как инкрементные методы являются единственным выбором, когда пакетные методы невозможны из-за их высокой вычислительной сложности или сложности памяти. Некоторые методы пытаются объединить два подхода. Методы, основанные на временных различиях, также решают четвертую проблему.
Для решения пятой проблемы используются методы аппроксимации функций. Приближение линейной функции начинается с отображения , которое назначает конечномерный вектор каждой паре состояние-действие. Затем значения действия пары состояние-действие получаются путем линейного объединения компонентов с некоторыми весами :
Затем алгоритмы корректируют веса вместо корректировки значений, связанных с отдельными парами состояние-действие. Были исследованы методы, основанные на идеях из непараметрической статистики (которые можно увидеть для построения собственных функций).
Итерация значений также может использоваться в качестве отправной точки, что дает начало алгоритму Q-Learning и его многочисленным вариантам.
Проблема с использованием значений действий заключается в что им могут потребоваться очень точные оценки значений конкурирующих действий, которые может быть трудно получить, когда доходы зашумлены, хотя эта проблема в некоторой степени смягчается методами временной разницы. Использование так называемого метода аппроксимации совместимых функций ставит под угрозу общность и эффективность. Другая проблема, характерная для TD, связана с их опорой на рекурсивное уравнение Беллмана. Большинство методов TD имеют так называемый параметр , который может непрерывно интерполировать между методами Монте-Карло, не основанными на уравнениях Беллмана, и основными методами TD, которые полностью полагаются на уравнения Беллмана. Это может быть эффективным средством решения этой проблемы.
Альтернативным методом является поиск непосредственно в (некотором подмножестве) пространства политики, и в этом случае проблема становится случаем стохастической оптимизации. Доступны два подхода: методы на основе градиента и методы без градиента.
Основанные на градиенте методы (методы градиента политики) начинаются с отображения из конечномерного пространства (параметров) в пространство политик: с учетом вектора параметров , пусть обозначает политику, связанную с . Определение функции производительности как
в мягких условиях эта функция будет быть дифференцируемым как функция вектора параметров . Если градиент был известен, можно было бы использовать градиентный подъем. Поскольку аналитическое выражение для градиента недоступно, доступна только зашумленная оценка. Такая оценка может быть построена разными способами, что приводит к появлению таких алгоритмов, как метод REINFORCE Уильямса (который известен как метод отношения правдоподобия в литературе по оптимизации на основе моделирования ). Методы поиска политики использовались в контексте робототехники. Многие методы поиска политики могут застрять в локальных оптимумах (так как они основаны на локальном поиске ).
Большой класс методов позволяет избежать использования информации о градиенте. К ним относятся моделирование отжига, кросс-энтропийный поиск или методы эволюционных вычислений. Многие безградиентные методы могут достичь (теоретически и в пределе) глобального оптимума.
Методы поиска политики могут медленно сходиться при наличии зашумленных данных. Например, это происходит в эпизодических задачах, когда траектории длинные и разброс доходностей велик. В этом случае могут помочь методы, основанные на функциях значений, которые полагаются на временные различия. В последние годы были предложены методы «субъект – критик», которые хорошо себя зарекомендовали при решении различных задач.
Как асимптотическое, так и основанное на конечной выборке поведение большинства алгоритмов хорошо изучено. Известны алгоритмы с доказуемо хорошей производительностью в сети (решающие проблему исследования).
Эффективное исследование MDP дано в Burnetas and Katehakis (1997). Ограничения производительности за конечное время также появились для многих алгоритмов, но ожидается, что эти границы будут довольно неопределенными, и, следовательно, потребуется дополнительная работа, чтобы лучше понять относительные преимущества и ограничения.
Для инкрементальных алгоритмов проблемы асимптотической сходимости решены. Алгоритмы, основанные на временных различиях, сходятся при более широком наборе условий, чем это было возможно ранее (например, при использовании с произвольным приближением гладких функций).
Темы исследований включают
Алгоритм | Описание | Модель | Политика | Пространство действий | Пространство состояний | Оператор |
---|---|---|---|---|---|---|
Монте-Карло | Каждое посещение Монте-Карло | Без моделей | Либо | Дискретный | Дискретный | Образцы-средства |
Q -обучение | Состояние – действие – вознаграждение – состояние | Без модели | Вне политики | Дискретный | Дискретный | Q-значение |
SARSA | Состояние– действие– награда– состояние– действие | Модель-Бесплатно | Политика | Дискретный | Дискретное | Q-значение |
Q-обучение - Лямбда | Состояние – действие – вознаграждение – состояние с трассировками соответствия | Без модели | Вне политики | Дискретный | Диск rete | Q-value |
SARSA - Lambda | Состояние – действие – вознаграждение – состояние – действие со следами соответствия критериям | Без модели | В соответствии с политикой | Дискретный | Дискретный | Q-value |
DQN | Deep Q Network | Без модели | Off-policy | Discrete | Continuous | Q-value |
DDPG | Глубокий детерминированный градиент политики | Модель -Free | Off-policy | Continuous | Continuous | Q-value |
A3C | Асинхронный алгоритм Advantage Actor-Critic | Model-Free | On-policy | Continuous | Continuous | Advantage |
NAF | Q -Обучение с нормализованными функциями преимущества | Без модели | вне политики | Непрерывное | Непрерывное | Преимущество |
TRPO | Оптимизация политики доверительной области | Без модели | В соответствии с политикой | Непрерывный | Непрерывный | Преимущество |
Оптимизация проксимальной политики | Мод el-Free | On-policy | Continuous | Continuous | Advantage | |
TD3 | Twin Delayed Deep Deterministic Policy Gradient | Без модели | Вне политики | Непрерывный | Непрерывный | Q-value |
SAC | Soft Actor-Critic | Model-Free | Off-policy | Continuous | Continuous | Advantage |
Этот подход расширяет возможности обучения с подкреплением за счет использования глубокой нейронной сети без явного проектирования пространства состояний. Работа Google по изучению игр ATARI DeepMind привлекла внимание к глубокому обучению с подкреплением или сквозному обучению с подкреплением.
В обучении с обратным подкреплением (IRL) функция вознаграждения отсутствует. Вместо этого функция вознаграждения выводится на основе наблюдаемого поведения эксперта. Идея состоит в том, чтобы имитировать наблюдаемое поведение, которое часто является оптимальным или близким к оптимальному.
Безопасное обучение с подкреплением (SRL) можно определить как процесс обучения политикам, которые максимизируют ожидание возврата при проблемах, в которых важно обеспечить разумную производительность системы и / или соблюдать ограничения безопасности во время процессов обучения и / или развертывания.