Обучение временной разнице

редактировать

Разница во времени (TD) обучение относится к классу безмодельные методы обучения с подкреплением, которые обучаются посредством начальной загрузки из текущей оценки функции ценности. Эти методы выбирают из среды, как методы Монте-Карло, и выполняют обновления на основе текущих оценок, как методы динамического программирования.

В то время как методы Монте-Карло только корректируют свои оценивает, как только окончательный результат известен, методы TD корректируют прогнозы для соответствия более поздним, более точным прогнозам о будущем до того, как станет известен окончательный результат. Это форма начальной загрузки, как показано в следующем примере:

«Предположим, вы хотите спрогнозировать погоду на субботу, и у вас есть некая модель, которая предсказывает погоду в субботу с учетом погоды каждого дня. в неделю. В стандартном случае вы должны подождать до субботы, а затем настроить все свои модели. Однако, когда это, например, пятница, вы должны иметь довольно хорошее представление о погоде в субботу - и, следовательно, иметь возможность изменить, скажем, субботнюю модель до наступления субботы. "

Методы временной разницы связаны с временной разностной моделью обучения животных.

Содержание
  • 1 Математическая формулировка
  • 2 TD-Lambda
  • 3 Алгоритм TD в нейробиологии
  • 4 См. Также
  • 5 Примечания
  • 6 Библиография
  • 7 Внешние ссылки
Математическая формулировка

Табличный метод TD (0) является одним из простейшие методы TD. Это частный случай более общих методов стохастической аппроксимации. Он оценивает функцию значения состояния конечного состояния марковского процесса принятия решения (MDP) в соответствии с политикой π {\ displaystyle \ pi}\ pi . Пусть V π {\ displaystyle V ^ {\ pi}}{\ displaystyle V ^ {\ pi }} обозначает функцию значения состояния MDP с состояниями (st) t ∈ N {\ displaystyle (s_ {t}) _ {t \ in \ mathbb {N}}}{\ displaystyle (s_ {t}) _ {t \ in \ mathbb {N}}} , награды (rt) t ∈ N {\ displaystyle (r_ {t}) _ {t \ in \ mathbb {N}}}{\ displaystyle (r_ {t}) _ {t \ in \ mathbb {N}}} и ставка дисконтирования γ {\ displaystyle \ gamma}\ gamma в соответствии с политикой π {\ displaystyle \ pi}\ pi :

V π (s) = E a ∼ π {∑ t = 0 ∞ γ trt (at) | s 0 = s}. {\ displaystyle V ^ {\ pi} (s) = E_ {a \ sim \ pi} \ left \ {\ sum _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ {t} (a_ {t}) {\ Bigg |} s_ {0} = s \ right \}.}{\ displaystyle V ^ {\ pi} (s) = E_ {a \ sim \ pi} \ left \ {\ sum _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ {t} (a_ {t}) {\ Bigg |} s_ {0} = s \ right \}.}

Для удобства мы опускаем действие из понятия. V π {\ displaystyle V ^ {\ pi}}{\ displaystyle V ^ {\ pi }} удовлетворяет уравнению Гамильтона-Якоби-Беллмана :

V π (s) = E π {r 0 + γ V π (s 1) | s 0 = s}, {\ displaystyle V ^ {\ pi} (s) = E _ {\ pi} \ {r_ {0} + \ gamma V ^ {\ pi} (s_ {1}) | s_ {0} = s \},}{\ стиль отображения V ^ {\ pi} (s) = E _ {\ pi} \ {r_ {0} + \ gamma V ^ {\ pi} (s_ {1}) | s_ {0} = s \},}

поэтому r 0 + γ V π (s 1) {\ displaystyle r_ {0} + \ gamma V ^ {\ pi} (s_ {1})}{\ displaystyle r_ {0} + \ gamma V ^ {\ pi} (s_ {1})} - это несмещенная оценка для V π (s) {\ displaystyle V ^ {\ pi} (s)}V ^ {\ pi} (s) . Это наблюдение мотивирует следующий алгоритм для оценки V π {\ displaystyle V ^ {\ pi}}{\ displaystyle V ^ {\ pi }} .

Алгоритм начинается с инициализации таблицы V (s) {\ displaystyle V (s)}V(s)произвольно, с одним значением для каждого состояния MDP. Выбрана положительная скорость обучения α {\ displaystyle \ alpha}\ alpha .

Затем мы повторно оцениваем политику π {\ displaystyle \ pi}\ pi , получаем вознаграждение r {\ displaystyle r}r и обновляем функция значения для старого состояния с использованием правила:

V (s) ← V (s) + α (r + γ V (s ') ⏞ Цель TD - V (s)) {\ displaystyle V (s) \ leftarrow V (s) + \ alpha (\ overbrace {r + \ gamma V (s ')} ^ {\ text {The TD target}} - V (s))}{\displaystyle V(s)\leftarrow V(s)+\alpha (\overbrace {r+\gamma V(s')} ^{\text{The TD target}}-V(s))}

где s {\ displaystyle s}s и s ′ {\ displaystyle s '}s'- старое и новое состояния соответственно. Значение r + γ V (s ') {\ displaystyle r + \ gamma V (s')}{\displaystyle r+\gamma V(s')}известно как цель TD.

TD-Lambda

TD-Lambda - алгоритм обучения, изобретенный Ричардом С. Саттоном на основе более ранней работы Артура Самуэля <168 по изучению временной разницы.>. Этот алгоритм был широко использован для создания TD-Gammon, программы, которая научилась играть в нарды на уровне опытных игроков.

Лямбда (λ {\ displaystyle \ lambda}\ lambda ) параметр относится к параметру распада следа, с 0 ⩽ λ ⩽ 1 {\ displaystyle 0 \ leqslant \ lambda \ leqslant 1}{\ displaystyle 0 \ leqslant \ lambda \ leqslant 1}) . Более высокие настройки приводят к более длительным следам; то есть, большая часть вознаграждения может быть отдана более отдаленным состояниям и действиям, когда λ {\ displaystyle \ lambda}\ lambda больше, при λ = 1 {\ displaystyle \ lambda = 1}\ lambda = 1 параллельное обучение алгоритмам Монте-Карло RL.

Алгоритм TD в нейробиологии

Алгоритм TD также привлек внимание в области нейробиологии. Исследователи обнаружили, что частота возбуждения дофамина нейронов в вентральной тегментальной области (VTA) и черной субстанции (SNc), похоже, имитирует функция ошибок в алгоритме. Функция ошибок сообщает о разнице между предполагаемым вознаграждением в любом заданном состоянии или на любом временном шаге и фактическим полученным вознаграждением. Чем больше функция ошибки, тем больше разница между ожидаемым и фактическим вознаграждением. Когда это сочетается со стимулом, который точно отражает будущее вознаграждение, ошибку можно использовать для связывания стимула с будущим вознаграждением.

Допаминовые клетки, по-видимому, ведут себя аналогичным образом. В одном эксперименте измерения дофаминовых клеток были сделаны во время обучения обезьяны ассоциировать стимул с вознаграждением соком. Первоначально дофаминовые клетки увеличивали скорость возбуждения, когда обезьяна получала сок, что указывает на разницу в ожидаемой и фактической награде. Со временем это увеличение ответной реакции распространилось на самый ранний надежный стимул для вознаграждения. После того, как обезьяна была полностью обучена, после предъявления прогнозируемой награды скорость стрельбы не увеличивалась. Постоянно скорость активации дофаминовых клеток снижалась ниже нормальной активации, когда ожидаемое вознаграждение не производилось. Это очень похоже на то, как функция ошибок в TD используется для обучения с подкреплением.

Взаимосвязь между моделью и потенциальной неврологической функцией привела к исследованию, в котором пытались использовать TD для объяснения многих аспектов поведенческих исследований. Он также использовался для изучения таких состояний, как шизофрения или последствий фармакологических манипуляций с допамином для обучения.

См. Также
Примечания
  1. ^ Ричард Саттон и Эндрю Барто (1998). Обучение с подкреплением. MIT Press. ISBN 978-0-585-02445-5. Архивировано из оригинала 30.03.2017.
  2. ^ Ричард Саттон (1988). «Учимся предсказывать методами временных разностей». Машинное обучение. 3 (1): 9–44. doi : 10.1007 / BF00115009.(пересмотренная версия доступна на странице публикации Ричарда Саттона Архивировано 30 марта 2017 г. на Wayback Machine )
  3. ^ Шульц, У., Даян, Пи и Монтегю, ПР. (1997). «Нейронный субстрат предсказания и награды». Наука. 275 (5306): 1593–1599. CiteSeerX 10.1.1.133.6176. doi : 10.1126 / science.275.5306.1593. PMID 9054347. CS1 maint: несколько имен: список авторов (ссылка )
  4. ^ Montague, PR; Dayan, P.; Sejnowski, TJ (1996-03-01). «Структура для мезэнцефальных дофаминовых систем на основе прогнозирующего обучения Хебба » (PDF). The Journal of Neuroscience. 16 (5): 1936–1947. doi : 10.1523 / JNEUROSCI.16-05-01936.1996. ISSN 0270-6474. PMC 6578666. PMID 8774460.
  5. ^ Montague, PR; Dayan, P.; Nowlan, SJ; Pouget, A.; Sejnowski, TJ (1993). «Использование апериодического подкрепления для направленного самоорганизация » (PDF). Достижения в системах обработки нейронной информации. 5 : 969–976.
  6. ^ Montague, P.R.; Сейновски, Т. J. (1994). «Прогнозирующий мозг: временное совпадение и временной порядок в механизмах синаптического обучения». Обучение и память. 1 (1): 1–33. ISSN 1072-0502. PMID 10467583.
  7. ^ Sejnowski, T.J.; Dayan, P.; Монтегю, П.Р. (1995). «Прогнозирующее обучение хебби» (PDF). Труды восьмой конференции ACM по вычислительной теории обучения: 15–18. doi : 10.1145 / 225298.225300.
  8. ^Параметр ставки дисконтирования позволяет установить временное предпочтение в сторону более немедленных вознаграждений и вдали от вознаграждений в отдаленном будущем
  9. ^Обучение с подкреплением: введение (PDF). п. 130. Архивировано из оригинала (PDF) 12.07.2017.
  10. ^Тесауро, Джеральд (март 1995). "Изучение временной разницы и TD-Gammon". Коммуникации ACM. 38 (3): 58–68. DOI : 10.1145 / 203330.203343. Проверено 8 февраля 2010 г.
  11. ^Schultz, W. (1998). «Прогнозирующий сигнал вознаграждения дофаминовых нейронов». Журнал нейрофизиологии. 80 (1): 1-27. CiteSeerX 10.1.1.408.5994. doi : 10.1152 / jn.1998.80.1.1. PMID 9658025.
  12. ^Даян, П. (2001). «Мотивированное обучение с подкреплением» (PDF). Достижения в системах обработки нейронной информации. MIT Press. 14 : 11–18.
  13. ^Смит, А., Ли, М., Беккер, С. и Капур, С. (2006). «Допамин, ошибка предсказания и ассоциативное обучение: учет на основе модели». Сеть: вычисления в нейронных системах. 17 (1): 61–84. doi : 10.1080 / 09548980500361624. PMID 16613795. CS1 maint: несколько имен: список авторов (ссылка )
Библиография
Внешние ссылки
Последняя правка сделана 2021-06-09 13:05:31
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте