Выбор действия

редактировать

Выбор действия- это способ охарактеризовать основную проблему интеллектуальных систем: что делать дальше. В искусственном интеллекте и вычислительной когнитивной науке «проблема выбора действия» обычно связана с интеллектуальными агентами и аниматами - искусственными системами, которые проявляют сложное поведение в среде агента. Этот термин также иногда используется в этологии или поведении животных.

Одной из проблем для понимания выбора действия является определение уровня абстракции, используемого для определения «действия». На самом базовом уровне абстракции атомный акт может быть чем угодно, от сокращения мышечной клетки до провокации войны. Обычно для любого одного механизма выбора действий набор возможных действий предопределен и фиксирован.

Большинство исследователей, работающих в этой области, предъявляют высокие требования к своим агентам:

Действующий агент обычно должен выбирать свое действие в динамическом и непредсказуемом среды.
Обычно агенты действуют в реальном времени ; поэтому они должны своевременно принимать решения.
Обычно агенты создаются для выполнения нескольких различных задач. Эти задачи могут конфликтовать при распределении ресурсов (например, может ли агент одновременно потушить пожар и доставить чашку кофе?)
Среда, в которой работают агенты, может включать людей, которые могут усложнить работу агента (намеренно или пытаясь помочь.)
Сами агенты часто предназначены для моделирования животных или людей, а также животных / человека поведение довольно сложно.

По этим причинам выбор действий нетривиален и привлекает большое количество исследований.

Содержание

1 Характеристики задачи выбора действия
2 Механизмы ИИ
- 2.1 Символьные подходы
- 2.2 Распределенные подходы
- 2.3 Подходы динамического планирования
- 2.4 Другое
3 Теории выбор действия в природе
- 3.1 AI-модели выбора нейронного действия
4 См. также
5 Ссылки
6 Дополнительная литература
7 Внешние ссылки

Характеристики проблемы выбора действия

Основная проблема при выборе действия - сложность. Поскольку все вычисления занимают как время, так и пространство (в памяти), агенты не могут рассматривать каждый вариант, доступный им в каждый момент времени. Следовательно, они должны быть предвзятыми и каким-то образом ограничивать их поиск. Для ИИ вопрос выбора действия - как лучше всего ограничить этот поиск? Для биологии и этологии вопрос заключается в том, как различные виды животных сдерживают поиск? Все ли животные используют одни и те же подходы? Почему они используют те, которые используют?

Один из фундаментальных вопросов о выборе действия заключается в том, действительно ли это проблема для агента или это просто описание эмерджентного свойства поведения интеллектуального агента. Однако если мы рассмотрим, как мы собираемся создать интеллектуального агента, то станет очевидным, что должен существовать какой-то механизм для выбора действия. Этот механизм может быть сильно распределенным (как в случае распределенных организмов, таких как социальные насекомые колонии или слизистая плесень ) или он может быть модулем специального назначения.

Механизм выбора действия (ASM) определяет не только действия агента с точки зрения воздействия на мир, но также направляет его перцептивное внимание и обновляет его память. Эти эгоцентрические виды действий могут, в свою очередь, привести к изменению основных поведенческих способностей агента, особенно в том, что обновление памяти подразумевает, что некоторая форма машинного обучения возможна. В идеале, сам выбор действий также должен иметь возможность обучаться и адаптироваться, но существует множество проблем комбинаторной сложности и вычислительной управляемости, которые могут потребовать ограничения пространства поиска для обучения.

В AI ASM также иногда называют архитектурой агента или считают его существенной частью.

Механизмы искусственного интеллекта

Как правило, механизмы выбора искусственного действия можно разделить на несколько категорий: системы на основе символов, иногда известные как классическое планирование, распределенные решения, а также реактивное или динамическое планирование. Некоторые подходы точно не попадают ни в одну из этих категорий. Другие действительно больше о предоставлении научных моделей, чем о практическом управлении ИИ; последние описаны далее в следующем разделе.

Символьные подходы

В начале истории искусственного интеллекта предполагалось, что лучший способ для агента выбрать, что делать дальше, - это вычислить 9>возможно оптимальный план, а затем выполнить этот план. Это привело к гипотезе системы физических символов, согласно которой физический агент, который может манипулировать символами, необходим и достаточен для интеллекта. Многие программные агенты до сих пор используют этот подход для выбора действий. Обычно это требует описания всех показаний датчиков, мира, всех своих действий и всех своих целей в той или иной форме логики предикатов. Критики этого подхода жалуются, что он слишком медленный для планирования в реальном времени и что, несмотря на доказательства, маловероятно, что он приведет к созданию оптимальных планов, поскольку сведение описаний реальности к логике - это процесс, подверженный ошибкам.

Удовлетворение - это стратегия принятия решений, которая пытается соответствовать критериям адекватности, а не определять оптимальное решение. Удовлетворительная стратегия часто может быть (почти) оптимальной, если затраты на сам процесс принятия решений, такие как затраты на получение полной информации, учитываются при расчете результатов.

Архитектуры, ориентированные на цели- В этих символических архитектурах поведение агента обычно описывается набором целей. Каждая цель может быть достигнута с помощью процесса или действия, которые описаны в заранее составленном плане. Агент должен просто решить, какой процесс продолжить для достижения поставленной цели. План может расширяться до подцелей, что делает процесс слегка рекурсивным. Технически, более или менее, планы используют правила условий. Эти архитектуры являются реактивными или гибридными. Классическими примерами архитектур, ориентированных на достижение целей, являются реализуемые усовершенствования архитектуры убеждение-желание-намерение, например, JAM или IVE.

Распределенные подходы

В отличие от При символическом подходе распределенные системы выбора действий фактически не имеют одного «ящика» в агенте, который решает следующее действие. По крайней мере, в их идеализированной форме распределенные системы имеют множество модулей, работающих параллельно и определяющих наилучшее действие на основе местного опыта. Ожидается, что в этих идеализированных системах каким-то образом возникнет общая согласованность, возможно, благодаря тщательному проектированию взаимодействующих компонентов. Этот подход часто основан на исследованиях искусственных нейронных сетей. На практике почти всегда существует централизованная система, определяющая, какой модуль является «наиболее активным» или имеет наибольшее значение. Есть свидетельства того, что настоящий биологический мозг также имеет такие системы исполнительных решений, которые оценивают, какая из конкурирующих систем заслуживает наибольшего внимания, или, точнее говоря, имеет свои желаемые действия растормаженные.

ASMO - это архитектура, основанная на внимании, разработанная Рони Новианто. Он управляет множеством модульных распределенных процессов, которые могут использовать свои собственные представления и методы для восприятия окружающей среды, обработки информации, планирования действий и предложения действий для выполнения.
Различные типы принципа «победитель получает все» архитектуры, в которых одно выбранное действие берет на себя полный контроль над двигательной системой
Распространение активации, включая
Расширенное Розенблатт и Пэйтон- это распространяющаяся архитектура активации, разработанная Тоби Тирреллом в 1993 году. поведение хранится в форме иерархической коннекционизма сети, которую Тиррелл назвал иерархией свободного потока. Недавно использовался, например, de Sevin & Thalmann (2005) или Kadleček (2001).
ИИ на основе поведения был ответом на медленную скорость роботов, использующих техники выбора символического действия. В этой форме отдельные модули реагируют на разные стимулы и генерируют свои собственные ответы. В исходной форме, архитектура подчинения, они состояли из разных уровней, которые могли отслеживать и подавлять входы и выходы друг друга.
Существа - это виртуальные питомцы из компьютерной игры, управляемой трехслойная нейронная сеть, которая является адаптивной. Их механизм является реактивным, поскольку сеть на каждом временном шаге определяет задачу, которую должно выполнить домашнее животное. Сеть хорошо описана в статье Grand et al. (1997) и в The Creatures Developer Resources. См. Также Creatures Wiki.

Подходы к динамическому планированию

Поскольку чисто распределенные системы сложно построить, многие исследователи обратились к использованию явных жестко запрограммированных планов для определения приоритетов своей системы.

Динамическое или реактивное планирование методы вычисляют только одно следующее действие в каждый момент на основе текущего контекста и заранее подготовленных планов. В отличие от классических методов планирования, реактивный или динамический подходы не подвержены комбинаторному взрыву. С другой стороны, их иногда считают слишком жесткими, чтобы их можно было считать сильным ИИ, поскольку планы закодированы заранее. В то же время естественный интеллект может быть жестким в одних контекстах, хотя он подвижен и способен адаптироваться в других.

Примеры механизмов динамического планирования включают:

Конечные автоматы Это реактивные архитектуры, используемые в основном для агентов компьютерных игр, в частности для шутеров от первого лица ботов, или для виртуальных киноактеров. Как правило, конечные автоматы иерархические. Для конкретных примеров игр см. статью о ботах Halo 2 Дамиана Исла (2005) или магистерскую диссертацию о ботах Quake III Яна Пола ван Вейверен (2001). В качестве примера фильма см. Softimage.
Другие структурированные планы реагирования, как правило, немного больше похожи на обычные планы, часто со способами представления иерархического и последовательного структура. Некоторые, например «действия» PRS, поддерживают частичные планы. Многие архитектуры агентов середины 1990-х годов включали такие планы, как «средний уровень», который обеспечивал организацию для низкоуровневых модулей поведения, управляемых планировщиком более высокого уровня в реальном времени. Несмотря на эту предполагаемую совместимость с автоматическими планировщиками, большинство структурированных планов реагирования кодируются вручную (Bryson 2001, ch. 3). Примеры структурированных планов реагирования включают в себя систему RAP и планы дистанционного реагирования Нильса Нильссона. PRS, RAP и TRP больше не разрабатываются и не поддерживаются. Одним из все еще действующих (по состоянию на 2006 г.) потомков этого подхода является иерархическая система выбора действий с упорядоченным скользящим стеком с параллельными корнями (или POSH ), которая является частью ориентированного на поведение дизайна Джоанны Брайсон.

Иногда, чтобы попытаться устранить кажущуюся негибкость динамического планирования, используются гибридные методы. В них более традиционная система планирования ИИ ищет новые планы, когда у агента есть свободное время, и обновляет библиотеку динамических планов, когда находит хорошие решения. Важным аспектом любой такой системы является то, что, когда агенту нужно выбрать действие, существует какое-то решение, которое можно использовать немедленно (см. Далее алгоритм в любое время ).

Другое

CogniTAO - это механизм принятия решений, основанный на BDI (убеждение-желание-намерение), он включает встроенные возможности совместной работы.
Soar - это символическая когнитивная архитектура. Он основан на правилах «условие-действие», известных как продукции. Программисты могут использовать набор инструментов разработки Soar для создания как реактивных агентов, так и агентов планирования или любого компромисса между этими двумя крайностями.
Excalibur был исследовательским проектом под руководством Александра Нареека, в котором использовались агенты планирования в любое время для компьютерных игр.. Архитектура основана на структурном удовлетворении ограничений, который представляет собой усовершенствованный метод искусственного интеллекта.
ACT-R аналогичен Soar. Он включает байесовскую обучающую систему, которая помогает расставить приоритеты в производстве.
ABL / Hap
Нечеткие архитектуры Нечеткий подход при выборе действий обеспечивает более плавное поведение, чем может быть получено архитектурами, использующими логические правила действия-условия (например, Soar или POSH). Эти архитектуры в основном являются реактивными и символическими.

Теориями выбора действия в природе

Многие динамические модели выбора искусственного действия были первоначально вдохновлены исследованиями в этологии. В частности, Конрад Лоренц и Николаас Тинберген представили идею врожденного высвобождающего механизма для объяснения инстинктивного поведения (фиксированных паттернов действий ). Под влиянием идей Уильяма Макдугалла, Лоренц развил это в "" модель мотивации поведения. В этологии эти идеи были влиятельными в 1960-х, но теперь они считаются устаревшими из-за использования метафоры потока энергии ; нервная система и контроль поведения теперь обычно рассматриваются как связанные с передачей информации, а не с потоком энергии. Динамические планы и нейронные сети больше похожи на передачу информации, в то время как распространение активации больше похоже на рассеянный контроль эмоциональных / гормональных систем.

Стэн Франклин предположил, что выбор действия- это правильная перспектива для понимания роли и эволюции разума. См. Его страницу парадигмы выбора действия.

ИИ-модели выбора нейронного действия

Некоторые исследователи создают сложные модели выбора нейронного действия. См., Например:

The Computational Cognitive Neuroscience Lab (CU Boulder).
The Adaptive Behavior Research Group (Sheffield).

См. Также

Ссылки

Дополнительная литература

Братман, М.: Намерение, планы и практический разум. Кембридж, Массачусетс: Издательство Гарвардского университета (1987)
Бром, К., Лукавски, Дж., Шери, О., Поч, Т., Шафрата, П.: Возможности и уровень- подробно AI для виртуальных людей. В: Proceedings of Game Set and Match 2, Delft (2006)
Bryson, J.: Intelligence by Design: Principles of Modularity and Coordination for Engineering Complex Adaptive Agents. Докторская диссертация, Массачусетский технологический институт (2001)
Шампандард, А.Дж.: Разработка игр с ИИ: синтетические существа с обучением и реактивным поведением. New Riders, США (2003)
Гранд, С., Клифф, Д., Малхотра, А.: Существа: автономные программные агенты искусственной жизни для домашних развлечений. В: Джонсон, У. Л. (ред.): Труды Первой Международной конференции по автономным агентам. ACM press (1997) 22-29
Хубер, М.Дж.: JAM: Архитектура мобильного агента на основе теории BDI. В: Труды Третьей Международной конференции по автономным агентам (Agents'99). Сиэтл (1999) 236-243
Исла, Д.: Управление сложностью в Halo 2. В: Gamastura online, 03/11 (2005)
Maes, P.: Архитектура агентской сети (ANA). В: Бюллетень SIGART, 2 (4), страницы 115–120 (1991)
Нарейек, А. Проект Экскалибур
Рейнольдс, CW Стада, стада и школы: распределенные Поведенческая модель. In: Computer Graphics, 21 (4) (SIGGRAPH '87 Conference Proceedings) (1987) 25-34.
de Sevin, E. Thalmann, D. :Мотивационная модель выбора действия для виртуальных Люди. В: Computer Graphics International (CGI), IEEE Computer SocietyPress, Нью-Йорк (2005)
Tyrrell, T.: Вычислительные механизмы для выбора действия. Кандидат наук. Диссертация. Центр когнитивных наук Эдинбургского университета (1993)
ван Ваверен, Дж. М. П.: The Quake III Arena Bot. Магистерская диссертация. Факультет ИТС, Технологический университет Делфта (2001)
Вулдридж, М. Введение в мультиагентные системы. John Wiley & Sons (2002)

Внешние ссылки

Университет Мемфиса: Агенты по выбору действия
Майкл Вулдридж: Введение в агентов и их механизмы выбора действий
Сирил Бром: Слайды по курсу на действие отбор искусственных существ
Проект Soar. Мичиганский университет.
Моделирование естественного отбора, специальный выпуск, опубликованный Королевским обществом - Philosophical Transactions of the Royal Society