Выбор действия- это способ охарактеризовать основную проблему интеллектуальных систем: что делать дальше. В искусственном интеллекте и вычислительной когнитивной науке «проблема выбора действия» обычно связана с интеллектуальными агентами и аниматами - искусственными системами, которые проявляют сложное поведение в среде агента. Этот термин также иногда используется в этологии или поведении животных.
Одной из проблем для понимания выбора действия является определение уровня абстракции, используемого для определения «действия». На самом базовом уровне абстракции атомный акт может быть чем угодно, от сокращения мышечной клетки до провокации войны. Обычно для любого одного механизма выбора действий набор возможных действий предопределен и фиксирован.
Большинство исследователей, работающих в этой области, предъявляют высокие требования к своим агентам:
По этим причинам выбор действий нетривиален и привлекает большое количество исследований.
Основная проблема при выборе действия - сложность. Поскольку все вычисления занимают как время, так и пространство (в памяти), агенты не могут рассматривать каждый вариант, доступный им в каждый момент времени. Следовательно, они должны быть предвзятыми и каким-то образом ограничивать их поиск. Для ИИ вопрос выбора действия - как лучше всего ограничить этот поиск? Для биологии и этологии вопрос заключается в том, как различные виды животных сдерживают поиск? Все ли животные используют одни и те же подходы? Почему они используют те, которые используют?
Один из фундаментальных вопросов о выборе действия заключается в том, действительно ли это проблема для агента или это просто описание эмерджентного свойства поведения интеллектуального агента. Однако если мы рассмотрим, как мы собираемся создать интеллектуального агента, то станет очевидным, что должен существовать какой-то механизм для выбора действия. Этот механизм может быть сильно распределенным (как в случае распределенных организмов, таких как социальные насекомые колонии или слизистая плесень ) или он может быть модулем специального назначения.
Механизм выбора действия (ASM) определяет не только действия агента с точки зрения воздействия на мир, но также направляет его перцептивное внимание и обновляет его память. Эти эгоцентрические виды действий могут, в свою очередь, привести к изменению основных поведенческих способностей агента, особенно в том, что обновление памяти подразумевает, что некоторая форма машинного обучения возможна. В идеале, сам выбор действий также должен иметь возможность обучаться и адаптироваться, но существует множество проблем комбинаторной сложности и вычислительной управляемости, которые могут потребовать ограничения пространства поиска для обучения.
В AI ASM также иногда называют архитектурой агента или считают его существенной частью.
Как правило, механизмы выбора искусственного действия можно разделить на несколько категорий: системы на основе символов, иногда известные как классическое планирование, распределенные решения, а также реактивное или динамическое планирование. Некоторые подходы точно не попадают ни в одну из этих категорий. Другие действительно больше о предоставлении научных моделей, чем о практическом управлении ИИ; последние описаны далее в следующем разделе.
В начале истории искусственного интеллекта предполагалось, что лучший способ для агента выбрать, что делать дальше, - это вычислить 9>возможно оптимальный план, а затем выполнить этот план. Это привело к гипотезе системы физических символов, согласно которой физический агент, который может манипулировать символами, необходим и достаточен для интеллекта. Многие программные агенты до сих пор используют этот подход для выбора действий. Обычно это требует описания всех показаний датчиков, мира, всех своих действий и всех своих целей в той или иной форме логики предикатов. Критики этого подхода жалуются, что он слишком медленный для планирования в реальном времени и что, несмотря на доказательства, маловероятно, что он приведет к созданию оптимальных планов, поскольку сведение описаний реальности к логике - это процесс, подверженный ошибкам.
Удовлетворение - это стратегия принятия решений, которая пытается соответствовать критериям адекватности, а не определять оптимальное решение. Удовлетворительная стратегия часто может быть (почти) оптимальной, если затраты на сам процесс принятия решений, такие как затраты на получение полной информации, учитываются при расчете результатов.
Архитектуры, ориентированные на цели- В этих символических архитектурах поведение агента обычно описывается набором целей. Каждая цель может быть достигнута с помощью процесса или действия, которые описаны в заранее составленном плане. Агент должен просто решить, какой процесс продолжить для достижения поставленной цели. План может расширяться до подцелей, что делает процесс слегка рекурсивным. Технически, более или менее, планы используют правила условий. Эти архитектуры являются реактивными или гибридными. Классическими примерами архитектур, ориентированных на достижение целей, являются реализуемые усовершенствования архитектуры убеждение-желание-намерение, например, JAM или IVE.
В отличие от При символическом подходе распределенные системы выбора действий фактически не имеют одного «ящика» в агенте, который решает следующее действие. По крайней мере, в их идеализированной форме распределенные системы имеют множество модулей, работающих параллельно и определяющих наилучшее действие на основе местного опыта. Ожидается, что в этих идеализированных системах каким-то образом возникнет общая согласованность, возможно, благодаря тщательному проектированию взаимодействующих компонентов. Этот подход часто основан на исследованиях искусственных нейронных сетей. На практике почти всегда существует централизованная система, определяющая, какой модуль является «наиболее активным» или имеет наибольшее значение. Есть свидетельства того, что настоящий биологический мозг также имеет такие системы исполнительных решений, которые оценивают, какая из конкурирующих систем заслуживает наибольшего внимания, или, точнее говоря, имеет свои желаемые действия растормаженные.
Поскольку чисто распределенные системы сложно построить, многие исследователи обратились к использованию явных жестко запрограммированных планов для определения приоритетов своей системы.
Динамическое или реактивное планирование методы вычисляют только одно следующее действие в каждый момент на основе текущего контекста и заранее подготовленных планов. В отличие от классических методов планирования, реактивный или динамический подходы не подвержены комбинаторному взрыву. С другой стороны, их иногда считают слишком жесткими, чтобы их можно было считать сильным ИИ, поскольку планы закодированы заранее. В то же время естественный интеллект может быть жестким в одних контекстах, хотя он подвижен и способен адаптироваться в других.
Примеры механизмов динамического планирования включают:
Иногда, чтобы попытаться устранить кажущуюся негибкость динамического планирования, используются гибридные методы. В них более традиционная система планирования ИИ ищет новые планы, когда у агента есть свободное время, и обновляет библиотеку динамических планов, когда находит хорошие решения. Важным аспектом любой такой системы является то, что, когда агенту нужно выбрать действие, существует какое-то решение, которое можно использовать немедленно (см. Далее алгоритм в любое время ).
Многие динамические модели выбора искусственного действия были первоначально вдохновлены исследованиями в этологии. В частности, Конрад Лоренц и Николаас Тинберген представили идею врожденного высвобождающего механизма для объяснения инстинктивного поведения (фиксированных паттернов действий ). Под влиянием идей Уильяма Макдугалла, Лоренц развил это в "" модель мотивации поведения. В этологии эти идеи были влиятельными в 1960-х, но теперь они считаются устаревшими из-за использования метафоры потока энергии ; нервная система и контроль поведения теперь обычно рассматриваются как связанные с передачей информации, а не с потоком энергии. Динамические планы и нейронные сети больше похожи на передачу информации, в то время как распространение активации больше похоже на рассеянный контроль эмоциональных / гормональных систем.
Стэн Франклин предположил, что выбор действия- это правильная перспектива для понимания роли и эволюции разума. См. Его страницу парадигмы выбора действия.
Некоторые исследователи создают сложные модели выбора нейронного действия. См., Например: