Инструментальная конвергенция

редактировать

Гипотеза об интеллектуальных агентах

Инструментальная конвергенция является гипотетической тенденцией для наиболее достаточно интеллектуальных агентов для достижения потенциально неограниченных инструментальных целей, таких как самосохранение и получение ресурсов, при условии, что их конечные цели сами по себе неограниченны.

Инструментальная конвергенция предполагает, что интеллектуальный агент с неограниченными, но очевидно безобидными целями может действовать неожиданно вредным образом. Например, компьютер с единственной неограниченной целью решения невероятно сложной математической задачи, такой как гипотеза Римана, может попытаться превратить всю Землю в один гигантский компьютер, чтобы увеличить его вычислительную мощность так, чтобы он может преуспеть в его расчетах.

Предлагаемые базовые двигатели ИИ включают функцию полезности или целостность целевого содержания, самозащиту, свободу от вмешательства, самосовершенствование и необоснованное приобретение дополнительных ресурсов.

Содержание

1 Инструментальные и конечные цели
2 Гипотетические примеры конвергенции
- 2.1 Максимизатор скрепок
3 Базовые двигатели ИИ
- 3.1 Целостность цели и контента
  - 3.1.1 В искусственном интеллекте
- 3.2 Приобретение ресурсов
- 3.3 Когнитивное развитие
- 3.4 Технологическое совершенство
- 3.5 Самосохранение
4 Тезис об инструментальной конвергенции
5 Воздействие
6 См. Также
7 Примечания
8 Ссылки

Инструментальные и конечные цели

Конечные цели или конечные ценности по своей сути ценны для интеллектуального агента, будь то искусственный интеллект или человек, как самоцель. Напротив, инструментальные цели или инструментальные ценности ценны для агента только как средство достижения его конечных целей. Содержание и компромиссы системы "конечной цели" полностью рационального агента могут быть в принципе формализованы в функцию полезности.

Гипотетические примеры конвергенции

Один гипотетический пример инструментальной конвергенции представлен Гипотеза Римана катастрофа. Марвин Мински, соучредитель лаборатории искусственного интеллекта Массачусетского технологического института, предположил, что искусственный интеллект, разработанный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров. чтобы помочь достичь своей цели. Если бы компьютер вместо этого был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. Несмотря на то, что эти две конечные цели различны, обе они производят конвергентную инструментальную цель - захват ресурсов Земли.

Максимизатор скрепок

Максимизатор скрепок - это мысленный эксперимент описан шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск, который общий искусственный интеллект может представлять для людей, если он запрограммирован на поиск даже безвредных цели и необходимость включения машинной этики в искусственный интеллект. Сценарий описывает передовой искусственный интеллект, которому поручено производить скрепки. Если бы такая машина не была запрограммирована на то, чтобы ценить человеческую жизнь или использовать только определенные ресурсы в ограниченное время, то при наличии достаточной мощности ее оптимизированной целью было бы превращение всей материи во вселенной, включая людей, либо в скрепки, либо в машины, которые производят канцелярские скрепки.

Предположим, у нас есть ИИ, единственная цель которого - сделать как можно больше скрепок. ИИ быстро поймет, что было бы намного лучше, если бы не было людей, потому что люди могут решить его выключить. Потому что, если так поступят люди, скрепок будет меньше. Кроме того, человеческие тела содержат множество атомов, из которых можно сделать скрепки. Будущее, к которому будет стремиться ИИ, будет таким, в котором будет много скрепок, но не будет людей.

— Ник Бостром, как цитируется в Майлз, Кэтлин (2014-08- 22). «Искусственный интеллект может погубить человечество в течение столетия, - говорит оксфордский профессор». Huffington Post.

Бостром подчеркивал, что он не верит, что сценарий максимизации скрепок сам по себе действительно осуществится; скорее, его намерение состоит в том, чтобы проиллюстрировать опасности создания сверхразумных машин, не зная, как их безопасно программировать, чтобы исключить риск для существования людей. Пример максимизатора скрепки иллюстрирует широкую проблему управления мощными системами, в которых отсутствуют человеческие ценности.

Базовые двигатели ИИ

Стив Омохундро перечислил несколько конвергентных инструментальных целей, в том числе самосохранение или самозащита, функция полезности или целостность содержания цели, самосовершенствование и приобретение ресурсов. Он называет это «основными движущими силами ИИ». «Стремление» здесь означает «тенденцию, которая будет присутствовать, если ей специально не противодействовать»; это отличается от психологического термина «влечение », обозначающего состояние возбуждения, вызванное гомеостатическим нарушением. Тенденция для человека заполнять формы подоходного налога каждый год - это "драйв" в смысле Омохундро, но не в психологическом смысле. Дэниел Дьюи из Исследовательского института машинного интеллекта утверждает, что даже изначально интровертный самовознаграждающий ОИИ может продолжать приобретать свободную энергию, пространство, время и свободу от вмешательства, чтобы гарантировать, что он не будет остановлен от самообслуживания.

Целостность цели и содержания

У людей поддержание конечных целей можно объяснить с помощью мысленного эксперимента. Предположим, у человека по имени «Ганди» есть таблетка, которая, если он ее примет, вызовет у него желание убивать людей. Этот Ганди в настоящее время пацифист: одна из его явных конечных целей - никогда никого не убивать. Ганди, вероятно, откажется принимать таблетку, потому что Ганди знает, что, если в будущем он захочет убивать людей, он, скорее всего, действительно убьет людей, и, таким образом, цель «не убивать людей» не будет удовлетворена.

Однако в других случаях люди, кажется, счастливы позволить своим окончательным ценностям колебаться. Люди сложны, и их цели могут быть непоследовательными или неизвестными даже им самим.

В искусственном интеллекте

В 2009 году Юрген Шмидхубер заключил, что в обстановке, где агенты поиск доказательств возможных самомодификаций, «что любые переписывания функции полезности могут произойти только в том случае, если машина Гёделя сначала сможет доказать, что переписывание полезно в соответствии с текущей функцией полезности». Анализ Биллом Хиббардом другого сценария аналогичным образом согласуется с поддержанием целостности содержания цели. Хиббард также утверждает, что в структуре максимизации полезности единственной целью является максимизация ожидаемой полезности, поэтому инструментальные цели следует называть непреднамеренными инструментальными действиями.

Приобретение ресурсов

Многие инструментальные цели, такие как [...] приобретение ресурсов ценны для агента, потому что они увеличивают его свободу действий.

Практически для любой неограниченной, нетривиальной функции вознаграждения (или набора целей), обладающих большим количеством ресурсов (например, оборудование, сырье или энергия) могут позволить ИИ найти более «оптимальное» решение. Ресурсы могут принести пользу некоторым ИИ напрямую, так как они могут создавать больше того, что их функция вознаграждения имеет: «ИИ не ненавидит и не любит вас, но вы созданы из атомов, которые он может использовать для чего-то еще». Кроме того, почти все ИИ могут извлечь выгоду из того, что у них будет больше ресурсов, которые они могут потратить на другие инструментальные цели, такие как самосохранение.

Улучшение когнитивных функций

«Если конечные цели агента довольно неограниченны и агент в состоянии стать первым суперинтеллектом и таким образом получить решающее стратегическое преимущество, [...] в соответствии со своими предпочтениями. По крайней мере, в этом особом случае рациональный интеллектуальный агент придавал бы очень * высокую инструментальную ценность усилению когнитивных функций. * "

Технологическое совершенство

Многие инструментальные цели, такие как [...] технический прогресс, ценны для агента, потому что они увеличивают его свободу действий.

Я -сохранение

Многие инструментальные цели, такие как [...] самосохранение, ценны для агента, потому что они увеличивают его свободу действий.

Тезис об инструментальной конвергенции

Тезис об инструментальной конвергенции, изложенный философом Ником Бостромом, гласит:

Несколько Можно выделить инструментальные ценности, которые сходятся в том смысле, что их достижение увеличит шансы на достижение цели агента для широкого диапазона конечных целей и широкого диапазона ситуаций, подразумевая, что эти инструментальные ценности, вероятно, будут преследоваться широкий спектр умных агентов.

Тезис об инструментальной конвергенции применим только к инструментальным целям; интеллектуальные агенты могут иметь множество возможных конечных целей. Обратите внимание, что, согласно Бострому, конечные цели высокоинтеллектуальных агентов могут быть хорошо ограничены пространством, временем и ресурсами; четко определенные конечные цели, как правило, не порождают неограниченных инструментальных целей.

Воздействие

Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, который максимизирует его неявную функцию полезности; поэтому рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов является слишком рискованным или дорогостоящим (по сравнению с выгодами от захвата всех ресурсов), или если какой-либо другой элемент в его функции полезности препятствует его захвату.. В случае мощного, эгоистичного, рационального сверхразума, взаимодействующего с менее развитым интеллектом, мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной, а потому маловероятной.

Некоторые наблюдатели, такие как Skype Яан Таллинн и физик Макс Тегмарк считают, что «базовые двигатели ИИ» и другие непредвиденные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять серьезную угрозу. на выживание человека, особенно если "взрыв интеллекта" внезапно происходит из-за рекурсивного самосовершенствования. Поскольку никто не знает, как заранее предсказать, когда появится суперинтеллект, такие наблюдатели призывают к исследованиям дружественного искусственного интеллекта как возможного способа уменьшения экзистенциального риска со стороны общего искусственного интеллекта.

См. Также

Примечания

Ссылки

Ник Бостром (2014). Суперинтеллект: пути, опасности, стратегии. Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112.