Мрачный триггер

редактировать

Стратегия триггера

В теории игр, мрачный триггер (также называемый мрачная стратегия или просто мрачная ) - это стратегия запуска для повторяющейся игры.

Первоначально игрок, использующий мрачный триггер, будет сотрудничать, но как только противник откажется (таким образом удовлетворяя условию триггера), игрок, использующий мрачный триггер, откажется от игры до конца повторяющейся игры. Поскольку один-единственный дефект оппонента вызывает отступничество навсегда, мрачный спусковой крючок - самая жесткая из стратегий в повторяющейся игре.

В книге Роберта Аксельрода Эволюция сотрудничества мрачный триггер называется «Фридман» в статье Джеймса Фридмана 1971 года, в которой используется эта концепция.

Содержание

1 Бесконечно повторяющаяся дилемма заключенных
2 Мрачный триггер в международных отношениях
3 Мрачный триггер во взаимодействиях пользователя и сети
4 Сравнение с другими стратегиями
5 См. Также
6 Ссылки

Бесконечно повторяющаяся дилемма заключенных

Бесконечно повторяющаяся дилемма заключенных - хорошо известный пример стратегии мрачного триггера. Обычная игра для двух заключенных выглядит следующим образом:

Заключенный B Заключенный A	Сохраняет молчание (Сотрудничает)	Предательство (Дефект)
Остается молчаливым (Сотрудничает)	1, 1	-1, 2
Предать (Дефект)	2, -1	0, 0

В заключенных 'дилемма, у каждого игрока есть два выбора на каждом этапе:

Сотрудничать
Дать немедленную выгоду

Если игрок ошибается, он будет наказан до конца игры. Фактически, обоим игрокам лучше молчать (сотрудничать), чем предавать друг друга, поэтому игра (C, C) - это профиль сотрудничества во время игры (D, D), а также уникальное равновесие по Нэшу в этой игре - профиль наказания.

В стратегии мрачного триггера игрок сотрудничает в первом и последующих раундах до тех пор, пока его противник не нарушит соглашение. Как только игрок обнаруживает, что противник предал в предыдущей игре, он навсегда дезертирует.

Для оценки идеального равновесия (SPE) для следующей мрачной триггерной стратегии игры стратегия S * для игроков i и j выглядит следующим образом:

Игра C в каждом периоде, если кто-то никогда не играл в D в прошлом
Играть D вечно, если кто-то играл в D в прошлом

Тогда стратегия является SPE, только если коэффициент дисконтирования $δ ≥ 1 2 {\ textstyle \ delta \ geq {\ frac {1} {2}}}$ ${\textstyle \delta \geq {\frac {1}{2}}}$ . Другими словами, ни Игрок 1, ни Игрок 2 не заинтересованы в отказе от профиля сотрудничества, если коэффициент дисконтирования больше половины.

Чтобы доказать, что стратегия является SPE, сотрудничество должно быть лучшим ответом на сотрудничество другого игрока и его отступничество должно быть лучшим ответом на его отступничество.

Шаг 1: Предположим, что D до сих пор не разыгрывался.

Выплата игрока i от C: $(1 - δ) [1 + δ + δ 2 +... ] = (1 - δ) × 1 1 - δ знак равно 1 {\ displaystyle (1- \ delta) [1+ \ delta + \ delta ^ {2} +...] = (1- \ delta) \ times { \ frac {1} {1- \ delta}} = 1}$ $(1-\delta)[1+\delta +\delta ^{2}+...]=(1-\delta)\times {\frac {1}{1-\delta }}=1$
Выплата игрока i от D: $(1 - δ) [2 + 0 + 0 +... ] = 2 (1 - δ) {\ displaystyle (1- \ delta) [2 + 0 + 0 +...] = 2 (1- \ delta)}$ $(1-\delta)[2+0+0+...]=2(1-\delta)$

Тогда C лучше, чем D, если $1 ≥ 2 (1 - δ) {\ displaystyle 1 \ geq 2 (1- \ delta)}$ $1\geq 2(1-\delta)$ . Это показывает, что если $δ ≥ 1 2 {\ displaystyle \ delta \ geq {\ frac {1} {2}}}$ $\delta \geq {\frac {1}{2}}$ , воспроизведение C оптимально по Парето.

Шаг 2: Предположим, что кто-то ранее играл D, тогда Игрок j будет играть D, несмотря ни на что.

Выплата игрока i от C: $(1 - δ) [- 1 + δ × 0 + δ 2 × 0 +... ] = (1 - δ) × - 1 знак равно δ - 1 {\ displaystyle (1- \ delta) [- 1+ \ delta \ times 0+ \ delta ^ {2} \ times 0 +...] = (1 - \ delta) \ times -1 = \ delta -1}$ $(1-\delta)[-1+\delta \times 0+\delta ^{2}\times 0+...]=(1-\delta)\times -1=\delta -1$
Выплата игрока i от D: $(1 - δ) [0 + δ × 0 + δ 2 × 0 +... ] = 0 {\ displaystyle (1- \ delta) [0+ \ delta \ times 0+ \ delta ^ {2} \ times 0 +...] = 0}$ $(1-\delta)[0+\delta \times 0+\delta ^{2}\times 0+...]=0$

Поскольку $0 ≤ δ ≤ 1 {\ displaystyle 0 \ leq \ delta \ leq 1}$ $0\leq \delta \leq 1$ , воспроизведение D оптимально.

Предыдущий аргумент подчеркивает, что нет стимула отклоняться (без выгодного отклонения) от профиля сотрудничества, если $δ ≥ 1 2 {\ displaystyle \ delta \ geq {\ frac {1} {2} }}$ $\delta \geq {\frac {1}{2}}$ , и это верно для каждой подигры. Следовательно, стратегия для бесконечно повторяющейся дилеммы заключенного - это идеальное равновесие по Нэшу.

В повторяющихся соревнованиях по стратегии дилеммы заключенного мрачный триггер плохо работает даже без шума, а добавление ошибок сигнала делает его еще хуже. Его способность угрожать постоянным отступничеством дает ему теоретически эффективный способ поддерживать доверие, но из-за его неумолимого характера и неспособности заранее сообщить об этой угрозе он работает плохо.

Мрачный спусковой крючок в международных отношениях

Под мрачным спусковым крючком с точки зрения международных отношений нация сотрудничает только в том случае, если ее партнер никогда не подвергался эксплуатации в прошлом. Поскольку нация будет отказываться от сотрудничества во всех будущих периодах, если ее партнер однажды откажется от сотрудничества, бессрочное прекращение сотрудничества становится угрозой, которая делает такую стратегию ограничивающим случаем. Хотя мрачный триггер является ограничивающим случаем, Народная теорема утверждает, что идеальное равновесие может быть достигнуто, если обе нации проявят терпение.

Мрачный триггер во взаимодействии пользователя и сети

Игра Теория недавно была использована при разработке будущих систем связи, и пользователь в игре взаимодействия пользователя с сетью, использующий стратегию мрачного триггера, является одним из таких примеров. Если мрачный триггер решено использовать в игре взаимодействия пользователя с сетью, пользователь остается в сети (сотрудничает), если сеть поддерживает определенное качество, но наказывает сеть, останавливая взаимодействие и покидая сеть, как только пользователь обнаруживает недостатки оппонента. Антониу и др. поясняет, что «при такой стратегии у сети появляется более сильный стимул выполнять обещание, данное в отношении определенного качества, поскольку она сталкивается с угрозой навсегда потерять своего клиента».

Сравнение с другими стратегиями

Tit ибо tat и стратегии мрачного триггера схожи по своей природе в том, что обе являются триггерной стратегией, когда игрок отказывается сначала отступить, если у него есть возможность наказать оппонента за отступление. Разница, однако, в том, что мрачный спусковой крючок требует максимального наказания за одно отступничество, в то время как «око за око» более снисходительно, предлагая одно наказание за каждое отступничество.

См. Также

Ссылки

=== !!! == Знак равно <2>{\ displaystyle (1- \ delta) [1+ \ delta + \ delta ^ {2} +...] = (1- \ delta) \ times {\ frac {1} {1- \ delta }} = 1} <2><3>{\ displaystyle 0 \ leq \ delta \ leq 1} <3><4>{\ displaystyle (1- \ delta) [- 1+ \ delta \ times 0+ \ delta ^ {2} \ times 0 +...] = (1- \ delta) \ times -1 = \ delta -1} <4><5>{\ textstyle \ delta \ geq {\ frac {1} {2 }}} <5><6>{\ displaystyle (1- \ delta) [0+ \ delta \ times 0+ \ delta ^ {2} \ times 0 +...] = 0} <6><7>{\ displaystyle (1- \ delta) [2 + 0 + 0 +...] = 2 (1- \ delta)} <7><8>{\ displaystyle \ delta \ geq {\ frac {1} {2 }}} <8><9>{\ displaystyle 1 \ geq 2 (1- \ delta)} <9>html