Идеальное байесовское равновесие

редактировать
Идеальное байесовское равновесие
A концепция решения в теории игр
Взаимосвязь
ПодмножествоБайесовское равновесие по Нэшу
Значение
ПредложеноЧо и Крепс
Используется дляДинамических Байесовских игр
Примерсигнальной игры

В теории игр, Идеальное байесовское равновесие (PBE) - это концепция равновесия, актуальная для динамических игр с неполная информация (последовательные байесовские игры ). Это уточнение байесовского равновесия по Нэшу (BNE). PBE имеет два компонента - стратегии и убеждения:

  • Стратегия игрока в данном информационном наборе определяет, как этот игрок действует в этом информационном наборе. Действие может зависеть от истории. Это похоже на последовательную игру.
  • . убеждение игрока в данном информационном наборе определяет, в каком узле в этом информационном наборе игрок считает, что он играет. Убеждение может быть распределением вероятностей по узлам в информационном наборе (в частности: убеждение может быть распределением вероятностей по возможным типам других игроков). Формально система убеждений - это присвоение вероятностей каждому узлу в игре, так что сумма вероятностей в любом информационном наборе равна 1.

Стратегии и убеждения должны удовлетворять следующим условиям:

  • Последовательная рациональность : каждая стратегия должна быть оптимальной в ожидании, учитывая убеждения.
  • Последовательность : каждое убеждение должно обновляться в соответствии со стратегиями и правилом Байеса на каждом пути положительной вероятности (в путях с нулевой вероятностью, иначе говоря, пути отклонения от равновесия, убеждения могут быть произвольными).

PBE всегда является NE, но не может быть совершенным равновесием (SPE) подигры.

Содержание
  • 1 PBE в сигнальных играх
    • 1.1 Подарочная игра 1
    • 1.2 Подарочная игра 2
    • 1.3 Другие примеры
  • 2 PBE в многоступенчатых играх
    • 2.1 Повторяющееся общественное благо игра
    • 2.2 Прыжок
  • 3 См. также
  • 4 Ссылки
PBE в сигнальных играх

A сигнальная игра - это простейший вид динамической байесовской игры. Есть два игрока, один из них («получатель») имеет только один возможный тип, а другой («отправитель») - несколько возможных типов. Сначала играет отправитель, затем - получатель.

Чтобы вычислить PBE в сигнальной игре, мы рассматриваем два вида равновесий: разделяющее равновесие и объединяющее равновесие. В разделяющем равновесии каждый тип отправителя выполняет свое действие, поэтому действие отправителя дает информацию получателю; в равновесии объединения все типы отправителей выполняют одно и то же действие, поэтому действие отправителя не дает информации получателю.

Подарочная игра 1

Рассмотрим следующую игру:

  • У отправителя есть два возможных типа: либо «друг» (с априорной вероятностью p {\ displaystyle p}p ) или «враг» (с априорной вероятностью 1 - p {\ displaystyle 1-p}1-p ). У каждого типа есть две стратегии: либо дарить подарок, либо не дарить.
  • У получателя есть только один тип и две стратегии: либо принять подарок, либо отклонить его.
  • Утилита отправителя равно 1, если их подарок принят, -1, если их подарок отклонен, и 0, если они не дарили никакого подарка.
  • Полезность получателя зависит от того, кто дарит подарок:
    • Если отправитель - друг, тогда полезность получателя равна 1 (если они принимают) или 0 (если они отклоняют).
    • Если отправитель является врагом, то полезность получателя равна -1 (если они принимают) или 0 (если они отклонят).

Чтобы проанализировать PBE в этой игре, давайте сначала рассмотрим следующие возможные разделяющие равновесия:

  1. Стратегия отправителя такова: друг дает, а враг не дает. Убеждения получателя соответственно обновляются: если они получают подарок, они знают, что отправитель - друг; в противном случае они знают, что отправитель - враг. Итак, стратегия получателя: принять. Это НЕ равновесие, поскольку стратегия отправителя не оптимальна: вражеский отправитель может увеличить свой выигрыш с 0 до 1, отправив подарок.
  2. Стратегия отправителя такова: друг не дает, а враг дает. Убеждения получателя обновляются соответственно: если они получают подарок, они знают, что отправитель - враг; в противном случае они знают, что отправитель - друг. Стратегия получателя: отклонить. Опять же, это НЕ равновесие, поскольку стратегия отправителя не оптимальна: вражеский отправитель может увеличить свой выигрыш с -1 до 0, не посылая подарок.

Мы заключаем, что в этой игре нет разделяющего равновесия.

Теперь давайте посмотрим на следующие потенциальные равновесия объединения:

  1. Стратегия отправителя: всегда отдавать. Убеждения получателя не обновляются: они все еще верят в априорную вероятность, что отправитель является другом с вероятностью p {\ displaystyle p}p и врагом с вероятностью 1 - п {\ Displaystyle 1-р}1-p . Их выигрыш от принятия составляет 2 p - 1 {\ displaystyle 2p-1}{\ displaystyle 2p-1} , поэтому они принимают, если и только если p ≥ 1/2 {\ displaystyle p \ geq 1/2}{ \ displaystyle p \ geq 1/2} . Итак, это PBE (лучший ответ как для отправителя, так и для получателя), если и только если априорная вероятность быть другом удовлетворяет p ≥ 1/2 {\ displaystyle p \ geq 1/2}{ \ displaystyle p \ geq 1/2} .
  2. Стратегия отправителя: никогда не отдавать. Здесь убеждения получателя при получении подарка могут быть произвольными, поскольку получение подарка - это событие с вероятностью 0, поэтому правило Байеса не применяется. Например, предположим, что при получении подарка получатель считает, что отправитель является другом с вероятностью 0,2 (или любым другим числом меньше 0,5). Стратегия получателя: отклонить. Это PBE независимо от априорной вероятности. И отправитель, и получатель получают ожидаемую выплату 0, и ни один из них не может улучшить ожидаемую выплату путем отклонения.

Подводя итог:

  • Если p ≥ 1/2 {\ displaystyle p \ geq 1/2 }{ \ displaystyle p \ geq 1/2} , то есть два PBE: либо отправитель всегда дает, а получатель всегда принимает, либо отправитель всегда не дает, а получатель всегда отклоняет.
  • Если p < 1 / 2 {\displaystyle p<1/2}{\ displaystyle p <1/2} , то есть только один PBE: отправитель всегда не дает, а получатель всегда отклоняет. Этот PBE не эффективен по Парето, но это неизбежно, поскольку отправитель не может достоверно сообщить свой тип.

Gift game 2

В следующем примере набор PBE строго меньше, чем набор SPE и BNE. Это вариант вышеупомянутой подарочной игры со следующим изменением в утилите получателя:

  • Если отправитель является другом, то полезность получателя равна 1 (если они принимают) или 0 (если они отклоняют).
  • Если отправитель является врагом, то полезность получателя равна 0 (если они принимают) или -1 (если они отклоняют).

Обратите внимание, что в В этом варианте принятие является доминирующей стратегией для получателя.

Как и в примере 1, разделяющего равновесия нет. Давайте посмотрим на следующие потенциальные равновесия при объединении:

  1. Стратегия отправителя: всегда отдавать. Убеждения получателя не обновляются: они все еще верят в априорную вероятность, что отправитель является другом с вероятностью p {\ displaystyle p}p и врагом с вероятностью 1 - п {\ Displaystyle 1-р}1-p . Их выигрыш от принятия всегда выше, чем от отказа, поэтому они принимают (независимо от значения p {\ displaystyle p}p ). Это PBE - это лучший ответ как для отправителя, так и для получателя.
  2. Стратегия отправителя: никогда не отдавать. Предположим, что получатель считает, что при получении подарка отправитель является другом с вероятностью q {\ displaystyle q}q , где q {\ displaystyle q}q - любое число в [0, 1] {\ displaystyle [0,1]}[0,1] . Независимо от q {\ displaystyle q}q оптимальная стратегия получателя: принять. Это НЕ PBE, поскольку отправитель может повысить свой выигрыш с 0 до 1, сделав подарок.
  3. Стратегия отправителя: никогда не отдавать, а стратегия получателя: отклонить. Это НЕ PBE, поскольку для любого мнения получателя отклонение - не лучший ответ.

Обратите внимание, что вариант 3 - это равновесие по Нэшу! Если мы игнорируем убеждения, то отказ может считаться лучшим ответом для получателя, поскольку он не влияет на их выигрыш (поскольку в любом случае нет подарка). Более того, вариант 3 - это даже SPE, поскольку здесь единственная вспомогательная игра - это вся игра! Такие неправдоподобные равновесия могут возникать также в играх с полной информацией, но их можно устранить, применяя идеальное равновесие по Нэшу в подигре. Однако байесовские игры часто содержат не одноэлементные информационные наборы, и, поскольку вспомогательные игры должны содержать полные информационные наборы, иногда есть только одна вспомогательная игра - вся игра - и поэтому каждое равновесие по Нэшу тривиально является совершенным подигрой. Даже если игра имеет более одной вспомогательной игры, неспособность совершенствования вспомогательной игры прорезать информационные наборы может привести к тому, что неправдоподобное равновесие не будет устранено.

Подводя итог: в этом варианте подарочной игры есть два SPE: либо отправитель всегда дает, а получатель всегда принимает, либо отправитель всегда не дает, а получатель всегда отклоняет. Из них только первый - PBE; другой - не PBE, поскольку не может поддерживаться какой-либо системой убеждений.

Другие примеры

Дополнительные примеры см. В игре с сигналами № Примеры. См. Также другие примеры.

PBE в многоступенчатых играх

A многоступенчатая игра представляет собой последовательность одновременных игр, проводимых одна за другой. Эти игры могут быть идентичными (как в повторяющихся играх ) или разными.

Повторяющаяся общественно-полезная игра

СборкаНе
Сборка1-C1, 1-C21-C1, 1
Не1, 1-C20,0
Общественно полезная игра

Следующая игра представляет собой простое представление бесплатных -райдер проблема. Есть два игрока, каждый из которых может либо построить общественное благо, либо не построить. Каждый игрок получает 1, если общественное благо построено, и 0, если нет; кроме того, если игрок i {\ displaystyle i}я создает общественное благо, он должен заплатить стоимость C i {\ displaystyle C_ {i}}C_ {i} . Стоимость - это личная информация - каждый игрок знает свою цену, но не знает цену другого. Известно только, что каждая стоимость выбирается независимо от некоторого распределения вероятностей. Это делает эту игру байесовской игрой.

В одноэтапной игре каждый игрок строит, если и только если их стоимость меньше, чем их ожидаемый выигрыш от строительства. Ожидаемый выигрыш от строительства ровно в 1 раз превышает вероятность того, что другой игрок НЕ построит. В равновесии для каждого игрока i {\ displaystyle i}я существует пороговая стоимость C i ∗ {\ displaystyle C_ {i} ^ {*}}{\ displaystyle C_ {i} ^ {*}} , так что игрок вносит свой вклад тогда и только тогда, когда его стоимость меньше C i ∗ {\ displaystyle C_ {i} ^ {*}}{\ displaystyle C_ {i} ^ {*}} . Эта пороговая стоимость может быть рассчитана на основе распределения вероятностей затрат игроков. Например, если затраты распределяются равномерно на [0, 2] {\ displaystyle [0,2]}[0,2] , то существует симметричное равновесие, в котором пороговые затраты обоих игроков равны 2. / 3. Это означает, что игрок, стоимость которого составляет от 2/3 до 1, не будет вносить свой вклад, даже если его стоимость ниже выгоды, из-за возможности того, что другой игрок внесет свой вклад.

Теперь предположим, что эта игра повторяется два раза. Эти две пьесы независимы, то есть каждый день игроки одновременно решают, строить ли общественное благо в этот день, получить выплату 1, если благо построено в этот день, и оплатить свою стоимость, если они построили в этот день. Единственная связь между играми заключается в том, что, играя в первый день, игроки могут раскрыть некоторую информацию о своих расходах, и эта информация может повлиять на игру во второй день.

Мы ищем симметричный PBE. Обозначьте c ^ {\ displaystyle {\ hat {c}}}\ hat {c} пороговую стоимость обоих игроков в день 1 (так что в день 1 каждый игрок строит, если и только если их Стоимость не превышает c ^ {\ displaystyle {\ hat {c}}}\ hat {c} ). Чтобы вычислить c ^ {\ displaystyle {\ hat {c}}}\ hat {c} , мы работаем в обратном направлении и анализируем действия игроков во второй день. Их действия зависят от истории (= два действия в день 1), и есть три варианта:

  1. В день 1 ни одного игрока не построили. Итак, теперь оба игрока знают, что стоимость их оппонента выше c ^ {\ displaystyle {\ hat {c}}}\ hat {c} . Они соответствующим образом обновляют свои убеждения и приходят к выводу, что вероятность того, что их противник построит строительство в день 2, меньше. Следовательно, они увеличивают свою пороговую стоимость, а пороговая стоимость во второй день составляет c 00>c ^ {\ displaystyle c ^ {00}>{\ hat {c}}}{\displaystyle c^{00}>{\ hat {c}}} .
  2. В день 1 оба игрока построили. Итак, теперь оба игрока знают, что стоимость их противника ниже c ^ {\ displaystyle {\ hat {c}}}\ hat {c} . Они соответствующим образом обновляют свои убеждения и приходят к выводу, что существует большая вероятность того, что их противник построит строительство во второй день. Поэтому они уменьшают свою пороговую стоимость и пороговая стоимость в день 2 составляет c 11 < c ^ {\displaystyle c^{11}<{\hat {c}}}{\ displaystyle c ^ {11} <{\ hat {c}}} .
  3. В день 1 построен ровно один игрок; предположим, что это игрок 1. Итак, теперь известно, что стоимость игрока 1 ниже c ^ { \ displaystyle {\ hat {c}}}\ hat {c} и стоимость игрока 2 выше c ^ {\ displaystyle {\ hat {c}}}\ hat {c} . Существует равновесие, в котором действия в день 2 идентичны действиям в день 1 - игрок 1 строит, а игрок 2 не строит.

Можно рассчитать ожидаемый выигрыш «порогового игрока» (игрока со стоимостью точно c ^ {\ displaystyle {\ hat {c}}}\ hat {c} ) в каждой из этих ситуаций. Поскольку для порогового значения игроку должно быть безразлично, вносит ли он свой вклад или нет, можно рассчитать пороговую стоимость дня 1 c ^ {\ displaystyle {\ hat {c}}}\ hat {c} . Оказывается, этот порог ниже c ∗ {\ displaystyle c ^ {*}}c ^ {*} - порога в одноэтапной игре. Это означает, что в двухэтапной игре игроки меньше хотят строить, чем в одноэтапной. Интуитивно причина в том, что, когда игрок не вносит взнос в первый день, он заставляет другого игрока поверить, что его цена высока, и это заставляет другого игрока более охотно вносить взнос во второй день.

Скачок ставок

На открытом аукционе на английском аукционе участники торгов могут повышать текущую цену небольшими шагами (например, каждый раз на 1 доллар). Однако часто бывает скачок ставок - некоторые участники торгов повышают текущую цену намного больше, чем минимальное приращение. Одно из объяснений этого состоит в том, что это служит сигналом для других участников торгов. Существует PBE, в котором каждый участник торгов перепрыгивает, если и только если их значение превышает определенный порог. См. Jump bidding # signaling.

См. Также
Ссылки
Последняя правка сделана 2021-06-01 09:16:43
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте