Теория игр среднего поля

редактировать

Теория игр среднего поля - это исследование принятия стратегических решений небольшими взаимодействующими агентами в очень больших популяциях. Использование термина «среднее поле» вдохновлено теорией среднего поля в физике, которая рассматривает поведение систем из большого числа частиц, в которых отдельные частицы оказывают незначительное влияние на систему.

Этот класс проблем рассматривался в экономической литературе Бояном Йовановичем и Робертом В. Розенталем, в технической литературе Миньи Хуангом, Роландом Малхамом и Питером Э. Кейнсом и независимо и примерно в то же время математиками Жан-Мишелем Ласри  [ фр. ] и Пьер-Луи Лионс.

В непрерывном времени игра среднего поля обычно состоит из уравнения Гамильтона – Якоби – Беллмана, которое описывает задачу оптимального управления индивидуумом, и уравнения Фоккера – Планка, которое описывает динамику совокупного распределения агентов. При достаточно общих предположениях можно доказать, что класс игр среднего поля является пределом для N- игроков равновесия по Нэшу. N {\ displaystyle N \ to \ infty}

Понятие, связанное с игрой среднего поля, - это «управление по типу среднего поля». В этом случае социальный планировщик контролирует распределение состояний и выбирает стратегию контроля. Решение задачи управления типа среднего поля обычно может быть выражено в виде сопряженного сопряженного уравнения Гамильтона – Якоби – Беллмана, соединенного с уравнением Колмогорова. Теория игр типа среднего поля - это многоагентное обобщение одноагентного управления типа среднего поля.

СОДЕРЖАНИЕ

  • 1 Линейно-квадратичная игровая задача Гаусса
  • 2 См. Также
  • 3 ссылки
  • 4 Внешние ссылки

Линейно-квадратичная игровая задача Гаусса

От Caines (2009) относительно простой моделью крупномасштабных игр является линейно-квадратичная гауссовская модель. Динамика отдельного агента моделируется как стохастическое дифференциальное уравнение

d Икс я знак равно ( а я Икс я + б я ты я ) d т + σ я d ш я , я знак равно 1 , , N , {\ displaystyle dx_ {i} = (a_ {i} x_ {i} + b_ {i} u_ {i}) \, dt + \ sigma _ {i} \, dw_ {i}, \ quad i = 1, \ точки, N,}

где - состояние -го агента, а - контроль. Стоимость индивидуального агента составляет Икс я {\ displaystyle x_ {i}} я {\ displaystyle i} ты я {\ displaystyle u_ {i}}

J я ( ты я , ν ) знак равно E { 0 е - ρ т [ ( Икс я - ν ) 2 + р ты я 2 ] d т } , ν знак равно Φ ( 1 N k я N Икс k + η ) . {\ displaystyle J_ {i} (u_ {i}, \ nu) = \ mathbb {E} \ left \ {\ int _ {0} ^ {\ infty} e ^ {- \ rho t} \ left [(x_ {i} - \ nu) ^ {2} + ru_ {i} ^ {2} \ right] \, dt \ right \}, \ quad \ nu = \ Phi \ left ({\ frac {1} {N} } \ sum _ {k \ neq i} ^ {N} x_ {k} + \ eta \ right).}

Связь между агентами происходит в функции стоимости.

Смотрите также

использованная литература

внешние ссылки

Последняя правка сделана 2024-01-02 04:10:16
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте