Информационная метрика Fisher

редактировать

В информационной геометрии информационная метрика Fisher является конкретным Риманова метрика, которая может быть определена на гладком статистическом многообразии, т. Е. гладком многообразии, точками которого являются вероятностные меры, определенные на общем вероятностное пространство. Его можно использовать для расчета информационной разницы между измерениями.

Эта метрика интересна в нескольких отношениях. По, информационная метрика Фишера в статистических моделях является единственной римановой метрикой (с точностью до масштабирования), которая инвариантна при достаточной статистике.

. Ее также можно понимать как бесконечно малую форму относительной энтропии (т. Е. Дивергенция Кульбака – Лейблера ); в частности, это гессианский дивергенции. С другой стороны, ее можно понимать как метрику, индуцированную плоским пространством евклидовой метрикой после соответствующих изменений переменной. При расширении на комплексное проективное гильбертово пространство оно становится метрикой Фубини – Штуди ; записанная в терминах смешанных состояний, это квантовая метрика Буреса.

. Рассматриваемая исключительно как матрица, она известна как информационная матрица Фишера. Рассматриваемый как метод измерения, где он используется для оценки скрытых параметров с точки зрения наблюдаемых случайных величин, он известен как наблюдаемая информация.

Содержание
  • 1 Определение
  • 2 Отношение к Кульбаку – Лейблеру дивергенция
  • 3 Отношение к геометрии Руппейнера
  • 4 Изменение свободной энтропии
  • 5 Отношение к расходимости Дженсена – Шеннона
  • 6 Как евклидова метрика
  • 7 Как метрика Фубини – Этюд
  • 8 Постоянно- оцененные вероятности
  • 9 См. также
  • 10 Примечания
  • 11 Ссылки
Определение

Дано статистическое многообразие с координатами θ = (θ 1, θ 2,…, θ n) {\ displaystyle \ theta = (\ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {n})}\ theta = (\ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {n}) , записывается p (x, θ) {\ displaystyle p (x, \ theta)}п (Икс, \ theta) для распределения вероятностей как функции от θ {\ displaystyle \ theta}\theta . Здесь x {\ displaystyle x}x извлекается из пространства значений R для (дискретной или непрерывной) случайной величины X. Вероятность нормализована следующим образом: ∫ X p (x, θ) dx = 1 {\ displaystyle \ int _ {X} p (x, \ theta) \, dx = 1}\int_X p(x,\theta) \,dx = 1

Тогда информационная метрика Фишера принимает форма:

gjk (θ) = ∫ X ∂ log ⁡ p (x, θ) ∂ θ j ∂ log ⁡ p (x, θ) ∂ θ kp (x, θ) dx. {\ displaystyle g_ {jk} (\ theta) = \ int _ {X} {\ frac {\ partial \ log p (x, \ theta)} {\ partial \ theta _ {j}}} {\ frac {\ partial \ log p (x, \ theta)} {\ partial \ theta _ {k}}} p (x, \ theta) \, dx.}g_{jk}(\theta) = \int_X \frac{\partial \log p(x,\theta)}{\partial \theta_j} \frac{\partial \log p(x,\theta)}{\partial \theta_k} p(x,\theta) \, dx.

Интеграл выполняется по всем значениям x в X. Переменная θ {\ displaystyle \ theta}\theta теперь является координатой на римановом многообразии. Метки j и k указывают на локальные оси координат на коллекторе.

Когда вероятность выводится из меры Гиббса, как это было бы для любого марковского процесса, тогда θ {\ displaystyle \ theta}\theta также можно понимать как множитель Лагранжа ; Множители Лагранжа используются для обеспечения ограничений, таких как удержание ожидаемого значения некоторой количественной константы. Если существует n ограничений, удерживающих постоянными n различных значений математического ожидания, то размерность многообразия на n измерений меньше исходного пространства. В этом случае метрика может быть явно получена из статистической суммы ; вывод и обсуждение представлены там.

Подстановка i (x, θ) = - log ⁡ p (x, θ) {\ displaystyle i (x, \ theta) = - \ log {} p (x, \ theta)}i (x, \ theta) = - \ log { } p (x, \ theta) из теории информации эквивалентная форма приведенного выше определения:

gjk (θ) = ∫ X ∂ 2 i (x, θ) ∂ θ j ∂ θ kp ( x, θ) dx = E [∂ 2 i (x, θ) ∂ θ j ∂ θ k]. {\ displaystyle g_ {jk} (\ theta) = \ int _ {X} {\ frac {\ partial ^ {2} i (x, \ theta)} {\ partial \ theta _ {j} \, \ partial \ theta _ {k}}} p (x, \ theta) \, dx = \ mathrm {E} \ left [{\ frac {\ partial ^ {2} i (x, \ theta)} {\ partial \ theta _ {j} \, \ partial \ theta _ {k}}} \ right].}g _ {{jk}} (\ theta) = \ int _ {X} {\ frac {\ partial ^ {2} i (x, \ theta)} {\ partial \ theta _ {j} \, \ partial \ theta _ {k}}} p (x, \ theta) \, dx = {\ mathrm {E}} \ left [{\ frac {\ partial ^ {2} i (x, \ theta)} { \ partial \ theta _ {j} \, \ partial \ theta _ {k}}} \ right].

Чтобы показать, что эквивалентная форма равна приведенному выше определению, обратите внимание, что

E [∂ log ⁡ p (x, θ) ∂ θ J] знак равно 0 {\ Displaystyle \ mathrm {E} \ left [{\ frac {\ partial \ log {} p (x, \ theta)} {\ partial \ theta _ {j}}} \ right] = 0 }\mathrm{E} \left[ \frac{\partial\log{}p(x,\theta)}{\partial \theta_j} \right]=0

и примените ∂ ∂ θ k {\ displaystyle {\ frac {\ partial} {\ partial \ theta _ {k}}}}{\ displaystyle {\ frac {\ partial} {\ partial \ theta _ {k}}}} с обеих сторон.

Связь с дивергенцией Кульбака – Лейблера

В качестве альтернативы метрика может быть получена как вторая производная относительной энтропии или дивергенция Кульбака – Лейблера. Чтобы получить это, нужно рассмотреть два распределения вероятностей P (θ) {\ displaystyle P (\ theta)}{\ displaystyle P (\ theta)} и P (θ 0) {\ displaystyle P (\ theta _ {0 })}{\ displaystyle P (\ theta _ {0})} , бесконечно близких друг к другу, так что

P (θ) = P (θ 0) + ∑ j Δ θ j ∂ P ∂ θ j | θ 0 {\ Displaystyle P (\ theta) = P (\ theta _ {0}) + \ sum _ {j} \ Delta \ theta ^ {j} \ left. {\ frac {\ partial P} {\ partial \ theta ^ {j}}} \ right | _ {\ theta _ {0}}}{\ displaystyle P (\ theta) = P (\ theta _ {0}) + \ sum _ {j} \ Delta \ theta ^ {j} \ left. {\ Frac {\ partial P} {\ partial \ theta ^ {j}}} \ right | _ {\ theta _ {0}}}

с Δ θ j {\ displaystyle \ Delta \ theta ^ {j}}\ Delta \ theta ^ {j} бесконечно малым небольшое изменение θ {\ displaystyle \ theta}\theta в направлении j. Тогда, поскольку расхождение Кульбака – Лейблера DKL [P (θ 0) ‖ P (θ)] {\ displaystyle D _ {\ mathrm {KL}} [P (\ theta _ {0}) \ | P (\ theta)]}{\ displaystyle D _ {\ mathrm {KL}} [P (\ theta _ {0}) \ | P (\ theta)]} имеет абсолютный минимум 0, когда P (θ) = P (θ 0) {\ displaystyle P (\ theta) = P (\ theta _ {0})}{\ displaystyle P (\ theta) = P (\ theta _ {0})} , один имеет расширение до второго порядка в θ = θ 0 {\ displaystyle \ theta = \ theta _ {0}}\ the ta = \ theta_0 формы

f θ 0 (θ): знак равно DKL [п (θ 0) ‖ п (θ)] = 1 2 ∑ jk Δ θ j Δ θ kgjk (θ 0) + O (Δ θ 3) {\ displaystyle f _ {\ theta _ {0 }} (\ theta): = D _ {\ mathrm {KL}} [P (\ theta _ {0}) \ | P (\ theta)] = {\ frac {1} {2}} \ sum _ {jk } \ Delta \ theta ^ {j} \ Delta \ theta ^ {k} g_ {jk} (\ theta _ {0}) + \ mathrm {O} (\ Delta \ theta ^ {3})}{\ displaystyle f _ {\ theta _ {0}} (\ theta): = D _ {\ mathrm {KL}} [P (\ theta _ {0}) \ | P (\ theta)] = {\ frac {1} {2}} \ sum _ {jk} \ Delta \ theta ^ {j} \ Delta \ theta ^ {k} g_ {jk} (\ theta _ {0}) + \ mathrm {O} (\ Delta \ theta ^ {3})} .

симметричная матрица gjk {\ displaystyle g_ {jk}}g_ {jk} положительно (полу) определена и является матрицей Гессе функции f θ 0 (θ) { \ displaystyle f _ {\ theta _ {0}} (\ theta)}{\ displaystyle f _ {\ theta _ {0}} (\ theta)} в точке экстремума θ 0 {\ displaystyle \ theta _ {0}}\theta _{0}. Интуитивно это можно представить как: «Расстояние между двумя бесконечно близкими точками на статистическом дифференциальном многообразии является информационным различием между ними».

Связь с геометрией Руппайнера

Метрика Руппайнера и метрика Вайнхольда возникают как термодинамический предел информационной метрики Фишера..

Изменение свободной энтропии

Действие кривой на римановом многообразии определяется как

A = 1 2 ∫ ab ∂ θ j ∂ tgjk (θ) ∂ θ к ∂ tdt {\ displaystyle A = {\ frac {1} {2}} \ int _ {a} ^ {b} {\ frac {\ partial \ theta ^ {j} } {\ partial t}} g_ {jk} (\ theta) {\ frac {\ partial \ theta ^ {k}} {\ partial t}} dt}A = \ frac {1} {2} \ int_a ^ b \ frac {\ partial \ theta ^ j} {\ partial t} g_ {jk} (\ theta) \ frac {\ partial \ theta ^ k} {\ частичное t} dt

Параметром пути здесь является время t; можно понять, что это действие дает изменение свободной энтропии системы, когда она перемещается время от времени a от времени b. В частности, у каждого есть

Δ S = (b - a) A {\ displaystyle \ Delta S = (b-a) A \,}\ Delta S = (ba) A \,

как изменение свободной энтропии. Это наблюдение привело к практическому применению в химической и перерабатывающей промышленности : чтобы минимизировать изменение свободной энтропии системы, необходимо соблюдать минимальные геодезические путь между желаемыми конечными точками процесса. Геодезическая минимизирует энтропию благодаря неравенству Коши – Шварца, которое утверждает, что действие ограничено снизу длиной кривой, возведенной в квадрат.

Связь с расхождением Дженсена-Шеннона

Метрика Фишера также позволяет связать действие и длину кривой с расхождением Дженсена-Шеннона. В частности, имеется

(b - a) ∫ ab ∂ θ j ∂ tgjk ∂ θ k ∂ tdt = 8 ∫ abd JSD {\ displaystyle (ba) \ int _ {a} ^ {b} {\ frac {\ partial \ theta ^ {j}} {\ partial t}} g_ {jk} {\ frac {\ partial \ theta ^ {k}} {\ partial t}} \, dt = 8 \ int _ {a} ^ { b} dJSD}(ba) \ int _ {a} ^ {b} {\ frac {\ partial \ theta ^ {j}} {\ partial t}} g _ {{jk}} {\ frac {\ partial \ theta ^ {k}} {\ partial t}} \, dt = 8 \ int _ {a} ^ {b} dJSD

где под интегральной функцией dJSD понимается бесконечно малое изменение расходимости Дженсена – Шеннона на выбранном пути. Точно так же для длины кривой мы имеем

∫ ab ∂ θ j ∂ tgjk ∂ θ k ∂ tdt = 8 ∫ abd JSD {\ displaystyle \ int _ {a} ^ {b} {\ sqrt {{\ frac {\ partial \ theta ^ {j}} {\ partial t}} g_ {jk} {\ frac {\ partial \ theta ^ {k}} {\ partial t}}}} \, dt = {\ sqrt {8}} \ int _ {a} ^ {b} {\ sqrt {dJSD}}}\ int _ {a} ^ {b} {\ sqrt {{\ frac {\ partial \ theta ^ {j}} {\ partial t}} g _ {{jk}} {\ frac {\ partial \ theta ^ {k}} {\ partial t}}}} \, dt={\sqrt {8}}\int _{a}^{b}{\sqrt {dJSD}}

То есть квадратный корень из дивергенции Дженсена – Шеннона - это просто метрика Фишера (деленная на квадрат корень 8).

Как евклидова метрика

Для дискретного вероятностного пространства, то есть вероятностного пространства на конечном наборе объектов, метрику Фишера можно понимать просто как Евклидова метрика, ограниченная положительным «квадрантом» единичной сферы после соответствующих изменений переменной.

Рассмотрим плоское евклидово пространство размерности N + 1, параметризованное точками Y = (Y 0, ⋯, yn) {\ displaystyle y = (y_ {0}, \ cdots, y_ {n})}{\ displaystyle y = (y_ {0}, \ cdots, y_ {n})} . Метрика для евклидова пространства определяется как

h = ∑ i = 0 N dyidyi {\ displaystyle h = \ sum _ {i = 0} ^ {N} dy_ {i} \; dy_ {i}}{\ displaystyle h = \ sum _ {i = 0} ^ {N} dy_ {i} \; dy_ {i}}

где dyi {\ displaystyle \ textstyle dy_ {i}}\ textstyle dy_i - это 1-формы ; они являются базисными векторами для котангенсного пространства. Записав ∂ ∂ yj {\ displaystyle \ textstyle {\ frac {\ partial} {\ partial y_ {j}}}}\ textstyle \ frac {\ partial} {\ partial y_j} в качестве базисных векторов для касательного пространства, так что

dyj (∂ ∂ yk) = δ jk {\ displaystyle dy_ {j} \ left ({\ frac {\ partial} {\ partial y_ {k}}} \ right) = \ delta _ {jk} }dy_j \ left (\ frac {\ partial} {\ partial y_k} \ right) = \ delta_ {jk} ,

евклидова метрика может быть записана как

hjkflat = h (∂ ∂ yj, ∂ ∂ yk) = δ jk {\ displaystyle h_ {jk} ^ {\ mathrm {flat}} = h \ left ({ \ frac {\ partial} {\ partial y_ {j}}}, {\ frac {\ partial} {\ partial y_ {k}}} \ right) = \ delta _ {jk}}h ^ \ mathrm {flat} _ {jk} = h \ left (\ frac {\ partial} {\ partial y_j}, \ frac {\ partial} {\ partial y_k} \ right) = \ delta_ {jk}

Верхний индекс 'плоский 'здесь, чтобы напомнить, что при записи в координатной форме эта метрика относится к координате плоского пространства y {\ displaystyle y}y .

N-мерной единичной сфере, встроенной в (N + 1) - размерное евклидово пространство можно определить как

∑ i = 0 N yi 2 = 1 {\ displaystyle \ sum _ {i = 0} ^ {N} y_ {i} ^ {2} = 1}{\ displaystyle \ sum _ {i = 0} ^ {N} y_ {i} ^ {2} = 1}

Это вложение индуцирует метрику на сфере, она наследуется непосредственно от евклидовой метрики на объемлющем пространстве. Он принимает точно такую ​​же форму, что и выше, но гарантирует, что координаты должны лежать на поверхности сферы. Это можно сделать, например используя технику множителей Лагранжа.

Рассмотрим теперь изменение переменной p i = y i 2 {\ displaystyle p_ {i} = y_ {i} ^ {2}}p_i = y_i ^ 2 . Условие сферы теперь становится условием нормализации вероятности

∑ ipi = 1 {\ displaystyle \ sum _ {i} p_ {i} = 1}\ sum_i p_i = 1

, а показатель становится

h = ∑ idyidyi = ∑ idpidpi = 1 4 ∑ idpidpipi = 1 4 ∑ ipid (журнал ⁡ pi) d (журнал ⁡ pi) {\ displaystyle {\ begin {align} h = \ sum _ {i} dy_ {i} \; dy_ {i} = \ sum _ {i} d {\ sqrt {p_ {i}}} \; d {\ sqrt {p_ {i}}} \\ = {\ frac {1} {4}} \ sum _ {i} {\ frac {dp_ {i} \; dp_ {i}} {p_ {i}}} = {\ frac {1} {4}} \ sum _ {i} p_ {i} \; d (\ log p_ {i }) \; d (\ log p_ {i}) \ end {align}}}\begin{align} h =\sum_i dy_i \; dy_i = \sum_i d\sqrt{p_i} \; d\sqrt{p_i} \\ = \frac{1}{4}\sum_i \frac{dp_i \; dp_i}{p_i} = \frac{1}{4}\sum_i p_i\; d(\log p_i) \; d(\log p_i) \end{align}

Последнее можно распознать как одну четвертую метрики информации Фишера. Чтобы завершить процесс, напомним, что вероятности - это параметрические функции от переменных многообразия θ {\ displaystyle \ theta}\theta , то есть pi = pi (θ) {\ displaystyle р_ {я} = р_ {я} (\ тета)}p_i = p_i (\ theta) . Таким образом, указанное выше индуцирует метрику на многообразии параметров:

h = 1 4 ∑ ipi (θ) d (log ⁡ pi (θ)) d (log ⁡ pi (θ)) = 1 4 ∑ jk ∑ ipi ( θ) ∂ журнал ⁡ пи (θ) ∂ θ j ∂ журнал ⁡ pi (θ) ∂ θ kd θ jd θ k {\ displaystyle {\ begin {align} h = {\ frac {1} {4}} \ sum _ {i} p_ {i} (\ theta) \; d (\ log p_ {i} (\ theta)) \; d (\ log p_ {i} (\ theta)) \\ = {\ frac {1 } {4}} \ sum _ {jk} \ sum _ {i} p_ {i} (\ theta) \; {\ frac {\ partial \ log p_ {i} (\ theta)} {\ partial \ theta _ {j}}} {\ frac {\ partial \ log p_ {i} (\ theta)} {\ partial \ theta _ {k}}} d \ theta _ {j} d \ theta _ {k} \ end { выровненный}}}\begin{align} h = \frac{1}{4}\sum_i p_i(\theta) \; d(\log p_i(\theta))\; d(\log p_i(\theta)) \\ = \frac{1}{4}\sum_{jk} \sum_i p_i(\theta) \; \frac{\partial \log p_i(\theta)} {\partial \theta_j} \frac{\partial \log p_i(\theta)} {\partial \theta_k} d\theta_j d\theta_k \end{align}

или, в координатной форме, информационная метрика Фишера:

gjk (θ) = 4 hjkfisher = 4 h (∂ ∂ θ j, ∂ ∂ θ k) = ∑ ipi (θ) ∂ журнал ⁡ пи (θ) ∂ θ j ∂ журнал ⁡ пи (θ) ∂ θ k = E [∂ журнал ⁡ pi (θ) ∂ θ j ∂ журнал ⁡ pi (θ) ∂ θ k] {\ displaystyle {\ begin { выровнено} g_ {jk} (\ theta) = 4h_ {jk} ^ {\ mathrm {fisher}} = 4h \ left ({\ frac {\ partial} {\ partial \ theta _ {j}}}, {\ frac {\ partial} {\ partial \ theta _ {k}}} \ right) \\ = \ sum _ {i} p_ {i} (\ theta) \; {\ frac {\ partial \ log p_ {i} (\ theta)} {\ partial \ theta _ {j}}} \; {\ frac {\ partial \ log p_ {i} (\ theta)} { \ partial \ theta _ {k}}} \\ = \ mathrm {E} \ left [{\ frac {\ partial \ log p_ {i} (\ theta)} {\ partial \ theta _ {j}}} \; {\ frac {\ partial \ log p_ {i} (\ theta)} {\ partial \ theta _ {k}}} \ right] \ end {align}}}\ begin {align} g_ {jk} (\ theta) = 4h_ {jk} ^ \ mathrm {fisher} = 4 h \ left (\ frac {\ partial} {\ partial \ theta_j}, \ frac {\ partial} {\ partial \ theta_k} \ right) \\ = \ sum_i p_i (\ theta) \; \ frac {\ partial \ log p_i (\ theta)} {\ partial \ theta_j} \; \ frac {\ partial \ log p_i (\ theta)} {\ partial \ theta_k} \\ = \ mathrm {E} \ left [\ frac {\ partial \ log p_i (\ theta)} {\ partial \ theta_j} \; \ frac {\ partial \ log p_i (\ theta)} {\ partial \ theta_k} \ right] \ end {align}

где, как и раньше,

d θ j (∂ ∂ θ k) = δ jk. {\ displaystyle d \ theta _ {j} \ left ({\ frac {\ partial} {\ partial \ theta _ {k}}} \ right) = \ delta _ {jk}.}d \ theta _ {j} \ left ({\ frac {\ partial} {\ partial \ theta _ {k}}} \ right) = \ delta _ {{ jk}}.

Рыбак с надстрочным индексом 'присутствует, чтобы напомнить, что это выражение применимо для координат θ {\ displaystyle \ theta}\theta ; тогда как некоординатная форма такая же, как евклидова метрика (плоское пространство). Таким образом, информационная метрика Фишера на статистическом многообразии - это просто (четыре раза) евклидова метрика, ограниченная положительным квадрантом сферы после соответствующих изменений переменной.

Когда случайная величина p {\ displaystyle p}p не дискретна, а непрерывна, аргумент все еще сохраняется. Это можно увидеть двумя разными способами. Один из способов состоит в том, чтобы тщательно преобразовать все вышеперечисленные шаги в бесконечномерном пространстве, уделяя особое внимание правильному определению пределов и т. Д., Чтобы убедиться, что все манипуляции четко определены, сходятся и т. Д. Другой способ, поскольку отметил Громов, заключается в использовании теоретико-категориального подхода; то есть отметить, что описанные выше манипуляции остаются в силе в категории вероятностей. Здесь следует отметить, что такая категория будет обладать свойством Радона – Никодима, то есть в этой категории выполняется теорема Радона – Никодима. Сюда входят гильбертовы пространства ; они интегрируемы с квадратом, и в описанных выше манипуляциях этого достаточно, чтобы безопасно заменить суммирование по квадратам на интеграл по квадратам.

Как метрика Фубини – Штуди

Вышеупомянутые манипуляции, выводящие метрику Фишера из евклидовой метрики, могут быть распространены на комплексные проективные гильбертовы пространства. В этом случае получается метрика Фубини – Штуди. Возможно, это не должно вызывать удивления, поскольку метрика Фубини – Штуди обеспечивает средства измерения информации в квантовой механике. Метрика Буреша, также известная как метрика Хелстрома, идентична метрике Фубини – Штуди, хотя последняя обычно записывается в терминах чистых состояний, как показано ниже, тогда как метрика Буреша написана для смешанных состояний. Устанавливая фазу комплексной координаты равной нулю, можно получить ровно одну четвертую метрики информации Фишера, точно так же, как указано выше.

Начинают с того же трюка, построения амплитуды вероятности, записанной в полярных координатах, так:

ψ (x; θ) = p ( Икс; θ) ei α (Икс; θ) {\ Displaystyle \ psi (x; \ theta) = {\ sqrt {p (x; \ theta)}} \; e ^ {i \ alpha (x; \ theta) }}\ psi (x; \ theta) = \ sqrt {p (x; \ theta)} \; e ^ {i \ alpha (x; \ theta)}

Здесь ψ (x; θ) {\ displaystyle \ psi (x; \ theta)}\ psi (x; \ theta) - комплексная амплитуда вероятности ; p (x; θ) {\ displaystyle p (x; \ theta)}p (x; \ theta) и α (x; θ) {\ displaystyle \ alpha (x; \ theta)}\ alpha (x; \ theta) строго реальны. Предыдущие вычисления получены путем установки α (x; θ) = 0 {\ displaystyle \ alpha (x; \ theta) = 0}\ alpha (x; \ theta) = 0 . Обычное условие, при котором вероятности лежат в пределах симплекса, а именно, что

∫ X p (x; θ) dx = 1 {\ displaystyle \ int _ {X} p (x; \ theta) \, dx = 1}\ int _ {X} p (x; \ theta) \, dx = 1

эквивалентно выражается идеей нормализации квадрата амплитуды:

∫ X | ψ (x; θ) | 2 dx = 1 {\ displaystyle \ int _ {X} \ vert \ psi (x; \ theta) \ vert ^ {2} \, dx = 1}\ int _ {X} \ vert \ psi (x; \ theta) \ vert ^ {2} \, d x = 1

Когда ψ (x; θ) {\ displaystyle \ psi (x; \ theta)}\ psi (x; \ theta) реально, это поверхность сферы.

метрика Фубини – Штуди, записанная в бесконечно малой форме с использованием квантово-механической брэкет-нотации, составляет

ds 2 = ⟨δ ψ ∣ δ ψ⟩ ⟨ψ ∣ ψ⟩ - ⟨δ ψ ∣ ψ⟩ ⟨ψ ∣ δ ψ⟩ ⟨ψ ∣ ψ⟩ 2. {\ displaystyle ds ^ {2} = {\ frac {\ langle \ delta \ psi \ mid \ delta \ psi \ rangle} {\ langle \ psi \ mid \ psi \ rangle}} - {\ frac {\ langle \ delta \ psi \ mid \ psi \ rangle \; \ langle \ psi \ mid \ delta \ psi \ rangle} {{\ langle \ psi \ mid \ psi \ rangle} ^ {2}}}.}ds ^ {2} = {\ frac {\ langle \ delta \ psi \ mid \ delta \ psi \ rangle} {\ langle \ psi \ mid \ psi \ rangle}} - {\ frac {\ langle \ delta \ psi \ mid \ psi \ rangle \; \ langle \ psi \ mid \ delta \ psi \ rangle} {{\ langle \ psi \ mid \ psi \ rangle} ^ {2}}}.

В этих обозначениях, у каждого есть это ⟨x ∣ ψ⟩ = ψ (x; θ) {\ displaystyle \ langle x \ mid \ psi \ rangle = \ psi (x; \ theta)}\ langle x \ mid \ psi \ rangle = \ psi (x; \ theta) и интегрирование по все пространство с мерой X записывается как

ϕ ∣ ψ⟩ = ∫ X ϕ ∗ (x; θ) ψ (x; θ) dx. {\ displaystyle \ langle \ phi \ mid \ psi \ rangle = \ int _ {X} \ phi ^ {*} (x; \ theta) \ psi (x; \ theta) \, dx.}\ langle \ phi \ mid \ psi \ rangle = \ int _ {X} \ phi ^ {*} (x; \ theta) \ psi (x ; \ тета) \, dx.

Выражение | δ ψ⟩ {\ displaystyle \ vert \ delta \ psi \ rangle}\ vert \ delta \ psi \ rangle можно понимать как бесконечно малую вариацию; эквивалентно, это можно понимать как 1-форму в котангенсном пространстве. Используя бесконечно малую нотацию, полярная форма приведенной выше вероятности просто

δ ψ = (δ p 2 p + i δ α) ψ {\ displaystyle \ delta \ psi = \ left ({\ frac {\ delta p}) {2p}} + i \ delta \ alpha \ right) \ psi}\ delta \ psi = \ left (\ frac {\ delta p} {2p} + i \ delta \ alpha \ right) \ psi

Вставка вышеуказанного в метрику Фубини – Штуди дает:

ds 2 = 1 4 ∫ X (δ log ⁡ p) 2 pdx + ∫ Икс (δ α) 2 pdx - (∫ X δ α pdx) 2 - я 2 ∫ X (δ log ⁡ p δ α - δ α δ log ⁡ p) pdx {\ displaystyle {\ begin {align} ds ^ {2 } = {} {\ frac {1} {4}} \ int _ {X} (\ delta \ log p) ^ {2} \; p \, dx \\ [8pt] {} + \ int _ {X} (\ delta \ alpha) ^ {2} \; p \, dx- \ left (\ int _ {X} \ delta \ alpha \; p \, dx \ right) ^ {2} \\ [8pt ] {} - {\ frac {i} {2}} \ int _ {X} (\ delta \ log p \ delta \ alpha - \ delta \ alpha \ delta \ log p) \; p \, dx \ end {выравнивается}}}{\ displaystyle {\ begin {align} ds ^ {2} = {} {\ frac {1} {4}} \ int _ {X} (\ delta \ log p) ^ {2} \; p \, dx \\ [8pt] {} + \ int _ {X} (\ delta \ alpha) ^ {2} \; p \, dx- \ left (\ int _ {X } \ delta \ alpha \; p \, dx \ right) ^ {2} \\ [8pt] {} - {\ frac {i} {2}} \ int _ {X} (\ delta \ log p \ дельта \ альфа - \ дельта \ альфа \ дельта \ лог р) \; р \, dx \ конец {выровнено}}}

Установка δ α = 0 {\ displaystyle \ delta \ alpha = 0}\ delta \ alpha = 0 в приведенном выше примере дает понять, что первый член (одна четвертая) Информационная метрика Фишера. Полную форму вышеизложенного можно сделать немного более ясной, изменив обозначения на стандартную риманову геометрию, так что метрика станет симметричной 2-формой, действующей на касательное пространство. Изменение обозначения выполняется простой заменой δ → d {\ displaystyle \ delta \ на d}\ delta \ to d и ds 2 → h {\ displaystyle ds ^ {2} \ на h}ds ^ 2 \ в час и отметив, что интегралы - это просто математические ожидания; так:

h = 1 4 E [(d log ⁡ p) 2] + E [(d α) 2] - (E [d α]) 2 - i 2 E [d log ⁡ p ∧ d α] {\ displaystyle {\ begin {align} h = {} {\ frac {1} {4}} \ mathrm {E} \ left [(d \ log p) ^ {2} \ right] + \ mathrm {E } \ left [(d \ alpha) ^ {2} \ right] - \ left (\ mathrm {E} \ left [d \ alpha \ right] \ right) ^ {2} \\ [8pt] {} - {\ frac {i} {2}} \ mathrm {E} \ left [d \ log p \ wedge d \ alpha \ right] \ end {align}}}{\ displaystyle {\ begin {align} h = {} {\ frac {1} {4}} \ mathrm {E} \ left [(d \ log p) ^ {2} \ right] + \ mathrm {E} \ left [(d \ alpha) ^ {2} \ right] - \ left (\ mathrm {E} \ left [d \ alpha \ right] \ right) ^ {2} \\ [8pt ] {} - {\ frac {i} {2}} \ mathrm {E} \ left [d \ log p \ wedge d \ alpha \ right] \ end {align}}}

Мнимый член - это симплектическая форма, это фаза Берри или геометрическая фаза. В индексной записи метрика:

hjk = h (∂ ∂ θ j, ∂ ∂ θ k) = 1 4 E [∂ log ⁡ p ∂ θ j ∂ log ⁡ p ∂ θ k] + E [∂ α ∂ θ j ∂ α ∂ θ k] - E [∂ α ∂ θ j] E [∂ α ∂ θ k] - i 2 E [∂ log ⁡ p ∂ θ j ∂ α ∂ θ k - ∂ α ∂ θ j ∂ журнал ⁡ п ∂ θ К] {\ Displaystyle {\ begin {align} h_ {jk} = {} h \ left ({\ frac {\ partial} {\ partial \ theta _ {j}}}, {\ frac { \ partial} {\ partial \ theta _ {k}}} \ right) \\ [8pt] = {} {\ frac {1} {4}} \ mathrm {E} \ left [{\ frac {\ partial \ log p} {\ partial \ theta _ {j}}} {\ frac {\ partial \ log p} {\ partial \ theta _ {k}}} \ right] \\ [8pt] {} + \ mathrm {E} \ left [{\ frac {\ partial \ alpha} {\ partial \ theta _ {j}}} {\ frac {\ partial \ alpha} {\ partial \ theta _ {k}}} \ right] - \ mathrm {E} \ left [{\ frac {\ partial \ alpha} {\ partial \ theta _ {j}}} \ right] \ mathrm {E} \ left [{\ frac {\ partial \ alpha} {\ partial \ theta _ {k}}} \ right] \\ [8pt] {} - {\ frac {i} {2}} \ mathrm {E} \ left [{\ frac {\ partial \ log p} { \ partial \ theta _ {j}}} {\ frac {\ partial \ alpha} {\ partial \ theta _ {k}}} - {\ frac {\ partial \ alpha} {\ partial \ theta _ {j}} } {\ frac {\ partial \ log p} {\ partial \ theta _ {k}}} \ right] \ end {выравнивается}}}{\ displaystyle {\ begin {align} h_ {jk} = {} h \ left ({\ frac {\ partial} {\ partial \ theta _ {j}}}, {\ frac {\ partial} {\ partial \ theta _ {k}}} \ right) \\ [8pt] = {} {\ frac {1} {4}} \ mathrm {E} \ left [{\ frac {\ partial \ log p} {\ partial \ theta _ {j}}} { \ frac {\ partial \ log p} {\ partial \ theta _ {k}}} \ right] \\ [8pt] {} + \ mathrm {E} \ left [{\ frac {\ partial \ alpha} { \ partial \ theta _ {j}}} {\ frac {\ partial \ alpha} {\ partial \ theta _ {k}}} \ right] - \ mathrm {E} \ left [{\ frac {\ partial \ alpha} {\ partial \ theta _ {j}}} \ right] \ mathrm {E} \ left [{\ frac {\ partial \ alpha} {\ partial \ theta _ {k}}} \ right] \\ [8pt] {} - {\ frac {i} {2 }} \ mathrm {E} \ left [{\ frac {\ partial \ log p} {\ partial \ theta _ {j}}} {\ frac {\ partial \ alpha} {\ partial \ theta _ {k}} } - {\ frac {\ partial \ alpha} {\ partial \ theta _ {j}}} {\ frac {\ partial \ log p} {\ partial \ theta _ {k}}} \ right] \ end {выровнено }}}

Опять же, можно ясно видеть, что первый член (одна четвертая) является метрикой информации Фишера, установив α = 0 {\ displaystyle \ alpha = 0}\ alpha = 0 . Эквивалентно, метрику Фубини – Штуди можно понимать как метрику комплексного проективного гильбертова пространства, индуцированную комплексным расширением плоской евклидовой метрики. Разница между этой метрикой и метрикой Буреса заключается в том, что метрика Буреса записывается в терминах смешанных состояний.

Непрерывные вероятности

Несколько более формальное абстрактное определение может быть дано следующим образом.

Пусть X будет ориентируемым многообразием, и пусть (X, Σ, μ) {\ displaystyle (X, \ Sigma, \ mu)}(X, \ Sigma, \ mu) будет мерой на X. Точно так же пусть (Ω, F, P) {\ displaystyle (\ Omega, {\ mathcal {F}}, P)}(\ Omega, \ mathcal {F}, P) быть вероятностным пространством на Ω = X {\ displaystyle \ Омега = X}\ Omega = X , с сигма-алгеброй F = Σ {\ displaystyle {\ mathcal {F}} = \ Sigma}\ mathcal {F} = \ Sigma и вероятностью P = μ {\ displaystyle P = \ mu}P = \ mu .

статистическое многообразие S (X) X определяется как пространство всех мер μ {\ displaystyle \ mu}\ mu на X (с фиксированной сигма-алгеброй Σ {\ displaystyle \ Sigma}\ Sigma ). Обратите внимание, что это пространство бесконечномерно и обычно считается пространством Фреше. Точки S (X) суть меры.

Выберите точку μ ∈ S (X) {\ displaystyle \ mu \ in S (X)}\ mu \ in S (X) и рассмотрите касательное пространство Т μ S {\ Displaystyle T _ {\ mu} S}T_ \ mu S . Тогда информационная метрика Фишера представляет собой внутренний продукт в касательном пространстве. При некотором злоупотреблении обозначениями это можно записать как

g (σ 1, σ 2) = ∫ X d σ 1 d μ d σ 2 d μ d μ {\ displaystyle g (\ sigma _ {1}, \ sigma _ {2}) = \ int _ {X} {\ frac {d \ sigma _ {1}} {d \ mu}} {\ frac {d \ sigma _ {2}} { d \ mu}} d \ mu}g (\ sigma_1, \ sigma_2) = \ int_X \ frac {d \ sigma_1} {d \ mu} \ frac {d \ sigma_2} {d \ mu} d \ mu

Здесь σ 1 {\ displaystyle \ sigma _ {1}}\sigma _{1}и σ 2 {\ displaystyle \ sigma _ {2} }\ sigma _ {2} - векторы в касательном пространстве; то есть σ 1, σ 2 ∈ T μ S {\ displaystyle \ sigma _ {1}, \ sigma _ {2} \ in T _ {\ mu} S}\ sigma_1, \ sigma_2 \ in T_ \ mu S . Злоупотребление записью состоит в том, чтобы писать касательные векторы, как если бы они были производными, и вставлять посторонний d при записи интеграла: интегрирование должно выполняться с использованием меры μ {\ displaystyle \ mu}\ mu по всему пространству X. Такое злоупотребление обозначениями фактически считается совершенно нормальным в теории меры ; это стандартное обозначение для производной Радона – Никодима.

. Чтобы интеграл был четко определен, пространство S (X) должно обладать свойством Радона – Никодима и т. д. в частности, касательное пространство ограничено теми векторами, которые интегрируемы с квадратом. Квадратная интегрируемость эквивалентна утверждению, что последовательность Коши сходится к конечному значению при слабой топологии : пространство содержит свои предельные точки. Обратите внимание, что гильбертовы пространства обладают этим свойством.

Это определение метрики можно рассматривать как эквивалентное предыдущему в несколько этапов. Сначала выбирается подмногообразие в S (X), рассматривая только те меры μ {\ displaystyle \ mu}\ mu , которые параметризуются некоторым плавно изменяющимся параметром θ {\ Displaystyle \ theta}\theta . Тогда, если θ {\ displaystyle \ theta}\theta конечномерно, то подмногообразие тоже; аналогично, касательное пространство имеет ту же размерность, что и θ {\ displaystyle \ theta}\theta .

С некоторыми дополнительными злоупотреблениями языком, можно заметить, что экспоненциальная карта обеспечивает отображение векторов в касательной пространство к точкам в нижележащем многообразии. Таким образом, если σ ∈ T μ S {\ displaystyle \ sigma \ in T _ {\ mu} S}\ sigma \ in T_ \ mu S - вектор в касательном пространстве, то p = exp ⁡ (σ) {\ displaystyle p = \ exp (\ sigma)}p = \ exp (\ sigma) - соответствующая вероятность, связанная с точкой p ∈ S (X) {\ displaystyle p \ in S (X)}p \ in S (X) (после параллельного переноса экспоненциального отображения в μ {\ displaystyle \ mu}\ mu .) И наоборот, для точки p ∈ S (X) { \ displaystyle p \ in S (X)}p \ in S (X) , логарифм дает точку в касательном пространстве (грубо говоря, опять же, нужно переносить из начала координат в точку μ {\ displaystyle \ mu }\ mu ; подробности см. В первоисточниках). Таким образом, в более простом определении, данном ранее, появляется логарифм.

См. Также
Примечания
Ссылки
  • Эдвард Х. Фенг, Гэвин Э. Крукс, «Далекие от равновесия измерения термодинамической длины » (2009) Physical Review E 79, pp 012104. DOI: 10.1103 / PhysRevE.79.012104
  • Shun ' ichi Amari (1985) Дифференциально-геометрические методы в статистике, Конспект лекций по статистике, Springer-Verlag, Берлин.
  • Шунити Амари, Хироши Нагаока (2000) Методы информационной геометрии, Переводы математических монографии; v. 191, Американское математическое общество.
  • Паоло Гибилиско, Ева Риккоманьо, Мария Пьера Рогантин и Генри П. Винн, (2009) Алгебраические и геометрические методы в статистике, Cambridge U. Press, Кембридж.
Последняя правка сделана 2021-05-20 07:15:50
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте