Расстояние Хеллингера

редактировать

В вероятности и статистике, расстояние Хеллингера (тесно связано, хотя и отличается от Расстояние Бхаттачарьи ) используется для количественной оценки сходства между двумя распределениями вероятностей. Это разновидность f-дивергенции. Расстояние Хеллингера определяется в терминах интеграла Хеллингера, который был введен Эрнстом Хеллингером в 1909 году.

Содержание

1 Определение
- 1.1 Теория меры
- 1.2 Теория вероятностей с использованием меры Лебега
- 1.3 Дискретные распределения
2 Свойства
3 Связь с полным изменением расстояния
4 См. Также
5 Примечания
6 Ссылки

Определение

Теория меры

Чтобы определить расстояние Хеллингера в терминах теории меры, пусть P и Q обозначают две вероятностные меры, которые абсолютно непрерывны относительно третьей вероятностной меры λ. Квадрат расстояния Хеллингера между P и Q определяется как величина

H 2 (P, Q) = 1 2 ∫ (d P d λ - d Q d λ) 2 d λ. {\ displaystyle H ^ {2} (P, Q) = {\ frac {1} {2}} \ displaystyle \ int \ left ({\ sqrt {\ frac {dP} {d \ lambda}}} - {\ sqrt {\ frac {dQ} {d \ lambda}}} \ right) ^ {2} d \ lambda.}

H ^ {2} (P, Q) = {\ frac {1} {2}} \ displaystyle \ int \ left ({\ sqrt {\ frac {dP} {d \ lambda}}} - {\ sqrt {\ frac {dQ} {d \ lambda}}} \ right) ^ {2} d \ lambda.

Здесь dP / dλ и dQ / dλ - производные Радона – Никодима из P и Q соответственно. Это определение не зависит от λ, поэтому расстояние Хеллингера между P и Q не изменится, если λ заменить другой вероятностной мерой, относительно которой P и Q абсолютно непрерывны. Для компактности приведенная выше формула часто записывается как

H 2 (P, Q) = 1 2 ∫ (d P - d Q) 2. {\ displaystyle H ^ {2} (P, Q) = {\ frac {1} {2}} \ int \ left ({\ sqrt {dP}} - {\ sqrt {dQ}} \ right) ^ {2 }.}

H ^ {2} (P, Q) = {\ frac {1} {2} } \ int \ left ({\ sqrt {dP}} - {\ sqrt { dQ}} \ right) ^ {2}.

Теория вероятностей с использованием меры Лебега

Чтобы определить расстояние Хеллингера в терминах элементарной теории вероятностей, мы берем λ как меру Лебега, так что dP / dλ и dQ / dλ - это просто функции плотности вероятности. Если обозначить плотности как f и g, соответственно, квадрат расстояния Хеллингера можно выразить в виде стандартного интеграла исчисления

H 2 (f, g) = 1 2 ∫ (f (x) - g (x)) 2 dx = 1 - ∫ е (x) g (x) dx, {\ displaystyle H ^ {2} (f, g) = {\ frac {1} {2}} \ int \ left ({\ sqrt {f ( x)}} - {\ sqrt {g (x)}} \ right) ^ {2} \, dx = 1- \ int {\ sqrt {f (x) g (x)}} \, dx,}

{\ displaystyle H ^ {2} (f, g) = {\ frac {1} {2}} \ int \ left ({\ sqrt {f (x)}} - {\ sqrt {g (x)}} \ right) ^ { 2} \, dx = 1- \ int {\ sqrt {f (x) g (x)}} \, dx,}

, где вторая форма может быть получена путем расширения квадрата и использования того факта, что интеграл плотности вероятности по его области равен 1.

Расстояние Хеллингера H (P, Q) удовлетворяет свойству (выводимое из неравенства Коши – Шварца )

0 ≤ H (P, Q) ≤ 1. {\ displaystyle 0 \ leq H (P, Q) \ leq 1.}

0 \ leq H ( P, Q) \ leq 1.

Дискретные распределения

Для двух дискретных распределений вероятностей $P = (p 1,…, pk) {\ displaystyle P = (p_ {1}, \ ldots, p_ {k})}$ $P = (p_ {1}, \ ldots, p_ {k})$ и $Q = (q 1,…, qk) {\ displaystyle Q = (q_ {1}, \ ldots, q_ {k})}$ $Q = (q_ {1}, \ ldots, q_ {k})$ , их расстояние Хеллингера определяется как

H (P, Q) = 1 2 ∑ i = 1 k (pi - qi) 2, {\ displaystyle H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ sqrt {\ sum _ {i = 1} ^ {k} ({\ sqrt {p_ {i}}} - {\ sqrt {q_ {i}}}) ^ {2}}},}

H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ sqrt {\ sum _ {i = 1} ^ {k} ({\ sqrt {p_ {i}}} - {\ sqrt {q_ {i}}}) ^ {2}}},

который напрямую связан с евклидовой нормой разности векторов квадратного корня, т.е.

H (P, Q) = 1 2 ‖ P - Q ‖ 2. {\ displaystyle H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ bigl \ |} {\ sqrt {P}} - {\ sqrt {Q}} {\ bigr \ |} _ {2}.}

H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ bigl \ |} {\ sqrt {P}} - {\ sqrt {Q}} {\ bigr \ |} _ {2}.

Кроме того, $1 - H 2 (P, Q) = ∑ i = 1 kpiqi. {\ displaystyle 1-H ^ {2} (P, Q) = \ sum _ {i = 1} ^ {k} {\ sqrt {p_ {i} q_ {i}}}.}$ ${\ displaystyle 1-H ^ {2} (P, Q) = \ сумма _ {я = 1} ^ {k} {\ sqrt {p_ {i} q_ {i}}}.}$

Свойства

Расстояние Хеллингера образует ограниченную метрику на пространстве вероятностных распределений в заданном вероятностном пространстве.

Максимальное расстояние 1 достигается, когда P присваивает нулевую вероятность каждому набору, которому Q присваивает положительную вероятность, и наоборот.

Иногда множитель $1/2 {\ displaystyle 1 / {\ sqrt {2}}}$ $1 / {\ sqrt {2}}$ перед интегралом опускается, и в этом случае расстояние Хеллингера варьируется от от нуля до квадратного корня из двух.

Расстояние Хеллингера связано с коэффициентом Бхаттачарьи $BC (P, Q) {\ displaystyle BC (P, Q)}$ $BC (P, Q)$ как это может быть определяется как

H (P, Q) = 1 - BC (P, Q). {\ displaystyle H (P, Q) = {\ sqrt {1-BC (P, Q)}}.}

H (P, Q) = {\ sqrt {1-BC (P, Q)}}.

расстояния Хеллингера используются в теории последовательной и асимптотической статистики..

Квадрат расстояния Хеллингера между двумя нормальными распределениями $P ∼ N (μ 1, σ 1 2) {\ displaystyle \ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ му _ {1}, \ sigma _ {1} ^ {2})}$ $\ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ mu _ {1}, \ sigma _ {1} ^ {2})$ и $Q ∼ N (μ 2, σ 2 2) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sigma _ {2} ^ {2})}$ $\ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sigma _ {2} ^ {2})$ is:

H 2 (P, Q) = 1 - 2 σ 1 σ 2 σ 1 2 + σ 2 2 e - 1 4 (μ 1 - μ 2) 2 σ 1 2 + σ 2 2. {\ displaystyle H ^ {2} (P, Q) = 1 - {\ sqrt {\ frac {2 \ sigma _ {1} \ sigma _ {2}} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}} \, e ^ {- {\ frac {1} {4}} {\ frac {(\ mu _ {1} - \ mu _ {2}) ^ {2 }} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}}.}

H ^ {2} (P, Q) = 1 - {\ sqrt {\ frac {2 \ sigma _ {1} \ sigma _ {2}} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}} \, e ^ {- {\ frac {1} {4}} {\ frac {(\ mu _ {1} - \ mu _ {2}) ^ {2}} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}}.

Квадрат расстояния Хеллингера между двумя многомерными нормальными распределениями $П ∼ N (μ 1, ∑ 1) {\ Displaystyle \ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ mu _ {1}, \ sum _ {1})}$ ${\ displaystyle \ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ mu _ {1}, \ sum _ {1})}$ и $Q ∼ N (μ 2, ∑ 2) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sum _ {2})}$ ${\ displaystyle \ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sum _ {2})}$ равно:

H 2 (P, Q) = 1 - det (∑ 1) 1/4 det (∑ 2) 1/4 det (det 1 + ∑ 2 2) 1/2 exp ⁡ {- 1 8 (μ 1 - μ 2) T (∑ 1 + ∑ 2 2) - 1 (μ 1 - μ 2)} {\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {\ det (\ sum _ {1}) ^ {1/4} \ det (\ sum _ {2}) ^ {1/4}} {\ det \ left ({\ frac {\ sum _ {1}) + \ sum _ {2}} {2}} \ right) ^ {1/2}}} \ exp \ left \ {- {\ frac {1} {8}} (\ mu _ {1} - \ mu _ {2}) ^ {T} \ left ({\ frac {\ sum _ {1} + \ sum _ {2}} {2}} \ right) ^ {- 1} (\ mu _ {1} - \ mu _ {2}) \ right \}}

{\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {\ det (\ sum _ {1}) ^ {1/4} \ det (\ sum _ {2}) ^ {1/4}} {\ det \ left ({\ frac {\ sum _ {1} + \ sum _ {2}} {2}} \ right) ^ {1/2}}} \ exp \ left \ {- {\ frac {1} {8}} (\ mu _ {1 } - \ mu _ {2}) ^ {T} \ left ({\ frac {\ sum _ {1} + \ sum _ {2}} {2}} \ right) ^ {- 1} (\ mu _ {1} - \ mu _ {2}) \ right \}}

Квадрат расстояния Хеллингера между двумя экспоненциальным распределением ns $P ∼ E xp (α) {\ displaystyle \ scriptstyle P \, \ sim \, {\ rm {{Exp} (\ alpha)}}}$ $\ scriptstyle P \, \ sim \, {\ rm {{Exp} (\ alpha)}}$ и $Q ∼ E xp (β) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{Exp} (\ beta)}}}$ $\ scriptstyle Q \, \ sim \, {\ rm {{Exp} ( \ beta)}}$ это:

H 2 (P, Q) = 1-2 α β α + β. {\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {2 {\ sqrt {\ alpha \ beta}}} {\ alpha + \ beta}}.}

H ^ {2} (P, Q) = 1 - {\ frac {2 {\ sqrt {\ alpha \ beta}}} {\ alpha + \ beta}}.

Квадрат расстояния Хеллингера между два распределения Вейбулла $P ∼ W (k, α) {\ displaystyle \ scriptstyle P \, \ sim \, {\ rm {{W} (k, \ alpha)}}}$ $\ scriptstyle P \, \ sim \, {\ rm {{W} (k, \ alpha)}}$ и $Q ∼ W (k, β) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{W} (k, \ beta)}}}$ $\ scriptstyle Q \, \ sim \, {\ rm {{W} (k, \ beta)}}$ (где $k {\ displaystyle k}$ $k$ - общий параметр формы, а $α, β {\ displaystyle \ alpha \,, \ beta}$ $\ alpha \,, \ beta$ - параметры масштаба соответственно):

H 2 (P, Q) = 1-2 (α β) k / 2 α k + β k. {\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {2 (\ alpha \ beta) ^ {k / 2}} {\ alpha ^ {k} + \ beta ^ {k}}}.}

H ^ {2} (P, Q) = 1 - {\ frac {2 (\ alpha \ beta) ^ {k / 2}} {\ alpha ^ {k} + \ beta ^ {k}}}.

Квадрат расстояния Хеллингера между двумя распределениями Пуассона с параметрами скорости $α {\ displaystyle \ alpha}$ $\ alpha$ и $β {\ displaystyle \ beta}$ $\ beta$ , так что $P ∼ P oisson (α) {\ displaystyle \ scriptstyle P \, \ sim \, {\ rm {{Poisson} (\ alpha)}}}$ $\ scriptstyle P \, \ sim \, {\ rm {{Пуассон} (\ alpha)}}$ и $Q ∼ P oisson (β) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{Poisson} (\ beta)}}}$ $\ scriptstyle Q \, \ sim \, {\ rm {{Пуассон} (\ beta)}}$ , это:

H 2 (P, Q) = 1 - e - 1 2 (α - β) 2. {\ displaystyle H ^ {2} (P, Q) = 1-e ^ {- {\ frac {1} {2}} ({\ sqrt {\ alpha}} - {\ sqrt {\ beta}}) ^ {2}}.}

H ^ {2} (P, Q) = 1-e ^ {- {\ frac {1} {2}} ({\ sqrt {\ alpha}} - { \ sqrt {\ beta}}) ^ {2}}.

Квадрат расстояния Хеллингера между двумя бета-распределениями $P ∼ Beta (a 1, b 1) {\ displaystyle \ scriptstyle P \, \ sim \, {\ текст {бета}} (a_ {1}, b_ {1})}$ $\ scriptstyle P \, \ sim \, {\ text {Beta}} (a_ {1}, b_ {1})$ и $Q ∼ Beta (a 2, b 2) {\ displaystyle \ scriptstyle Q \, \ sim \, { \ text {Beta}} (a_ {2}, b_ {2})}$ $\ scriptstyle Q \, \ sim \, {\ text {Beta}} (a_ {2}, b_ {2})$ равно:

H 2 (P, Q) = 1 - B (a 1 + a 2 2, b 1 + b 2 2) B (a 1, b 1) B (a 2, b 2) {\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {B \ left ({\ frac {a_ {1} + a_ {2}} {2}}, {\ frac {b_ {1} + b_ {2}} {2}} \ right)} {\ sqrt {B (a_ {1}, b_ {1 }) B (a_ {2}, b_ {2})}}}}

H ^ {2 } (P, Q) = 1 - {\ frac {B \ left ({\ frac {a_ {1} + a_ {2}} {2}}, {\ frac {b_ {1} + b_ {2}}) {2}} \ right)} {\ sqrt {B (a_ {1}, b_ {1}) B (a_ {2}, b_ {2})}}}

где $B {\ displaystyle B}$ $B$ - это бета-функция.

Соединение с общим расстояние вариации

расстояние Хеллингера $H (P, Q) {\ displaystyle H (P, Q)}$ $ЧАС (P, Q)$ и общее расстояние вариации (или статистическое расстояние) $δ (P, Q) {\ displaystyle \ delta (P, Q)}$ $\ delta (P, Q)$ связаны следующим образом:

H 2 (P, Q) ≤ δ (P, Q) ≤ 2 H (P, Q). {\ displaystyle H ^ {2} (P, Q) \ leq \ delta (P, Q) \ leq {\ sqrt {2}} H (P, Q) \,.}

ЧАС ^ {2} (P, Q) \ leq \ delta (P, Q) \ leq {\ sqrt {2}} H (P, Q) \,.

Эти неравенства непосредственно следуют из неравенства между 1-нормой и 2-нормой.

См. также

Примечания

Ссылки

Ян, Грейс Ло ; Ле Кам, Люсьен М. (2000). Асимптотика в статистике: некоторые основные понятия. Берлин: Springer. ISBN 0-387-95036-2.
Vaart, A. W. van der. Асимптотическая статистика (Кембриджские серии по статистической и вероятностной математике). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 0-521-78450-6.
Поллард, Дэвид Э. (2002). Руководство пользователя для измерения теоретической вероятности. Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 0-521-00289-3.