Расстояние Хеллингера

редактировать

В вероятности и статистике, расстояние Хеллингера (тесно связано, хотя и отличается от Расстояние Бхаттачарьи ) используется для количественной оценки сходства между двумя распределениями вероятностей. Это разновидность f-дивергенции. Расстояние Хеллингера определяется в терминах интеграла Хеллингера, который был введен Эрнстом Хеллингером в 1909 году.

Содержание
  • 1 Определение
    • 1.1 Теория меры
    • 1.2 Теория вероятностей с использованием меры Лебега
    • 1.3 Дискретные распределения
  • 2 Свойства
  • 3 Связь с полным изменением расстояния
  • 4 См. Также
  • 5 Примечания
  • 6 Ссылки
Определение

Теория меры

Чтобы определить расстояние Хеллингера в терминах теории меры, пусть P и Q обозначают две вероятностные меры, которые абсолютно непрерывны относительно третьей вероятностной меры λ. Квадрат расстояния Хеллингера между P и Q определяется как величина

H 2 (P, Q) = 1 2 ∫ (d P d λ - d Q d λ) 2 d λ. {\ displaystyle H ^ {2} (P, Q) = {\ frac {1} {2}} \ displaystyle \ int \ left ({\ sqrt {\ frac {dP} {d \ lambda}}} - {\ sqrt {\ frac {dQ} {d \ lambda}}} \ right) ^ {2} d \ lambda.}H ^ {2} (P, Q) = {\ frac {1} {2}} \ displaystyle \ int \ left ({\ sqrt {\ frac {dP} {d \ lambda}}} - {\ sqrt {\ frac {dQ} {d \ lambda}}} \ right) ^ {2} d \ lambda.

Здесь dP / dλ и dQ / dλ - производные Радона – Никодима из P и Q соответственно. Это определение не зависит от λ, поэтому расстояние Хеллингера между P и Q не изменится, если λ заменить другой вероятностной мерой, относительно которой P и Q абсолютно непрерывны. Для компактности приведенная выше формула часто записывается как

H 2 (P, Q) = 1 2 ∫ (d P - d Q) 2. {\ displaystyle H ^ {2} (P, Q) = {\ frac {1} {2}} \ int \ left ({\ sqrt {dP}} - {\ sqrt {dQ}} \ right) ^ {2 }.}H ^ {2} (P, Q) = {\ frac {1} {2} } \ int \ left ({\ sqrt {dP}} - {\ sqrt { dQ}} \ right) ^ {2}.

Теория вероятностей с использованием меры Лебега

Чтобы определить расстояние Хеллингера в терминах элементарной теории вероятностей, мы берем λ как меру Лебега, так что dP / dλ и dQ / dλ - это просто функции плотности вероятности. Если обозначить плотности как f и g, соответственно, квадрат расстояния Хеллингера можно выразить в виде стандартного интеграла исчисления

H 2 (f, g) = 1 2 ∫ (f (x) - g (x)) 2 dx = 1 - ∫ е (x) g (x) dx, {\ displaystyle H ^ {2} (f, g) = {\ frac {1} {2}} \ int \ left ({\ sqrt {f ( x)}} - {\ sqrt {g (x)}} \ right) ^ {2} \, dx = 1- \ int {\ sqrt {f (x) g (x)}} \, dx,}{\ displaystyle H ^ {2} (f, g) = {\ frac {1} {2}} \ int \ left ({\ sqrt {f (x)}} - {\ sqrt {g (x)}} \ right) ^ { 2} \, dx = 1- \ int {\ sqrt {f (x) g (x)}} \, dx,}

, где вторая форма может быть получена путем расширения квадрата и использования того факта, что интеграл плотности вероятности по его области равен 1.

Расстояние Хеллингера H (P, Q) удовлетворяет свойству (выводимое из неравенства Коши – Шварца )

0 ≤ H (P, Q) ≤ 1. {\ displaystyle 0 \ leq H (P, Q) \ leq 1.}0 \ leq H ( P, Q) \ leq 1.

Дискретные распределения

Для двух дискретных распределений вероятностей P = (p 1,…, pk) {\ displaystyle P = (p_ {1}, \ ldots, p_ {k})}P = (p_ {1}, \ ldots, p_ {k}) и Q = (q 1,…, qk) {\ displaystyle Q = (q_ {1}, \ ldots, q_ {k})}Q = (q_ {1}, \ ldots, q_ {k}) , их расстояние Хеллингера определяется как

H (P, Q) = 1 2 ∑ i = 1 k (pi - qi) 2, {\ displaystyle H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ sqrt {\ sum _ {i = 1} ^ {k} ({\ sqrt {p_ {i}}} - {\ sqrt {q_ {i}}}) ^ {2}}},}H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ sqrt {\ sum _ {i = 1} ^ {k} ({\ sqrt {p_ {i}}} - {\ sqrt {q_ {i}}}) ^ {2}}},

который напрямую связан с евклидовой нормой разности векторов квадратного корня, т.е.

H (P, Q) = 1 2 ‖ P - Q ‖ 2. {\ displaystyle H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ bigl \ |} {\ sqrt {P}} - {\ sqrt {Q}} {\ bigr \ |} _ {2}.}H (P, Q) = {\ frac {1} {\ sqrt {2}}} \; {\ bigl \ |} {\ sqrt {P}} - {\ sqrt {Q}} {\ bigr \ |} _ {2}.

Кроме того, 1 - H 2 (P, Q) = ∑ i = 1 kpiqi. {\ displaystyle 1-H ^ {2} (P, Q) = \ sum _ {i = 1} ^ {k} {\ sqrt {p_ {i} q_ {i}}}.}{\ displaystyle 1-H ^ {2} (P, Q) = \ сумма _ {я = 1} ^ {k} {\ sqrt {p_ {i} q_ {i}}}.}

Свойства

Расстояние Хеллингера образует ограниченную метрику на пространстве вероятностных распределений в заданном вероятностном пространстве.

Максимальное расстояние 1 достигается, когда P присваивает нулевую вероятность каждому набору, которому Q присваивает положительную вероятность, и наоборот.

Иногда множитель 1/2 {\ displaystyle 1 / {\ sqrt {2}}}1 / {\ sqrt {2}} перед интегралом опускается, и в этом случае расстояние Хеллингера варьируется от от нуля до квадратного корня из двух.

Расстояние Хеллингера связано с коэффициентом Бхаттачарьи BC (P, Q) {\ displaystyle BC (P, Q)}BC (P, Q) как это может быть определяется как

H (P, Q) = 1 - BC (P, Q). {\ displaystyle H (P, Q) = {\ sqrt {1-BC (P, Q)}}.}H (P, Q) = {\ sqrt {1-BC (P, Q)}}.

расстояния Хеллингера используются в теории последовательной и асимптотической статистики..

Квадрат расстояния Хеллингера между двумя нормальными распределениями P ∼ N (μ 1, σ 1 2) {\ displaystyle \ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ му _ {1}, \ sigma _ {1} ^ {2})}\ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ mu _ {1}, \ sigma _ {1} ^ {2}) и Q ∼ N (μ 2, σ 2 2) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sigma _ {2} ^ {2})}\ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sigma _ {2} ^ {2}) is:

H 2 (P, Q) = 1 - 2 σ 1 σ 2 σ 1 2 + σ 2 2 e - 1 4 (μ 1 - μ 2) 2 σ 1 2 + σ 2 2. {\ displaystyle H ^ {2} (P, Q) = 1 - {\ sqrt {\ frac {2 \ sigma _ {1} \ sigma _ {2}} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}} \, e ^ {- {\ frac {1} {4}} {\ frac {(\ mu _ {1} - \ mu _ {2}) ^ {2 }} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}}.}H ^ {2} (P, Q) = 1 - {\ sqrt {\ frac {2 \ sigma _ {1} \ sigma _ {2}} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}} \, e ^ {- {\ frac {1} {4}} {\ frac {(\ mu _ {1} - \ mu _ {2}) ^ {2}} {\ sigma _ {1} ^ {2} + \ sigma _ {2} ^ {2}}}}.

Квадрат расстояния Хеллингера между двумя многомерными нормальными распределениями П ∼ N (μ 1, ∑ 1) {\ Displaystyle \ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ mu _ {1}, \ sum _ {1})}{\ displaystyle \ scriptstyle P \, \ sim \, {\ mathcal {N}} (\ mu _ {1}, \ sum _ {1})} и Q ∼ N (μ 2, ∑ 2) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sum _ {2})}{\ displaystyle \ scriptstyle Q \, \ sim \, {\ mathcal {N}} (\ mu _ {2}, \ sum _ {2})} равно:

H 2 (P, Q) = 1 - det (∑ 1) 1/4 det (∑ 2) 1/4 det (det 1 + ∑ 2 2) 1/2 exp ⁡ {- 1 8 (μ 1 - μ 2) T (∑ 1 + ∑ 2 2) - 1 (μ 1 - μ 2)} {\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {\ det (\ sum _ {1}) ^ {1/4} \ det (\ sum _ {2}) ^ {1/4}} {\ det \ left ({\ frac {\ sum _ {1}) + \ sum _ {2}} {2}} \ right) ^ {1/2}}} \ exp \ left \ {- {\ frac {1} {8}} (\ mu _ {1} - \ mu _ {2}) ^ {T} \ left ({\ frac {\ sum _ {1} + \ sum _ {2}} {2}} \ right) ^ {- 1} (\ mu _ {1} - \ mu _ {2}) \ right \}}{\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {\ det (\ sum _ {1}) ^ {1/4} \ det (\ sum _ {2}) ^ {1/4}} {\ det \ left ({\ frac {\ sum _ {1} + \ sum _ {2}} {2}} \ right) ^ {1/2}}} \ exp \ left \ {- {\ frac {1} {8}} (\ mu _ {1 } - \ mu _ {2}) ^ {T} \ left ({\ frac {\ sum _ {1} + \ sum _ {2}} {2}} \ right) ^ {- 1} (\ mu _ {1} - \ mu _ {2}) \ right \}}

Квадрат расстояния Хеллингера между двумя экспоненциальным распределением ns P ∼ E xp (α) {\ displaystyle \ scriptstyle P \, \ sim \, {\ rm {{Exp} (\ alpha)}}}\ scriptstyle P \, \ sim \, {\ rm {{Exp} (\ alpha)}} и Q ∼ E xp (β) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{Exp} (\ beta)}}}\ scriptstyle Q \, \ sim \, {\ rm {{Exp} ( \ beta)}} это:

H 2 (P, Q) = 1-2 α β α + β. {\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {2 {\ sqrt {\ alpha \ beta}}} {\ alpha + \ beta}}.}H ^ {2} (P, Q) = 1 - {\ frac {2 {\ sqrt {\ alpha \ beta}}} {\ alpha + \ beta}}.

Квадрат расстояния Хеллингера между два распределения Вейбулла P ∼ W (k, α) {\ displaystyle \ scriptstyle P \, \ sim \, {\ rm {{W} (k, \ alpha)}}}\ scriptstyle P \, \ sim \, {\ rm {{W} (k, \ alpha)}} и Q ∼ W (k, β) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{W} (k, \ beta)}}}\ scriptstyle Q \, \ sim \, {\ rm {{W} (k, \ beta)}} (где k {\ displaystyle k}k - общий параметр формы, а α, β {\ displaystyle \ alpha \,, \ beta}\ alpha \,, \ beta - параметры масштаба соответственно):

H 2 (P, Q) = 1-2 (α β) k / 2 α k + β k. {\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {2 (\ alpha \ beta) ^ {k / 2}} {\ alpha ^ {k} + \ beta ^ {k}}}.}H ^ {2} (P, Q) = 1 - {\ frac {2 (\ alpha \ beta) ^ {k / 2}} {\ alpha ^ {k} + \ beta ^ {k}}}.

Квадрат расстояния Хеллингера между двумя распределениями Пуассона с параметрами скорости α {\ displaystyle \ alpha}\ alpha и β {\ displaystyle \ beta}\ beta , так что P ∼ P oisson (α) {\ displaystyle \ scriptstyle P \, \ sim \, {\ rm {{Poisson} (\ alpha)}}}\ scriptstyle P \, \ sim \, {\ rm {{Пуассон} (\ alpha)}} и Q ∼ P oisson (β) {\ displaystyle \ scriptstyle Q \, \ sim \, {\ rm {{Poisson} (\ beta)}}}\ scriptstyle Q \, \ sim \, {\ rm {{Пуассон} (\ beta)}} , это:

H 2 (P, Q) = 1 - e - 1 2 (α - β) 2. {\ displaystyle H ^ {2} (P, Q) = 1-e ^ {- {\ frac {1} {2}} ({\ sqrt {\ alpha}} - {\ sqrt {\ beta}}) ^ {2}}.}H ^ {2} (P, Q) = 1-e ^ {- {\ frac {1} {2}} ({\ sqrt {\ alpha}} - { \ sqrt {\ beta}}) ^ {2}}.

Квадрат расстояния Хеллингера между двумя бета-распределениями P ∼ Beta (a 1, b 1) {\ displaystyle \ scriptstyle P \, \ sim \, {\ текст {бета}} (a_ {1}, b_ {1})}\ scriptstyle P \, \ sim \, {\ text {Beta}} (a_ {1}, b_ {1}) и Q ∼ Beta (a 2, b 2) {\ displaystyle \ scriptstyle Q \, \ sim \, { \ text {Beta}} (a_ {2}, b_ {2})}\ scriptstyle Q \, \ sim \, {\ text {Beta}} (a_ {2}, b_ {2}) равно:

H 2 (P, Q) = 1 - B (a 1 + a 2 2, b 1 + b 2 2) B (a 1, b 1) B (a 2, b 2) {\ displaystyle H ^ {2} (P, Q) = 1 - {\ frac {B \ left ({\ frac {a_ {1} + a_ {2}} {2}}, {\ frac {b_ {1} + b_ {2}} {2}} \ right)} {\ sqrt {B (a_ {1}, b_ {1 }) B (a_ {2}, b_ {2})}}}}H ^ {2 } (P, Q) = 1 - {\ frac {B \ left ({\ frac {a_ {1} + a_ {2}} {2}}, {\ frac {b_ {1} + b_ {2}}) {2}} \ right)} {\ sqrt {B (a_ {1}, b_ {1}) B (a_ {2}, b_ {2})}}}

где B {\ displaystyle B}B - это бета-функция.

Соединение с общим расстояние вариации

расстояние Хеллингера H (P, Q) {\ displaystyle H (P, Q)}ЧАС (P, Q) и общее расстояние вариации (или статистическое расстояние) δ (P, Q) {\ displaystyle \ delta (P, Q)}\ delta (P, Q) связаны следующим образом:

H 2 (P, Q) ≤ δ (P, Q) ≤ 2 H (P, Q). {\ displaystyle H ^ {2} (P, Q) \ leq \ delta (P, Q) \ leq {\ sqrt {2}} H (P, Q) \,.}ЧАС ^ {2} (P, Q) \ leq \ delta (P, Q) \ leq {\ sqrt {2}} H (P, Q) \,.

Эти неравенства непосредственно следуют из неравенства между 1-нормой и 2-нормой.

См. также
Примечания
Ссылки
  • Ян, Грейс Ло ; Ле Кам, Люсьен М. (2000). Асимптотика в статистике: некоторые основные понятия. Берлин: Springer. ISBN 0-387-95036-2.
  • Vaart, A. W. van der. Асимптотическая статистика (Кембриджские серии по статистической и вероятностной математике). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 0-521-78450-6.
  • Поллард, Дэвид Э. (2002). Руководство пользователя для измерения теоретической вероятности. Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 0-521-00289-3.
Последняя правка сделана 2021-05-23 07:50:38
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте