Расстояние Бхаттачарьи

редактировать

В статистике Расстояние Бхаттачарьи измеряет сходство двух распределений вероятностей. Он тесно связан с коэффициентом Бхаттачарьи, который является мерой степени перекрытия между двумя статистическими выборками или популяциями. Оба показателя названы в честь Анила Кумара Бхаттачарьи, статистика, работавшего в 1930-х годах в Индийском статистическом институте.

. Этот коэффициент можно использовать для определения относительной близости два рассматриваемых образца. Он используется для измерения разделимости классов в классификации и считается более надежным, чем расстояние Махаланобиса, поскольку расстояние Махаланобиса является частным случаем расстояния Бхаттачарьи, когда стандартные отклонения двух классов одинаковы. Следовательно, когда два класса имеют одинаковые средние значения, но разные стандартные отклонения, расстояние Махаланобиса будет стремиться к нулю, тогда как расстояние Бхаттачарьи растет в зависимости от разницы между стандартными отклонениями.

Содержание

1 Определение
2 Коэффициент Бхаттачарьи
3 Приложения
4 См. Также
5 Ссылки
6 Внешние ссылки

Определение

Для распределения вероятностей p и q для одной и той же области X, расстояние Бхаттачарьи определяется как

DB (p, q) = - ln ⁡ (BC (p, q)) {\ displaystyle D_ {B} (p, q) = - \ ln \ left (BC (p, q) \ right)}

D_ {B } (p, q) = - \ ln \ left (BC (p, q) \ right)

где

BC (p, q) = ∑ x ∈ X p (x) q (x) {\ displaystyle BC (p, q) = \ sum _ {x \ in X} {\ sqrt {p (x) q (x)}}}

BC (p, q) = \ sum _ {{x \ in X}} {\ sqrt {p (x) q (x)}}

- коэффициент Бхаттачарьи для дискретных распределений вероятностей .

Для непрерывных распределений вероятностей коэффициент Бхаттачарьи определяется как

BC (p, q) = ∫ p (x) q (x) dx {\ displaystyle BC (p, q) = \ int {\ sqrt {p (x) q (x)}} \, dx}

BC (p, q) = \ int {\ sqrt {p (x) q (x)}} \, dx

В любом случае $0 ≤ BC ≤ 1 {\ displaystyle 0 \ leq BC \ leq 1}$ $0 \ leq BC \ leq 1$ и $0 ≤ DB ≤ ∞ {\ displaystyle 0 \ leq D_ {B} \ leq \ infty}$ $0 \ leq D_ {B} \ leq \ infty$ . $DB {\ displaystyle D_ {B}}$ $D_{B}$ не подчиняется неравенству треугольника, но расстояние Хеллингера, которое задается как $1 - BC (p, q) {\ displaystyle {\ sqrt {1-BC (p, q)}}}$ ${\ displaystyle {\ sqrt {1-BC (p, q) }}}$ подчиняется неравенству треугольника.

В своей простейшей формулировке расстояние Бхаттачарьи между двумя классами при нормальном распределении может быть вычислено путем извлечения среднего и дисперсии двух отдельных распределений или классов:

DB (p, q) = 1 4 ln ⁡ (1 4 (σ п 2 σ q 2 + σ q 2 σ p 2 + 2)) + 1 4 ((μ p - μ q) 2 σ p 2 + σ q 2) {\ displaystyle D_ {B} ( p, q) = {\ frac {1} {4}} \ ln \ left ({\ frac {1} {4}} \ left ({\ frac {\ sigma _ {p} ^ {2}} {\ sigma _ {q} ^ {2}}} + {\ frac {\ sigma _ {q} ^ {2}} {\ sigma _ {p} ^ {2}}} + 2 \ right) \ right) + { \ frac {1} {4}} \ left ({\ frac {(\ mu _ {p} - \ mu _ {q}) ^ {2}} {\ sigma _ {p} ^ {2} + \ sigma _ {q} ^ {2}}} \ right)}

D_ {B} (p, q) = {\ frac {1} {4}} \ ln \ left ({\ frac 14} \ left ({\ frac {\ sigma _ { p} ^ {2}} {\ sigma _ {q} ^ {2}}} + {\ frac {\ sigma _ {q} ^ {2}} {\ sigma _ {p} ^ {2}}} + 2 \ right) \ right) + {\ frac {1} {4}} \ left ({\ frac {(\ mu _ {p} - \ mu _ {q}) ^ {{2}}} {\ sigma _ {p} ^ {2} + \ sigma _ {q} ^ {2}}} \ right)

где:

$σ p 2 {\ displaystyle \ sigma _ {p} ^ {2}}$ ${\ d isplaystyle \ sigma _ {p} ^ {2}}$	- дисперсия p-го распределение,
$μ p {\ displaystyle \ mu _ {p}}$ $\ mu _ {p}$	- среднее значение p-го распределения, а
$p, q {\ displaystyle p, q}$ $p, q$	- два разных раздачи.

Расстояние Махаланобиса, используемое в линейном дискриминантном анализе Фишера, является частным случаем расстояния Бхаттачарьи.

Для многомерных нормальных распределений $pi = N (μ i, Σ i) {\ displaystyle p_ {i} = {\ mathcal {N}} ({\ boldsymbol {\ mu}} _ {i}, \, {\ boldsymbol {\ Sigma}} _ {i})}$ $p_ {i} = {\ mathcal {N}} ({\ boldsymbol \ mu} _ {i }, \, {\ boldsymbol \ Sigma} _ {i})$ ,

DB = 1 8 (μ 1 - μ 2) T Σ - 1 (μ 1 - μ 2) + 1 2 ln (det Σ det Σ 1 det Σ 2), {\ displaystyle D_ {B} = {1 \ over 8} ({\ boldsymbol {\ mu}} _ {1} - {\ boldsymbol {\ mu}} _ {2}) ^ {T} {\ boldsymbol {\ Sigma}} ^ {- 1} ({\ boldsymbol {\ mu}} _ {1} - {\ boldsymbol {\ mu}} _ {2}) + {1 \ over 2} \ ln \, \ left ({\ det {\ boldsymbol {\ Sigma}} \ over {\ sqrt {\ det {\ boldsymbol {\ Sigma}} _ {1} \, \ det {\ boldsymbol {\ Sigma}} _ {2}}} \ right),}

D_ {B} = {1 \ более 8} ({\ boldsymbol \ mu} _ {1} - {\ boldsymbol \ mu} _ {2}) ^ {T} {\ boldsymbol \ Sigma} ^ {{- 1}} ({\ boldsymbol \ mu} _ {1} - {\ boldsymbol \ mu} _ {2}) + {1 \ over 2} \ ln \, \ left ({\ det {\ boldsymbol \ Sigma} \ over {\ sqrt {\ det {\ boldsymbol \ Sigma} _ {1} \, \ det {\ boldsymbol \ Sigma} _ {2}}}} \ right),

где $μ i {\ displaystyle {\ boldsymbol {\ mu}} _ {i}}$ ${\ boldsymbol \ mu} _ {i}$ и $Σ i {\ displaystyle {\ boldsymbol {\ Sigma}} _ {i}}$ ${\ boldsymbol \ Sigma} _ {i}$ - средние значения и ковариации распределений, а

Σ = Σ 1 + Σ 2 2. {\ displaystyle {\ boldsymbol {\ Sigma}} = {{\ boldsymbol {\ Sigma}} _ {1} + {\ boldsymbol {\ Sigma}} _ {2} \ over 2}.}

{\ boldsymbol \ Sigma} = {{\ boldsymbol \ Sigma} _ {1} + {\ boldsymbol \ Sigma} _ {2} \ over 2}.

Обратите внимание, что, в этом случае первый член в расстоянии Бхаттачарьи связан с расстоянием Махаланобиса.

коэффициентом Бхаттачарьи

Коэффициент Бхаттачарьи является приблизительным измерением степени перекрытия между двумя статистическими выборками. Коэффициент может использоваться для определения относительной близости двух рассматриваемых выборок.

Вычисление коэффициента Бхаттачарьи включает элементарную форму интегрирования перекрытия двух выборок. Интервал значений двух выборок разбивается на выбранное количество разделов, и количество членов каждой выборки в каждом разделе используется в следующей формуле

BC (p, q) = ∑ я знак равно 1 npiqi, {\ displaystyle BC (\ mathbf {p}, \ mathbf {q}) = \ sum _ {i = 1} ^ {n} {\ sqrt {p_ {i} q_ {i} }},}

BC ({\ mathbf {p}}, {\ mathbf {q}}) = \ сумма _ {{i = 1}} ^ {n} {\ sqrt {p_ {i} q_ {i}}},

где, учитывая образцы, p и q, n- количество разделов, а $pi {\ displaystyle p_ {i}}$ $p_ {i}$ , $qi {\ displaystyle q_ {i}}$ $q_ {i}$ - это количество элементов выборок p и q в i -м разделе.

Эта формула, следовательно, больше с каждым разделом, который имеет элементы из обеих выборок, и больше с каждым разделом, который имеет большое перекрытие двух элементов выборки внутри него. Выбор количества разделов зависит от количества членов в каждом образце; слишком мало разделов потеряет точность из-за переоценки области перекрытия, а слишком много разделов потеряют точность из-за создания отдельных разделов без элементов, несмотря на то, что они находятся в густонаселенном пространстве выборки.

Коэффициент Бхаттачарьи будет равен 0, если перекрытия вообще нет из-за умножения на ноль в каждом разделе. Это означает, что расстояние между полностью разделенными образцами не будет зависеть только от этого коэффициента.

Коэффициент Бхаттачарьи используется при построении полярных кодов.

Приложения

Расстояние Бхаттачарьи широко используется в исследованиях выделения и выбора признаков, обработки изображений, распознавания говорящего, и телефонная кластеризация.

«Пространство Бхаттачарьи» было предложено в качестве метода выбора признаков, который можно применить к сегментации текстуры.

См. также

Литература

Nielsen, F.; Больц, С. (2010). «Центроиды Бурбеа-Рао и Бхаттачарья». IEEE Transactions по теории информации. 57 (8): 5455–5466. arXiv : 1004.5049. doi : 10.1109 / TIT.2011.2159046.

Кайлат, Т. (1967). «Расхождение и меры расстояния Бхаттачарьи в выборе сигнала». IEEE Transactions по коммуникационным технологиям. 15 (1): 52–60. doi : 10.1109 / TCOM.1967.1089532.

Djouadi, A.; Snorrason, O.; Гарбер, Ф. (1990). «Качество обучающей выборки оценок коэффициента Бхаттачарьи». Транзакции IEEE по анализу шаблонов и машинному интеллекту. 12(1): 92–97. doi : 10.1109 / 34.41388.

Краткий список свойств см.: http://www.mtm.ufsc.br/~taneja/book/node20.html

Внешние ссылки

, Энциклопедия математики, EMS Press, 2001 [1994]