В статистике Расстояние Бхаттачарьи измеряет сходство двух распределений вероятностей. Он тесно связан с коэффициентом Бхаттачарьи, который является мерой степени перекрытия между двумя статистическими выборками или популяциями. Оба показателя названы в честь Анила Кумара Бхаттачарьи, статистика, работавшего в 1930-х годах в Индийском статистическом институте.
. Этот коэффициент можно использовать для определения относительной близости два рассматриваемых образца. Он используется для измерения разделимости классов в классификации и считается более надежным, чем расстояние Махаланобиса, поскольку расстояние Махаланобиса является частным случаем расстояния Бхаттачарьи, когда стандартные отклонения двух классов одинаковы. Следовательно, когда два класса имеют одинаковые средние значения, но разные стандартные отклонения, расстояние Махаланобиса будет стремиться к нулю, тогда как расстояние Бхаттачарьи растет в зависимости от разницы между стандартными отклонениями.
Для распределения вероятностей p и q для одной и той же области X, расстояние Бхаттачарьи определяется как
где
- коэффициент Бхаттачарьи для дискретных распределений вероятностей .
Для непрерывных распределений вероятностей коэффициент Бхаттачарьи определяется как
В любом случае и . не подчиняется неравенству треугольника, но расстояние Хеллингера, которое задается как подчиняется неравенству треугольника.
В своей простейшей формулировке расстояние Бхаттачарьи между двумя классами при нормальном распределении может быть вычислено путем извлечения среднего и дисперсии двух отдельных распределений или классов:
где:
- дисперсия p-го распределение, | |
- среднее значение p-го распределения, а | |
- два разных раздачи. |
Расстояние Махаланобиса, используемое в линейном дискриминантном анализе Фишера, является частным случаем расстояния Бхаттачарьи.
Для многомерных нормальных распределений ,
где и - средние значения и ковариации распределений, а
Обратите внимание, что, в этом случае первый член в расстоянии Бхаттачарьи связан с расстоянием Махаланобиса.
Коэффициент Бхаттачарьи является приблизительным измерением степени перекрытия между двумя статистическими выборками. Коэффициент может использоваться для определения относительной близости двух рассматриваемых выборок.
Вычисление коэффициента Бхаттачарьи включает элементарную форму интегрирования перекрытия двух выборок. Интервал значений двух выборок разбивается на выбранное количество разделов, и количество членов каждой выборки в каждом разделе используется в следующей формуле
где, учитывая образцы, p и q, n- количество разделов, а , - это количество элементов выборок p и q в i -м разделе.
Эта формула, следовательно, больше с каждым разделом, который имеет элементы из обеих выборок, и больше с каждым разделом, который имеет большое перекрытие двух элементов выборки внутри него. Выбор количества разделов зависит от количества членов в каждом образце; слишком мало разделов потеряет точность из-за переоценки области перекрытия, а слишком много разделов потеряют точность из-за создания отдельных разделов без элементов, несмотря на то, что они находятся в густонаселенном пространстве выборки.
Коэффициент Бхаттачарьи будет равен 0, если перекрытия вообще нет из-за умножения на ноль в каждом разделе. Это означает, что расстояние между полностью разделенными образцами не будет зависеть только от этого коэффициента.
Коэффициент Бхаттачарьи используется при построении полярных кодов.
Расстояние Бхаттачарьи широко используется в исследованиях выделения и выбора признаков, обработки изображений, распознавания говорящего, и телефонная кластеризация.
«Пространство Бхаттачарьи» было предложено в качестве метода выбора признаков, который можно применить к сегментации текстуры.