Индекс Дэвиса – Болдина

редактировать
Метрика для оценки кластеризации алгоритмы

Индекс Дэвиса – Болдина (DBI) (введенный Дэвидом Л. Дэвисом и Дональдом В. Боулдином в 1979 г.) - это показатель для оценки алгоритмов кластеризации. Это внутренняя схема оценки, при которой проверка того, насколько хорошо была проведена кластеризация, осуществляется с использованием количеств и характеристик, присущих набору данных. У этого есть недостаток, заключающийся в том, что хорошее значение, сообщаемое этим методом, не означает наилучшего извлечения информации.

Содержание

  • 1 Предварительные сведения
  • 2 Определение
  • 3 Пояснение
  • 4 См. Также
  • 5 Внешний ссылки
  • 6 Примечания и ссылки

Предварительные сведения

Учитывая n размерных точек, пусть C i будет кластером точек данных. Пусть X j будет n-мерным вектором признаков, присвоенным кластеру C i.

S i = (1 T i ∑ j = 1 T i | X j - A i | p) 1 / p {\ displaystyle S_ {i} = \ left ({\ frac {1} {T_ {i}}} \ sum _ {j = 1} ^ {T_ {i}} {\ left | X_ {j} -A_ {i}) \ right | ^ {p}} \ right) ^ {1 / p}}{\ displaystyle S_ {i} = \ left ({\ frac {1} {T_ {i}}} \ su m _ {j = 1} ^ {T_ {i}} {\ left | X_ {j} -A_ {i} \ right | ^ {p}} \ right) ^ {1 / p}}

Здесь A i {\ displaystyle A_ {i}}A_ {i} - центроид из C i и T i - это размер кластера i. S i - это мера разброса внутри кластера. Обычно значение p равно 2, что делает эту функцию евклидовым расстоянием между центроидом кластера и отдельными векторами признаков. Можно использовать многие другие метрики расстояния, в случае многообразий и данных более высокой размерности, где евклидово расстояние может быть не лучшим показателем для определения кластеров. Важно отметить, что эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации для получения значимых результатов.

M i, j = | | A i - A j | | п знак равно (∑ К = 1 N | ак, я - ак, J | п) 1 п {\ Displaystyle M_ {я, j} = \ left | \ left | A_ {i} -A_ {j} \ right | \ справа | _ {p} = {\ Bigl (} \ displaystyle \ sum _ {k = 1} ^ {n} \ left | a_ {k, i} -a_ {k, j} \ right | ^ {p} { \ Bigr)} ^ {\ frac {1} {p}}}M _ {{i, j}} = \ left | \ left | A_ {i} -A_ {j} \ right | \ right | _ {p} = {\ Bigl (} \ displaystyle \ sum _ {{k = 1}} ^ {{n}} \ left | a _ {{k, i}} - a _ {{k, j}} \ right | ^ {p} {\ Bigr)} ^ {{{\ frac 1p}}}
M i, j {\ displaystyle M_ {i, j}}M _ {{i, j}} - мера разделения между кластером C я {\ displaystyle C_ {i}}C_ {i} и кластер C j {\ displaystyle C_ {j}}C_ {j} .
ak, i {\ displaystyle a_ {k, i}}a _ {{k, i}} - k-й элемент в A i {\ displaystyle A_ {i}}A_ {i} , и в A n таких элементов, поскольку это n-мерный центроид.

Здесь k индексирует характеристики данных, и это, по сути, евклидово расстояние между центрами кластеров i и j, когда p равно 2.

Определение

Пусть R i, j быть мерой того, насколько хороша схема кластеризации. Эта мера по определению должна учитывать M i, j - расстояние между i и j кластерами, которое в идеале должно быть как можно большим, и S i, в пределах кластера разброс для кластера i, который должен быть как можно меньше. Следовательно, индекс Дэвиса-Болдина определяется как отношение S i и M i, j, при котором эти свойства сохраняются:

  1. R i, j ⩾ 0 {\ displaystyle R_ {i, j} \ geqslant 0}R _ {{i, j}} \ geqslant 0 .
  2. R i, j = R j, i {\ displaystyle R_ {i, j} = R_ {j, i}}R _ {{i, j}} = R _ {{j, i}} .
  3. Когда S j ⩾ S к {\ displaystyle S_ {j} \ geqslant S_ {k}}S_ {j} \ geqslant S_ {k} и M i, j = M i, k {\ displaystyle M_ {i, j} = M_ {i, k} }M _ {{i, j}} = M _ {{i, k}} , затем R i, j>R i, k {\ displaystyle R_ {i, j}>R_ {i, k}}R_{{i,j}}>R _ {{i, k} } .
  4. Когда S j = S К {\ Displaystyle S_ {j} = S_ {k}}S_ {j} = S_ {k} и M i, j ⩽ M i, k {\ displaystyle M_ {i, j} \ leqslant M_ {i, k}}M _ {{i, j}} \ leqslant M _ {{ i, k}} , затем R i, j>R i, k {\ displaystyle R_ {i, j}>R_ {i, k}}R_{{i,j}}>R _ {{i, k}} .

В этой формулировке, чем ниже значение th е лучше разделение кластеров и «герметичность» внутри кластеров.

Решение, удовлетворяющее этим свойствам:

R i, j = S i + S j M i, j {\ displaystyle R_ {i, j} = {\ frac {S_ {i} + S_ {j}} {M_ {i, j}}}}R _ {{i, j}} = {\ frac {S_ {i} + S_ {j}} {M _ {{i, j}}}}

Используется для определения D i:

D i ≡ max j ≠ i R i, j {\ displaystyle D_ {i} \ Equiv \ max _ {j \ neq i} R_ {i, j}}{\ displaystyle D_ {i} \ Equiv \ max _ {j \ neq i} R_ {i, j}}

Если N - количество кластеров:

DB ≡ 1 N ∑ i = 1 ND i {\ displaystyle {\ mathit {DB}} \ Equiv { \ frac {1} {N}} \ displaystyle \ sum _ {i = 1} ^ {N} D_ {i}}{\ displaystyle {\ mathit {DB}} \ Equiv {\ frac {1} {N}} \ displaystyle \ sum _ {i = 1} ^ {N} D_ {i}}

БД называется индексом Дэвиса – Болдина. Это зависит как от данных, так и от алгоритма. D i выбирает наихудший сценарий, и это значение равно R i, j для кластера, наиболее похожего на кластер i. У этой формулировки может быть много вариаций, таких как выбор среднего значения кластерного сходства, средневзвешенного значения и так далее.

Объяснение

Эти условия ограничивают индекс, определенный таким образом, симметричным и неотрицательным. Из-за способа его определения как функции отношения разброса внутри кластера к расстоянию между кластерами более низкое значение будет означать, что кластеризация лучше. Это среднее сходство между каждым кластером и его наиболее похожим кластером, усредненное по всем кластерам, где сходство определено как S i выше. Это подтверждает идею о том, что ни один кластер не должен быть похож на другой, и, следовательно, лучшая схема кластеризации по существу минимизирует индекс Дэвиса – Болдина. Этот определенный таким образом индекс представляет собой среднее значение по всем кластерам i, и, следовательно, хорошей мерой для определения того, сколько кластеров фактически существует в данных, является его построение в зависимости от количества кластеров, для которых он рассчитывается. Число i, для которого это значение является наименьшим, является хорошей мерой количества кластеров, в которые данные могут быть идеально классифицированы. Это имеет приложения при определении значения k в алгоритме kmeans, где значение k неизвестно априори. Набор инструментов SOM содержит реализацию MATLAB. Реализация MATLAB также доступна через MATLAB Statistics and Machine Learning Toolbox, используя команду «evalclusters». Реализация Java находится в ELKI, и ее можно сравнить со многими другими индексами качества кластеризации.

См. Также

Внешние ссылки

Примечания и ссылки

Последняя правка сделана 2021-05-17 03:56:07
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте