Индекс Дэвиса – Болдина

редактировать

Метрика для оценки кластеризации алгоритмы

Индекс Дэвиса – Болдина (DBI) (введенный Дэвидом Л. Дэвисом и Дональдом В. Боулдином в 1979 г.) - это показатель для оценки алгоритмов кластеризации. Это внутренняя схема оценки, при которой проверка того, насколько хорошо была проведена кластеризация, осуществляется с использованием количеств и характеристик, присущих набору данных. У этого есть недостаток, заключающийся в том, что хорошее значение, сообщаемое этим методом, не означает наилучшего извлечения информации.

Содержание

1 Предварительные сведения
2 Определение
3 Пояснение
4 См. Также
5 Внешний ссылки
6 Примечания и ссылки

Предварительные сведения

Учитывая n размерных точек, пусть C i будет кластером точек данных. Пусть X j будет n-мерным вектором признаков, присвоенным кластеру C i.

S i = (1 T i ∑ j = 1 T i | X j - A i | p) 1 / p {\ displaystyle S_ {i} = \ left ({\ frac {1} {T_ {i}}} \ sum _ {j = 1} ^ {T_ {i}} {\ left | X_ {j} -A_ {i}) \ right | ^ {p}} \ right) ^ {1 / p}}

{\ displaystyle S_ {i} = \ left ({\ frac {1} {T_ {i}}} \ su m _ {j = 1} ^ {T_ {i}} {\ left | X_ {j} -A_ {i} \ right | ^ {p}} \ right) ^ {1 / p}}

Здесь $A i {\ displaystyle A_ {i}}$ $A_ {i}$ - центроид из C i и T i - это размер кластера i. S i - это мера разброса внутри кластера. Обычно значение p равно 2, что делает эту функцию евклидовым расстоянием между центроидом кластера и отдельными векторами признаков. Можно использовать многие другие метрики расстояния, в случае многообразий и данных более высокой размерности, где евклидово расстояние может быть не лучшим показателем для определения кластеров. Важно отметить, что эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации для получения значимых результатов.

M i, j = | | A i - A j | | п знак равно (∑ К = 1 N | ак, я - ак, J | п) 1 п {\ Displaystyle M_ {я, j} = \ left | \ left | A_ {i} -A_ {j} \ right | \ справа | _ {p} = {\ Bigl (} \ displaystyle \ sum _ {k = 1} ^ {n} \ left | a_ {k, i} -a_ {k, j} \ right | ^ {p} { \ Bigr)} ^ {\ frac {1} {p}}}

M _ {{i, j}} = \ left | \ left | A_ {i} -A_ {j} \ right | \ right | _ {p} = {\ Bigl (} \ displaystyle \ sum _ {{k = 1}} ^ {{n}} \ left | a _ {{k, i}} - a _ {{k, j}} \ right | ^ {p} {\ Bigr)} ^ {{{\ frac 1p}}}

M i, j {\ displaystyle M_ {i, j}}

M _ {{i, j}}

- мера разделения между кластером

C я {\ displaystyle C_ {i}}

C_ {i}

и кластер

C j {\ displaystyle C_ {j}}

C_ {j}

ak, i {\ displaystyle a_ {k, i}}

a _ {{k, i}}

- k-й элемент в

A i {\ displaystyle A_ {i}}

A_ {i}

, и в A n таких элементов, поскольку это n-мерный центроид.

Здесь k индексирует характеристики данных, и это, по сути, евклидово расстояние между центрами кластеров i и j, когда p равно 2.

Определение

Пусть R i, j быть мерой того, насколько хороша схема кластеризации. Эта мера по определению должна учитывать M i, j - расстояние между i и j кластерами, которое в идеале должно быть как можно большим, и S i, в пределах кластера разброс для кластера i, который должен быть как можно меньше. Следовательно, индекс Дэвиса-Болдина определяется как отношение S i и M i, j, при котором эти свойства сохраняются:

$R i, j ⩾ 0 {\ displaystyle R_ {i, j} \ geqslant 0}$ $R _ {{i, j}} \ geqslant 0$ .
$R i, j = R j, i {\ displaystyle R_ {i, j} = R_ {j, i}}$ $R _ {{i, j}} = R _ {{j, i}}$ .
Когда $S j ⩾ S к {\ displaystyle S_ {j} \ geqslant S_ {k}}$ $S_ {j} \ geqslant S_ {k}$ и $M i, j = M i, k {\ displaystyle M_ {i, j} = M_ {i, k} }$ $M _ {{i, j}} = M _ {{i, k}}$ , затем $R i, j>R i, k {\ displaystyle R_ {i, j}>R_ {i, k}}$ $R_{{i,j}}>R _ {{i, k} }$ .
Когда $S j = S К {\ Displaystyle S_ {j} = S_ {k}}$ $S_ {j} = S_ {k}$ и $M i, j ⩽ M i, k {\ displaystyle M_ {i, j} \ leqslant M_ {i, k}}$ $M _ {{i, j}} \ leqslant M _ {{ i, k}}$ , затем $R i, j>R i, k {\ displaystyle R_ {i, j}>R_ {i, k}}$ $R_{{i,j}}>R _ {{i, k}}$ .

В этой формулировке, чем ниже значение th е лучше разделение кластеров и «герметичность» внутри кластеров.

Решение, удовлетворяющее этим свойствам:

R i, j = S i + S j M i, j {\ displaystyle R_ {i, j} = {\ frac {S_ {i} + S_ {j}} {M_ {i, j}}}}

R _ {{i, j}} = {\ frac {S_ {i} + S_ {j}} {M _ {{i, j}}}}

Используется для определения D i:

D i ≡ max j ≠ i R i, j {\ displaystyle D_ {i} \ Equiv \ max _ {j \ neq i} R_ {i, j}}

{\ displaystyle D_ {i} \ Equiv \ max _ {j \ neq i} R_ {i, j}}

Если N - количество кластеров:

DB ≡ 1 N ∑ i = 1 ND i {\ displaystyle {\ mathit {DB}} \ Equiv { \ frac {1} {N}} \ displaystyle \ sum _ {i = 1} ^ {N} D_ {i}}

{\ displaystyle {\ mathit {DB}} \ Equiv {\ frac {1} {N}} \ displaystyle \ sum _ {i = 1} ^ {N} D_ {i}}

БД называется индексом Дэвиса – Болдина. Это зависит как от данных, так и от алгоритма. D i выбирает наихудший сценарий, и это значение равно R i, j для кластера, наиболее похожего на кластер i. У этой формулировки может быть много вариаций, таких как выбор среднего значения кластерного сходства, средневзвешенного значения и так далее.

Объяснение

Эти условия ограничивают индекс, определенный таким образом, симметричным и неотрицательным. Из-за способа его определения как функции отношения разброса внутри кластера к расстоянию между кластерами более низкое значение будет означать, что кластеризация лучше. Это среднее сходство между каждым кластером и его наиболее похожим кластером, усредненное по всем кластерам, где сходство определено как S i выше. Это подтверждает идею о том, что ни один кластер не должен быть похож на другой, и, следовательно, лучшая схема кластеризации по существу минимизирует индекс Дэвиса – Болдина. Этот определенный таким образом индекс представляет собой среднее значение по всем кластерам i, и, следовательно, хорошей мерой для определения того, сколько кластеров фактически существует в данных, является его построение в зависимости от количества кластеров, для которых он рассчитывается. Число i, для которого это значение является наименьшим, является хорошей мерой количества кластеров, в которые данные могут быть идеально классифицированы. Это имеет приложения при определении значения k в алгоритме kmeans, где значение k неизвестно априори. Набор инструментов SOM содержит реализацию MATLAB. Реализация MATLAB также доступна через MATLAB Statistics and Machine Learning Toolbox, используя команду «evalclusters». Реализация Java находится в ELKI, и ее можно сравнить со многими другими индексами качества кластеризации.

Индекс Дэвиса – Болдина

Содержание

Предварительные сведения

Определение

Объяснение

См. Также

Внешние ссылки

Примечания и ссылки