Индекс Дэвиса – Болдина (DBI) (введенный Дэвидом Л. Дэвисом и Дональдом В. Боулдином в 1979 г.) - это показатель для оценки алгоритмов кластеризации. Это внутренняя схема оценки, при которой проверка того, насколько хорошо была проведена кластеризация, осуществляется с использованием количеств и характеристик, присущих набору данных. У этого есть недостаток, заключающийся в том, что хорошее значение, сообщаемое этим методом, не означает наилучшего извлечения информации.
Учитывая n размерных точек, пусть C i будет кластером точек данных. Пусть X j будет n-мерным вектором признаков, присвоенным кластеру C i.
Здесь - центроид из C i и T i - это размер кластера i. S i - это мера разброса внутри кластера. Обычно значение p равно 2, что делает эту функцию евклидовым расстоянием между центроидом кластера и отдельными векторами признаков. Можно использовать многие другие метрики расстояния, в случае многообразий и данных более высокой размерности, где евклидово расстояние может быть не лучшим показателем для определения кластеров. Важно отметить, что эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации для получения значимых результатов.
Здесь k индексирует характеристики данных, и это, по сути, евклидово расстояние между центрами кластеров i и j, когда p равно 2.
Пусть R i, j быть мерой того, насколько хороша схема кластеризации. Эта мера по определению должна учитывать M i, j - расстояние между i и j кластерами, которое в идеале должно быть как можно большим, и S i, в пределах кластера разброс для кластера i, который должен быть как можно меньше. Следовательно, индекс Дэвиса-Болдина определяется как отношение S i и M i, j, при котором эти свойства сохраняются:
В этой формулировке, чем ниже значение th е лучше разделение кластеров и «герметичность» внутри кластеров.
Решение, удовлетворяющее этим свойствам:
Используется для определения D i:
Если N - количество кластеров:
БД называется индексом Дэвиса – Болдина. Это зависит как от данных, так и от алгоритма. D i выбирает наихудший сценарий, и это значение равно R i, j для кластера, наиболее похожего на кластер i. У этой формулировки может быть много вариаций, таких как выбор среднего значения кластерного сходства, средневзвешенного значения и так далее.
Эти условия ограничивают индекс, определенный таким образом, симметричным и неотрицательным. Из-за способа его определения как функции отношения разброса внутри кластера к расстоянию между кластерами более низкое значение будет означать, что кластеризация лучше. Это среднее сходство между каждым кластером и его наиболее похожим кластером, усредненное по всем кластерам, где сходство определено как S i выше. Это подтверждает идею о том, что ни один кластер не должен быть похож на другой, и, следовательно, лучшая схема кластеризации по существу минимизирует индекс Дэвиса – Болдина. Этот определенный таким образом индекс представляет собой среднее значение по всем кластерам i, и, следовательно, хорошей мерой для определения того, сколько кластеров фактически существует в данных, является его построение в зависимости от количества кластеров, для которых он рассчитывается. Число i, для которого это значение является наименьшим, является хорошей мерой количества кластеров, в которые данные могут быть идеально классифицированы. Это имеет приложения при определении значения k в алгоритме kmeans, где значение k неизвестно априори. Набор инструментов SOM содержит реализацию MATLAB. Реализация MATLAB также доступна через MATLAB Statistics and Machine Learning Toolbox, используя команду «evalclusters». Реализация Java находится в ELKI, и ее можно сравнить со многими другими индексами качества кластеризации.