Консенсусная кластеризация - это метод агрегирования (потенциально противоречивых) результатов нескольких алгоритмов кластеризации. Также называемый кластерными ансамблями или агрегацией кластеризации (или разделов), он относится к ситуации, в которой было получено несколько различных (входных) кластеров для определенного набора данных, и желательно найти один ( консенсус), которая в некотором смысле подходит лучше, чем существующие кластеры. Таким образом, согласованная кластеризация - это проблема согласования информации о кластеризации одного и того же набора данных, поступающей из разных источников или из разных прогонов одного и того же алгоритма. При отнесении к задаче оптимизации консенсусная кластеризация известна как медианное разделение, и было показано, что она NP-Complete, даже когда количество входных кластеров равно трем. Консенсусная кластеризация для обучения без учителя аналогична ансамблевому обучению в обучении с учителем.
Все существующие методы кластеризации имеют потенциальные недостатки. Это может затруднить интерпретацию результатов, особенно когда нет информации о количестве кластеров. Методы кластеризации также очень чувствительны к начальным параметрам кластеризации, что может привести к тому, что незначительные данные будут усилены с помощью не повторяющихся методов. Чрезвычайно важным вопросом в кластерном анализе является проверка результатов кластеризации, то есть как получить уверенность в значимости кластеров, предоставляемых методом кластеризации (номера кластеров и назначения кластеров). При отсутствии внешнего объективного критерия (эквивалент известного ярлыка класса в контролируемом анализе) такая проверка становится несколько труднодостижимой. Методы итеративной кластеризации спуска, такие как SOM и кластеризация k-средних, позволяют обойти некоторые недостатки иерархической кластеризации, обеспечивая однозначно определенные кластеры и границы кластеров. Консенсусная кластеризация предоставляет метод, который представляет собой консенсус между несколькими запусками алгоритма кластеризации, для определения количества кластеров в данных и оценки стабильности обнаруженных кластеров. Этот метод также можно использовать для представления консенсуса по нескольким запускам алгоритма кластеризации со случайным перезапуском (например, K-средних, байесовской кластеризации на основе модели, SOM и т. Д.), Чтобы учесть его чувствительность к начальным условиям.. Он может предоставить данные для инструмента визуализации, чтобы проверить номер кластера, членство и границы. Однако им не хватает интуитивной и визуальной привлекательности иерархических дендрограмм кластеризации, и количество кластеров необходимо выбирать априори.
Консенсусный алгоритм кластеризации Монти является одним из самых популярных алгоритмов консенсусной кластеризации и используется для определения количества кластеров, . Учитывая набор данных из общего количества точек для кластеризации, этот алгоритм работает путем повторной выборки и кластеризации данных для каждого и вычисляется консенсусная матрица, где каждый элемент представляет собой долю двух сгруппированных вместе выборок. Совершенно стабильная матрица будет состоять полностью из нулей и единиц, представляя все пары выборок, всегда кластеризованные вместе или не вместе на всех итерациях повторной выборки. Относительная стабильность консенсусных матриц может использоваться для вывода оптимального .
Более конкретно, учитывая набор точек для кластеризации, , пусть будет списком преобразованные (передискретизированные) наборы данных исходного набора данных , и пусть обозначает матрица связности, полученная в результате применения алгоритма кластеризации к набору данных . Записи определяются следующим образом:
Пусть будет матрица идентификатора, где -й элемент равен 1, если точки и находятся в одном наборе возмущенных данных и 0 в противном случае. Индикаторная матрица используется для отслеживания того, какие образцы были выбраны во время каждой итерации повторной выборки для этапа нормализации. Матрица консенсуса определяется как нормализованная сумма всех матриц связности всех возмущенных наборов данных, и для каждого .
Это запись в матрице консенсуса - это количество точек и были сгруппированы вместе, разделенные на общее количество раз, когда они были выбраны вместе. Матрица симметрична, и каждый элемент определяется в диапазоне . Консенсусная матрица вычисляется для каждого , подлежащего проверке, и стабильности каждой матрицы, то есть того, насколько далеко матрица находится от матрицы идеальной стабильности (только нули и единица) используется для определения оптимального . Один из способов количественной оценки стабильности th матрицы консенсуса - изучить ее кривую CDF (см. Ниже).
Консенсусная кластеризация Монти может быть мощным инструментом для идентификации кластеров, но ее следует применять с осторожностью, как показано Ченбабаоглу и др. Было показано, что консенсусный алгоритм кластеризации Монти может заявлять о очевидной стабильности случайного разбиения нулевых наборов данных, взятых из унимодального распределения, и, таким образом, может привести к чрезмерной интерпретации стабильности кластера в реальном исследовании. Если кластеры плохо разделены, консенсусная кластеризация может привести к заключению очевидной структуры, когда ее нет, или к декларации стабильности кластера, когда она неуловима. Выявление ложноположительных кластеров является общей проблемой во всех исследованиях кластеров, и ее решали с помощью таких методов, как SigClust и GAP-statistic. Однако эти методы полагаются на определенные предположения для нулевой модели, которые не всегда могут быть подходящими.
enbabaoğlu et al продемонстрировали исходную метрику дельта K, чтобы решить, что в алгоритме Монти работает плохо, и предложили новую улучшенную метрику для измерения стабильности матрицы консенсуса с использованием их кривых CDF. На кривой CDF согласованной матрицы нижняя левая часть представляет пары выборок, которые редко сгруппированы вместе, верхняя правая часть представляет те, которые почти всегда сгруппированы вместе, тогда как средний сегмент представляет пары с неоднозначным назначением в разных прогонах кластеризации. Доля показателя неоднозначной кластеризации (PAC) количественно определяет этот средний сегмент; и определяется как доля пар выборок с согласованными индексами, попадающими в интервал (u 1, u 2) ∈ [0, 1], где u 1 - значение, близкое к 0, а u 2 - значение, близкое к 1 (например, u 1 = 0,1 и u 2 = 0,9). Низкое значение PAC указывает на плоский средний сегмент и низкую частоту несогласованных назначений в переставленных циклах кластеризации. Следовательно, можно сделать вывод об оптимальном количестве кластеров по значению , имеющему самый низкий PAC.
1. Ансамбль кластеризации (Штрел и Гош) : они рассмотрели различные формулировки проблемы, большинство из которых сводят проблему к проблеме разделения гиперграфа. В одной из своих постановок они рассматривали тот же граф, что и в задаче корреляционной кластеризации. Предложенное ими решение состоит в том, чтобы вычислить лучшее k-разбиение графа, которое не учитывает штраф за слияние двух узлов, находящихся далеко друг от друга.
2. Агрегация кластеров (Fern and Brodley) : они применили идею агрегации кластеризации к набору мягких кластеров, полученных путем случайных проекций. Они использовали агломеративный алгоритм и не наказывали за слияние разнородных узлов.
3. Фред и Джейн : Они предложили использовать один алгоритм связывания для объединения нескольких прогонов алгоритма k-средних.
4. Дана Кристофор и Дэн Симовичи : Они наблюдали связь между агрегированием кластеров и кластеризацией категориальных данных. Они предложили теоретико-информационные меры расстояния и предложили генетические алгоритмы для поиска лучшего решения для агрегирования.
5. Топчи и др. : Они определили агрегацию кластеризации как задачу оценки максимального правдоподобия и предложили алгоритм EM для поиска консенсусной кластеризации.
Это Подход Strehl и Ghosh представляет проблему объединения нескольких разделов набора объектов в единую консолидированную кластеризацию без доступа к функциям или алгоритмам, которые определяли эти разделения. Они обсуждают три подхода к решению этой проблемы для получения высококачественных консенсусных функций. Их методы имеют низкие вычислительные затраты, и это позволяет оценить каждый из методов, обсуждаемых ниже, и прийти к наилучшему решению, сравнивая результаты с целевой функцией.
1. Алгоритм разделения на основе подобия на основе кластеров (CSPA)
В CSPA сходство между двумя точками данных определяется как прямо пропорциональное количеству составляющих кластеров ансамбля, в котором они объединены вместе. Интуиция подсказывает, что чем больше схожих двух точек данных, тем выше вероятность того, что составляющие кластеры поместят их в один и тот же кластер. CSPA - это простейшая эвристика, но ее вычислительная сложность и сложность хранения квадратичны по n. SC3 - это пример алгоритма типа CSPA. Следующие два метода менее затратны в вычислительном отношении:
2. Алгоритм разделения гиперграфа (HGPA)
Алгоритм HGPA использует совершенно другой подход к поиску консенсусной кластеризации, чем предыдущий метод. Задача кластерного ансамбля формулируется как разбиение гиперграфа путем разрезания минимального числа гиперребер. Они используют hMETIS, который представляет собой систему пакетов для разделения гиперграфа.
3. Алгоритм метакластеризации (MCLA)
Алгоритм мета-кластеризации (MCLA) основан на кластеризации кластеров. Сначала он пытается решить проблему соответствия кластеров, а затем использует голосование для помещения точек данных в окончательные согласованные кластеры. Проблема соответствия кластеров решается путем группирования кластеров, идентифицированных в отдельных кластерах ансамбля. Кластеризация выполняется с использованием METIS и спектральной кластеризации.
Пунера и Гош расширили идею ансамблей жесткой кластеризации до сценария мягкой кластеризации. Каждый экземпляр в мягком ансамбле представлен конкатенацией r распределений апостериорной вероятности членства, полученных из составляющих алгоритмов кластеризации. Мы можем определить меру расстояния между двумя экземплярами, используя дивергенцию Кульбака – Лейблера (KL), которая вычисляет «расстояние» между двумя распределениями вероятностей.
1. sCSPA
sCSPA расширяет CSPA, вычисляя матрицу подобия. Каждый объект визуализируется как точка в пространственном пространстве, где каждое измерение соответствует вероятности его принадлежности к кластеру. Этот метод сначала преобразует объекты в пространство меток, а затем интерпретирует скалярное произведение между векторами, представляющими объекты, как их сходство.
2. sMCLA
sMCLA расширяет MCLA, принимая мягкие кластеризации в качестве входных данных. Работу sMCLA можно разделить на следующие этапы:
3. sHBGF
HBGF представляет ансамбль как двудольный граф с кластерами и экземплярами в качестве узлов и ребрами между экземплярами и кластерами, которым они принадлежат. Этот подход может быть тривиально адаптирован для рассмотрения мягких ансамблей, поскольку алгоритм разбиения графа METIS принимает веса на ребрах разбиваемого графа. В sHBGF граф имеет n + t вершин, где t - общее количество лежащих в основе кластеров.
4. Байесовская консенсусная кластеризация (BCC)
BCC определяет полностью байесовскую модель для мягкой консенсусной кластеризации, в которой предполагается, что множественные исходные кластеры, определяемые разными входными данными или разными вероятностными моделями, слабо придерживаются консенсусной кластеризации. Полная апостериорная оценка для отдельных кластеров и консенсусная кластеризация выводятся одновременно с помощью выборки Гиббса.