Кластер гипотеза

редактировать

В машинном обучении и поиске информации, гипотеза кластера является предположением о характере данных, обрабатываемых в этих полях, которые принимают различные формы. В поиске информации он утверждает, что документы, которые сгруппированы вместе, «ведут себя аналогичным образом в отношении соответствия информационным потребностям». С точки зрения классификации, он утверждает, что если точки находятся в одном кластере, они, вероятно, принадлежат к одному классу. Может быть несколько кластеров, образующих один класс.

Содержание

1 Поиск информации
2 Машинное обучение
3 Свойства
4 Примечания

Поиск информации

Поисковые системы могут кластеризовать документы, которые были получены по запросу, а затем извлекать документы из кластеров, а также исходные документы. В качестве альтернативы поисковые системы могут быть заменены интерфейсами просмотра, которые представляют результаты алгоритмов кластеризации. Оба этих подхода к поиску информации основаны на варианте кластерной гипотезы, согласно которой документы, похожие по критерию кластеризации (обычно термины перекрытия), будут иметь одинаковое отношение к информационным потребностям пользователей.

Машинное обучение

Предположение о кластере предполагается во многих алгоритмах машинного обучения, таких как алгоритм классификации k-ближайших соседей и алгоритм кластеризации k-средних. Поскольку слово «вероятный» появляется в определении, нет четкой границы, позволяющей определить, выполняется ли предположение или нет. Напротив, количество данных, соответствующих этому предположению, можно измерить количественно.

Свойства

Предположение о кластере эквивалентно предположению о том, что граница принятия решения должна лежать в области с низкой плотностью. Чтобы доказать это, предположим, что граница решения пересекает один из кластеров. Тогда этот кластер будет содержать точки из двух разных классов, поэтому он нарушается на этом кластере.

Примечания