В машинном обучении и поиске информации, гипотеза кластера является предположением о характере данных, обрабатываемых в этих полях, которые принимают различные формы. В поиске информации он утверждает, что документы, которые сгруппированы вместе, «ведут себя аналогичным образом в отношении соответствия информационным потребностям». С точки зрения классификации, он утверждает, что если точки находятся в одном кластере, они, вероятно, принадлежат к одному классу. Может быть несколько кластеров, образующих один класс.
Поисковые системы могут кластеризовать документы, которые были получены по запросу, а затем извлекать документы из кластеров, а также исходные документы. В качестве альтернативы поисковые системы могут быть заменены интерфейсами просмотра, которые представляют результаты алгоритмов кластеризации. Оба этих подхода к поиску информации основаны на варианте кластерной гипотезы, согласно которой документы, похожие по критерию кластеризации (обычно термины перекрытия), будут иметь одинаковое отношение к информационным потребностям пользователей.
Предположение о кластере предполагается во многих алгоритмах машинного обучения, таких как алгоритм классификации k-ближайших соседей и алгоритм кластеризации k-средних. Поскольку слово «вероятный» появляется в определении, нет четкой границы, позволяющей определить, выполняется ли предположение или нет. Напротив, количество данных, соответствующих этому предположению, можно измерить количественно.
Предположение о кластере эквивалентно предположению о том, что граница принятия решения должна лежать в области с низкой плотностью. Чтобы доказать это, предположим, что граница решения пересекает один из кластеров. Тогда этот кластер будет содержать точки из двух разных классов, поэтому он нарушается на этом кластере.