В информатике, SimHash - это метод быстрой оценки схожести двух наборов. алгоритм используется поисковым роботом Google для поиска почти повторяющихся страниц. Он был создан Моисеем Чарикаром.
A В 2006 г. компанией Google была проведена крупномасштабная оценка для сравнения производительности алгоритмов Minhash и Simhash. В 2007 году Google сообщил об использовании Simhash для обнаружения дубликатов при сканировании Интернета и использовании Minhash и LSH для Google News персонализации.