HomoloGene, инструмент Национального центра биотехнологической информации США (NCBI), представляет собой систему для автоматического обнаружения гомологов (сходство, связанное с происхождением от общего предка) среди аннотированных генов нескольких полностью секвенированных геномов эукариот.
Обработка HomoloGene состоит из анализа белков поступающих организмов. Последовательности сравниваются с помощью blastp, затем сопоставляются и объединяются в группы с использованием таксономического дерева, построенного на основе сходства последовательностей, где сначала сопоставляются более близкие родственные организмы, а затем в дерево добавляются другие организмы. Выравнивания белков сопоставляются с соответствующими последовательностями ДНК, а затем могут быть рассчитаны метрики расстояния в виде молекулярных расстояний. Jukes and Cantor (1969), отношение Ka / Ks.
Последовательности сопоставляются с помощью эвристического алгоритма для максимизации оценки глобально, а не локально, при двудольном сопоставлении (см. Полный двудольный граф ). Затем он вычисляет статистическую значимость каждого совпадения. Отсечения делаются для каждой позиции, и значения Ks устанавливаются для предотвращения группирования ложных «ортологов». «Паралоги» идентифицируются путем нахождения последовательностей, которые ближе к одному виду, чем к другим видам.
Homo sapiens, Pan troglodytes, Mus musculus, Rattus norvegicus, Canis lupus familis, Bos taurus, Gallus gallus, Xenopus tropicalis, Danio rerio "
« Drosophila melanogaster, Anopheles gambiae, Caenorhabditis elegans »
« Saccharomyces cerevisiae, Schizosaccharomyces pombe, Kluyveromyces lactis, Eremothecium gossypii, Magnaporthe grisea, Neurospora crassa »
" Орыза сатива "
HomoloGene связан со всеми базами данных Entrez и основан на информации о гомологии и фенотипе этих ссылок:
В результате HomoloGene отображает информацию о генах, белках, фенотипах и консервативных доменах.