Разработчик (и) | Шон Эдди, Трэвис Уиллер, команда разработчиков HMMER |
---|---|
Стабильная версия | 3.3 / 18 ноября 2019 г. (2019-11-18) |
Репозиторий | |
Написано на | C |
Доступно на | английском |
Тип | Биоинформатика инструмент |
Лицензия | BSD-3 |
Веб-сайт | hmmer.org |
HMMER - это бесплатный и широко используемый пакет программного обеспечения для анализа последовательностей, написанный Шоном Эдди. Его общее использование заключается в идентификации последовательностей гомологичных белков или нуклеотидов и для выполнения выравнивания последовательностей. Он определяет гомологию путем сравнения profile-HMM либо с одиночной последовательностью, либо с базой данных последовательностей. Последовательности, которые значительно лучше оценивают профиль-HMM по сравнению с нулевой моделью, считаются гомологичными последовательностям, которые использовались для построения профиля-HMM. Профиль-HMM конструируется из множественного выравнивания последовательностей в пакете HMMER с использованием программы hmmbuild. Реализация Profile-HMM, используемая в программном обеспечении HMMER, была основана на работе Крога и его коллег. HMMER - это утилита console, перенесенная на все основные операционные системы, включая различные версии Linux, Windows и Mac OS..
HMMER - это основная утилита, на которой основаны базы данных семейств белков, такие как Pfam и InterPro. Некоторые другие инструменты биоинформатики, такие как UGENE, также используют HMMER.
HMMER3 также широко использует векторные инструкции для увеличения скорости вычислений. Эта работа основана на более ранней публикации, показывающей значительное ускорение алгоритма Смита-Уотермана для выравнивания двух последовательностей.
Профиль HMM является вариантом HMM, относящегося к конкретно к биологическим последовательностям. Профильные HMM превращают множественное выравнивание последовательностей в позиционно-специфичную систему оценки, которую можно использовать для выравнивания последовательностей и поиска в базах данных отдаленно гомологичных последовательностей. Они извлекают выгоду из того факта, что определенные позиции в выравнивании последовательностей имеют тенденцию иметь смещения, в которых наиболее вероятно встречаются остатки, и, вероятно, будут различаться по своей вероятности содержания вставки или делеции. Сбор этой информации дает им лучшую способность обнаруживать истинные гомологи, чем традиционные подходы на основе BLAST, которые одинаково наказывают замены, вставки и делеции, независимо от того, где в выравнивании они происходят.
Основной профиль HMM архитектура, используемая HMMER.Профильные HMM сосредоточены вокруг линейного набора состояний совпадения (M), причем одно состояние соответствует каждому согласованному столбцу в выравнивании последовательностей. Каждое состояние M испускает один остаток (аминокислоту или нуклеотид). Вероятность выделения конкретного остатка в значительной степени определяется частотой, с которой этот остаток наблюдается в этом столбце выравнивания, но также включает предварительную информацию о структурах остатков, которые имеют тенденцию одновременно встречаться в тех же столбцах выравнивания последовательностей. Эта цепочка состояний совпадения, излучающих аминокислоты с определенной частотой, аналогична матрицам оценок для конкретных позиций или матрицам весов.
Профиль HMM расширяет это моделирование выравнивания последовательностей путем моделирования вставок и удалений с использованием состояний I и D, соответственно. Состояния D не испускают остаток, а состояния I испускают остаток. Несколько состояний I могут возникать последовательно, что соответствует нескольким остаткам между согласованными столбцами в выравнивании. Состояния M, I и D связаны вероятностями перехода состояний, которые также варьируются в зависимости от положения в выравнивании последовательностей, чтобы отражать различную частоту вставок и удалений при выравнивании последовательностей.
В выпусках HMMER2 и HMMER3 использовалась архитектура для построения HMM профиля, называемого архитектурой Plan 7, названной в честь семи состояний, захваченных моделью. В дополнение к трем основным состояниям (M, I и D) шесть дополнительных состояний захватывают негомологичную фланкирующую последовательность при выравнивании. Эти 6 состояний в совокупности важны для контроля того, как последовательности согласуются с моделью, например. может ли последовательность иметь несколько последовательных попаданий в одну и ту же модель (в случае последовательностей с несколькими экземплярами одного домена).
Пакет HMMER состоит из сборник программ для выполнения функций с использованием профильных скрытых марковских моделей. Эти программы включают в себя:
Пакет содержит множество других специализированных функций.
В дополнение к программному пакету функция поиска HMMER доступна в виде веб-сервера. Служба облегчает поиск по ряду баз данных, включая базы данных последовательностей, такие как UniProt, SwissProt и Protein Data Bank, а также базы данных HMM, такие как Pfam, TIGRFAMs и SUPERFAMILY. Поддерживаются четыре типа поиска: phmmer, hmmsearch, hmmscan и jackhmmer (см. Программы ). Функция поиска принимает отдельные последовательности, а также выравнивание последовательностей или профили HMM.
Результаты поиска сопровождаются отчетом о таксономической разбивке и домене организации совпадений. Затем результаты поиска можно фильтровать по любому параметру.
Веб-сервис в настоящее время находится в ведении Европейского института биоинформатики (EBI) в Великобритании, а разработка алгоритма все еще выполняется командой Шона Эдди в Соединенных Штатах. Основными причинами для перемещения веб-службы были использование вычислительной инфраструктуры в EBI и перекрестная связь поисков HMMER с соответствующими базами данных, которые также поддерживаются EBI.
Последним стабильным выпуском HMMER является версия 3.0. HMMER3 - это полная переработка более раннего пакета HMMER2 с целью повышения скорости поиска HMM по профилю. Основные изменения описаны ниже:
Основной целью проекта HMMER3, начатого в 2004 г., было повышение скорости поиска HMMER. Хотя поиск гомологии на основе профилей HMM был более точным, чем подходы на основе BLAST, их более низкая скорость ограничивала их применимость. Основное повышение производительности связано с эвристическим фильтром , который находит высокопоставленные неотмеченные совпадения в последовательностях базы данных с профилем запроса. Эта эвристика дает время вычислений, сравнимое с BLAST, с небольшим влиянием на точность. Дальнейшее повышение производительности связано с моделью логарифма правдоподобия, которая не требует калибровки для оценки E-значений и позволяет использовать более точные предварительные оценки для вычисления значимости гомологичной последовательности.
HMMER по-прежнему отстает от BLAST по скорости поиска на основе ДНК, однако поиск на основе ДНК может быть настроен таким образом, что происходит улучшение скорости за счет точности.
Существенный прогресс в скорости стал возможным благодаря разработке подхода для расчета значимости результатов, интегрированных по диапазону возможных сопоставлений. При обнаружении удаленных гомологов выравнивание между запрашивающим и удачным белками часто бывает очень неопределенным. В то время как большинство инструментов для выравнивания последовательностей рассчитывают оценки совпадений, используя только лучшее согласование, HMMER3 вычисляет оценки совпадений путем интегрирования всех возможных выравниваний, чтобы учесть неопределенность, при которой выравнивание является наилучшим. Выравнивания последовательностей HMMER сопровождаются аннотациями апостериорной вероятности, указывающими, какие части выравнивания получили высокую достоверность, а какие - более неопределенные.
Основным усовершенствованием HMMER3 было включение инструментов сравнения ДНК / ДНК. HMMER2 имел функцию только для сравнения белковых последовательностей.
Хотя HMMER2 может выполнять локальное выравнивание (выравнивание полной модели с подпоследовательностью мишени) и глобальное выравнивание (выравнивание полной модели с полной последовательностью мишени), HMMER3 выполняет только локальное выравнивание. Это ограничение связано с трудностью вычисления значимости совпадений при выполнении локального / глобального выравнивания с использованием нового алгоритма.
Доступно несколько реализаций профильных методов HMM и связанных методов матриц оценок для конкретных позиций. Некоторые из них перечислены ниже: