HMMER

редактировать
HMMER
Разработчик (и) Шон Эдди, Трэвис Уиллер, команда разработчиков HMMER
Стабильная версия 3.3 / 18 ноября 2019 г. (2019-11-18)
Репозиторий Изменить это в Wikidata
Написано наC
Доступно наанглийском
Тип Биоинформатика инструмент
Лицензия BSD-3
Веб-сайтhmmer.org
Профиль HMM, моделирующий множественное выравнивание последовательностей

HMMER - это бесплатный и широко используемый пакет программного обеспечения для анализа последовательностей, написанный Шоном Эдди. Его общее использование заключается в идентификации последовательностей гомологичных белков или нуклеотидов и для выполнения выравнивания последовательностей. Он определяет гомологию путем сравнения profile-HMM либо с одиночной последовательностью, либо с базой данных последовательностей. Последовательности, которые значительно лучше оценивают профиль-HMM по сравнению с нулевой моделью, считаются гомологичными последовательностям, которые использовались для построения профиля-HMM. Профиль-HMM конструируется из множественного выравнивания последовательностей в пакете HMMER с использованием программы hmmbuild. Реализация Profile-HMM, используемая в программном обеспечении HMMER, была основана на работе Крога и его коллег. HMMER - это утилита console, перенесенная на все основные операционные системы, включая различные версии Linux, Windows и Mac OS..

HMMER - это основная утилита, на которой основаны базы данных семейств белков, такие как Pfam и InterPro. Некоторые другие инструменты биоинформатики, такие как UGENE, также используют HMMER.

HMMER3 также широко использует векторные инструкции для увеличения скорости вычислений. Эта работа основана на более ранней публикации, показывающей значительное ускорение алгоритма Смита-Уотермана для выравнивания двух последовательностей.

Содержание
  • 1 Профиль HMM
  • 2 Программы в пакете HMMER
    • 2.1 Профиль здания HMM
    • 2.2 Поиск гомологии
    • 2.3 Другие функции
  • 3 Веб-сервер HMMER
  • 4 Версия HMMER3
    • 4.1 Повышение скорости
    • 4.2 Улучшения в удаленном поиске гомологии
    • 4.3 Сравнение последовательностей ДНК
    • 4.4 Ограничение локальным выравниванием
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки
Профиль HMM

Профиль HMM является вариантом HMM, относящегося к конкретно к биологическим последовательностям. Профильные HMM превращают множественное выравнивание последовательностей в позиционно-специфичную систему оценки, которую можно использовать для выравнивания последовательностей и поиска в базах данных отдаленно гомологичных последовательностей. Они извлекают выгоду из того факта, что определенные позиции в выравнивании последовательностей имеют тенденцию иметь смещения, в которых наиболее вероятно встречаются остатки, и, вероятно, будут различаться по своей вероятности содержания вставки или делеции. Сбор этой информации дает им лучшую способность обнаруживать истинные гомологи, чем традиционные подходы на основе BLAST, которые одинаково наказывают замены, вставки и делеции, независимо от того, где в выравнивании они происходят.

Архитектура HMM основного профиля, используемая HMMER. Основной профиль HMM архитектура, используемая HMMER.

Профильные HMM сосредоточены вокруг линейного набора состояний совпадения (M), причем одно состояние соответствует каждому согласованному столбцу в выравнивании последовательностей. Каждое состояние M испускает один остаток (аминокислоту или нуклеотид). Вероятность выделения конкретного остатка в значительной степени определяется частотой, с которой этот остаток наблюдается в этом столбце выравнивания, но также включает предварительную информацию о структурах остатков, которые имеют тенденцию одновременно встречаться в тех же столбцах выравнивания последовательностей. Эта цепочка состояний совпадения, излучающих аминокислоты с определенной частотой, аналогична матрицам оценок для конкретных позиций или матрицам весов.

Профиль HMM расширяет это моделирование выравнивания последовательностей путем моделирования вставок и удалений с использованием состояний I и D, соответственно. Состояния D не испускают остаток, а состояния I испускают остаток. Несколько состояний I могут возникать последовательно, что соответствует нескольким остаткам между согласованными столбцами в выравнивании. Состояния M, I и D связаны вероятностями перехода состояний, которые также варьируются в зависимости от положения в выравнивании последовательностей, чтобы отражать различную частоту вставок и удалений при выравнивании последовательностей.

В выпусках HMMER2 и HMMER3 использовалась архитектура для построения HMM профиля, называемого архитектурой Plan 7, названной в честь семи состояний, захваченных моделью. В дополнение к трем основным состояниям (M, I и D) шесть дополнительных состояний захватывают негомологичную фланкирующую последовательность при выравнивании. Эти 6 состояний в совокупности важны для контроля того, как последовательности согласуются с моделью, например. может ли последовательность иметь несколько последовательных попаданий в одну и ту же модель (в случае последовательностей с несколькими экземплярами одного домена).

Программы в пакете HMMER

Пакет HMMER состоит из сборник программ для выполнения функций с использованием профильных скрытых марковских моделей. Эти программы включают в себя:

Построение профиля HMM

  • hmmbuild - построение профиля (ов) HMM из множественного выравнивания (й) последовательностей

поиск гомологии

  • hmmscan - поиск белковой последовательности (й) по профилю База данных HMM
  • hmmsearch - профиль поиска HMM (ы) в базе данных последовательностей
  • jackhmmer - итеративный поиск последовательностей в базе данных белков
  • nhmmer - поиск ДНК / РНК запросы к базе данных последовательностей ДНК / РНК
  • nhmmscan - поиск нуклеотидных последовательностей по нуклеотидному профилю
  • phmmer - поиск белковых последовательностей в базе данных белков

Другие функции

  • hmmalign - выровнять последовательности по профилю HMM
  • hmmemit - создать образцы последовательностей из профиля HMM
  • hmmlogo - создать данные для логотипа HMM из файла HMM

Пакет содержит множество других специализированных функций.

Веб-сервер HMMER

В дополнение к программному пакету функция поиска HMMER доступна в виде веб-сервера. Служба облегчает поиск по ряду баз данных, включая базы данных последовательностей, такие как UniProt, SwissProt и Protein Data Bank, а также базы данных HMM, такие как Pfam, TIGRFAMs и SUPERFAMILY. Поддерживаются четыре типа поиска: phmmer, hmmsearch, hmmscan и jackhmmer (см. Программы ). Функция поиска принимает отдельные последовательности, а также выравнивание последовательностей или профили HMM.

Результаты поиска сопровождаются отчетом о таксономической разбивке и домене организации совпадений. Затем результаты поиска можно фильтровать по любому параметру.

Веб-сервис в настоящее время находится в ведении Европейского института биоинформатики (EBI) в Великобритании, а разработка алгоритма все еще выполняется командой Шона Эдди в Соединенных Штатах. Основными причинами для перемещения веб-службы были использование вычислительной инфраструктуры в EBI и перекрестная связь поисков HMMER с соответствующими базами данных, которые также поддерживаются EBI.

Выпуск HMMER3

Последним стабильным выпуском HMMER является версия 3.0. HMMER3 - это полная переработка более раннего пакета HMMER2 с целью повышения скорости поиска HMM по профилю. Основные изменения описаны ниже:

Повышение скорости

Основной целью проекта HMMER3, начатого в 2004 г., было повышение скорости поиска HMMER. Хотя поиск гомологии на основе профилей HMM был более точным, чем подходы на основе BLAST, их более низкая скорость ограничивала их применимость. Основное повышение производительности связано с эвристическим фильтром , который находит высокопоставленные неотмеченные совпадения в последовательностях базы данных с профилем запроса. Эта эвристика дает время вычислений, сравнимое с BLAST, с небольшим влиянием на точность. Дальнейшее повышение производительности связано с моделью логарифма правдоподобия, которая не требует калибровки для оценки E-значений и позволяет использовать более точные предварительные оценки для вычисления значимости гомологичной последовательности.

HMMER по-прежнему отстает от BLAST по скорости поиска на основе ДНК, однако поиск на основе ДНК может быть настроен таким образом, что происходит улучшение скорости за счет точности.

Улучшения в удаленном поиске гомологии

Существенный прогресс в скорости стал возможным благодаря разработке подхода для расчета значимости результатов, интегрированных по диапазону возможных сопоставлений. При обнаружении удаленных гомологов выравнивание между запрашивающим и удачным белками часто бывает очень неопределенным. В то время как большинство инструментов для выравнивания последовательностей рассчитывают оценки совпадений, используя только лучшее согласование, HMMER3 вычисляет оценки совпадений путем интегрирования всех возможных выравниваний, чтобы учесть неопределенность, при которой выравнивание является наилучшим. Выравнивания последовательностей HMMER сопровождаются аннотациями апостериорной вероятности, указывающими, какие части выравнивания получили высокую достоверность, а какие - более неопределенные.

Сравнение последовательностей ДНК

Основным усовершенствованием HMMER3 было включение инструментов сравнения ДНК / ДНК. HMMER2 имел функцию только для сравнения белковых последовательностей.

Ограничение локальным выравниванием

Хотя HMMER2 может выполнять локальное выравнивание (выравнивание полной модели с подпоследовательностью мишени) и глобальное выравнивание (выравнивание полной модели с полной последовательностью мишени), HMMER3 выполняет только локальное выравнивание. Это ограничение связано с трудностью вычисления значимости совпадений при выполнении локального / глобального выравнивания с использованием нового алгоритма.

См. Также

Доступно несколько реализаций профильных методов HMM и связанных методов матриц оценок для конкретных позиций. Некоторые из них перечислены ниже:

Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-22 08:58:08
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте