FASTA

редактировать
FASTA
Разработчик (и)
Стабильный выпуск 36
Репозиторий Измените это в Викиданных
Операционная система
Тип Биоинформатика
Лицензия apache2.0
Веб-сайт

FASTA - это Программный пакет для выравнивания последовательностей ДНК и белков , впервые описанный Дэвидом Дж. Липманом и Уильямом Р. Пирсоном в 1985 году. Его наследием является формат FASTA, который теперь повсеместно используется в биоинформатике.

Содержание

  • 1 История
  • 2 Использует
  • 3 Метод поиска
  • 4 См. Также
  • 5 Ссылки

История

Исходная программа FASTP была разработан для поиска сходства белковых последовательностей. Из-за экспоненциально расширяющейся генетической информации и ограниченной скорости и памяти компьютеров в 1980-х годах были введены эвристические методы для согласования последовательности запроса со всеми базами данных. FASTA, опубликованная в 1987 году, добавила возможность выполнять поиск ДНК: ДНК, транслированный белок: поиск ДНК, а также предоставила более сложную программу перетасовки для оценки статистической значимости. В этом пакете есть несколько программ, которые позволяют выравнивать последовательности белка и последовательности ДНК. В настоящее время повышенная производительность компьютера позволяет выполнять поиск local обнаружения выравнивания в базе данных с использованием алгоритма Смита – Уотермана.

FASTA произносится как «быстрый A», и означает «FAST-All», потому что он работает с любым алфавитом, является расширением исходных инструментов выравнивания «FAST-P» (белок) и «FAST-N» (нуклеотид).

Хронология картографов (с 2001 г.). Картографы ДНК нанесены синим цветом, устройства картографирования РНК - красным, картографы miRNA - зеленым, а устройства картографирования бисульфита - фиолетовым. Серые пунктирные линии соединяют связанные мапперы (расширения или новые версии). Временная шкала включает только составители карт с рецензируемыми публикациями, а дата соответствует самой ранней дате публикации (например, дате предварительной публикации, а не дате публикации)

Использует

Текущий пакет FASTA содержит программы для белка: белка, ДНК: ДНК, белка: транслированной ДНК (со сдвигом рамки считывания) и упорядоченного или неупорядоченного поиска пептидов. Последние версии пакета FASTA включают специальные алгоритмы поиска с транслированием, которые правильно обрабатывают ошибки сдвига кадра (с которыми поиск с трансляцией шести кадров не справляется очень хорошо) при сравнении данных последовательностей нуклеотидов и белков.

В дополнение к методам быстрого эвристического поиска, пакет FASTA предоставляет SSEARCH, реализацию оптимального алгоритма Смита – Уотермана.

Основное внимание в пакете уделяется вычислению точной статистики сходства, поэтому что биологи могут судить о том, произошло ли совпадение случайно, или его можно использовать для вывода гомологии. Пакет FASTA доступен в Университете Вирджинии и Европейском институте биоинформатики.

. Формат файла FASTA, используемый в качестве входных данных для этого программного обеспечения, в настоящее время широко используется другими последовательностями инструменты поиска в базе данных (такие как BLAST ) и программы выравнивания последовательностей (Clustal, T-Coffee и т. д.).

Метод поиска

FASTA берет заданную нуклеотидную или аминокислотную последовательность и выполняет поиск в соответствующей базе данных последовательностей, используя локальное выравнивание последовательностей, чтобы найти совпадения с похожими последовательностями в базе данных.

Программа FASTA следует в основном эвристическому методу, который способствует высокой скорости ее выполнения. Первоначально он наблюдает за образцом совпадений слов, пословных совпадений заданной длины и отмечает потенциальные совпадения перед выполнением более трудоемкого оптимизированного поиска с использованием алгоритма типа Смита – Уотермана.

Размер слова, заданный параметром kmer, управляет чувствительностью и скоростью работы программы. Увеличение значения kmer уменьшает количество обнаруженных фоновых совпадений. По возвращаемым совпадениям слов программа ищет сегменты, содержащие кластер ближайших совпадений. Затем он исследует эти сегменты на предмет возможного совпадения.

Между fastn и fastp есть некоторые различия, связанные с типом используемых последовательностей, но оба используют четыре шага и вычисляют три оценки для описания и форматирования результатов сходства последовательностей. Это:

  • Идентифицировать области с наибольшей плотностью при каждом сравнении последовательностей. Принятие kmer равным 1 или 2.
На этом этапе все или группа идентичностей между двумя последовательностями находятся с использованием таблицы поиска. Значение kmer определяет, сколько последовательных идентификаторов требуется для объявления соответствия. Таким образом, чем меньше значение kmer, тем более чувствителен поиск. kmer = 2 часто используется пользователями для белковых последовательностей, а kmer = 4 или 6 - для нуклеотидных последовательностей. Короткие олигонуклеотиды обычно запускаются с kmer = 1. Затем программа находит все похожие локальные области, представленные в виде диагоналей определенной длины на точечной диаграмме, между двумя последовательностями путем подсчета совпадений kmer и штрафов за промежуточные несовпадения.. Таким образом, локальные области совпадений с наивысшей плотностью по диагонали изолированы от фоновых совпадений. Для белковых последовательностей значения BLOSUM50 используются для подсчета kmer-совпадений. Это гарантирует, что группы идентичностей с высокими показателями сходства вносят больший вклад в локальную диагональную оценку, чем в идентичности с низкими оценками сходства. Нуклеотидные последовательности используют матрицу идентичности для той же цели. Затем сохраняются 10 лучших локальных регионов, выбранных из всех диагоналей вместе взятых.
  • Повторно сканировать регионы, взятые с использованием оценочных матриц. обрезка концов области, чтобы включить только те, которые вносят наибольший вклад.
Повторно просканируйте 10 взятых областей. На этот раз используйте соответствующую матрицу оценок при восстановлении, чтобы разрешить серии идентификаторов короче, чем значение kmer. Также при восстановлении берутся консервативные замены, которые влияют на оценку сходства. Хотя белковые последовательности используют матрицу BLOSUM50, скоринговые матрицы основаны на минимальном количестве базовых изменений, необходимых для конкретной замены, только на идентичностях или на альтернативной мере сходства, такой как PAM, также может использоваться с программой. Для каждой из диагональных областей, повторно просканированных таким образом, определяется подобласть с максимальной оценкой. Первоначальные оценки, полученные на этапе 1, используются для ранжирования библиотечных последовательностей. Наивысшая оценка называется оценкой init1.
  • В выравнивании, если обнаружено несколько начальных областей с оценками, превышающими значение CUTOFF, проверьте, можно ли соединить обрезанные начальные области, чтобы сформировать приблизительное выравнивание с зазорами. Подсчитайте показатель сходства, который представляет собой сумму штрафных баллов для объединенных регионов за каждый разрыв в 20 баллов. Эта начальная оценка сходства (initn) используется для ранжирования библиотечных последовательностей. Сообщается оценка единственной лучшей начальной области, найденной на шаге 2 (init1).
Здесь программа вычисляет оптимальное выравнивание исходных областей как комбинацию совместимых областей с максимальной оценкой. Это оптимальное выравнивание начальных областей можно быстро вычислить с помощью алгоритма динамического программирования. Полученная оценка initn используется для ранжирования библиотечных последовательностей. Этот процесс соединения увеличивает чувствительность, но снижает селективность. Таким образом, для контроля того, где будет реализован этот шаг, используется тщательно рассчитанное пороговое значение, значение, которое примерно на одно стандартное отклонение выше среднего балла, ожидаемого от несвязанных последовательностей в библиотеке. Последовательность запроса с 200 остатками с kmer 2 использует значение 28.
  • Используйте полосатый алгоритм Смита – Уотермана для вычисления оптимальной оценки для выравнивания.
На этом шаге используется полосатый алгоритм Смита. –Алгоритм Уотермана для создания оптимизированной оценки (opt) для каждого выравнивания последовательности запроса с последовательностью базы данных (библиотеки). Для расчета оптимального выравнивания требуется полоса из 32 остатков с центром в области init1 на этапе 2. После поиска всех последовательностей программа отображает начальные оценки каждой последовательности из базы данных на гистограмме и вычисляет статистическую значимость оценки "opt". Для белковых последовательностей окончательное выравнивание производится с использованием полного выравнивания Смита-Уотермана. Для последовательностей ДНК предусмотрено линейное выравнивание.
Smith-Waterman-Algorithm-Example-En.gif

FASTA не может удалить области низкой сложности перед выравниванием последовательностей, как это возможно с помощью BLAST. Это может быть проблематично, поскольку последовательность запроса содержит такие области, например мини- или микросателлиты, часто повторяющие одну и ту же короткую последовательность, это увеличивает количество незнакомых последовательностей в базе данных, которые совпадают только в этих повторах, которые встречаются довольно часто. Поэтому программа PRSS добавлена ​​в дистрибутив FASTA. PRSS перемешивает совпадающие последовательности в базе данных либо на однобуквенном уровне, либо перемешивает короткие сегменты, длину которых может определить пользователь. Перетасованные последовательности теперь снова выровнены, и если оценка все еще выше, чем ожидалось, это вызвано тем, что области низкой сложности перемешаны, все еще отображаются в запросе. По количеству баллов перетасованные последовательности все еще достигают PRSS, теперь можно предсказать значимость баллов исходных последовательностей. Чем выше оценка перетасованных последовательностей, тем менее значимы совпадения, найденные между исходной базой данных и запросной последовательностью.

Программы FASTA находят области локального или глобального сходства между последовательностями белка или ДНК путем поиска в базах данных белков или ДНК. или путем выявления локальных дубликатов в последовательности. Другие программы предоставляют информацию о статистической значимости выравнивания. Подобно BLAST, FASTA может использоваться для вывода функциональных и эволюционных отношений между последовательностями, а также для определения членов семейств генов.

См. Также

Ссылки

Последняя правка сделана 2021-05-20 06:42:02
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте