Разработчик (и) | |
---|---|
Стабильный выпуск | 36 |
Репозиторий | |
Операционная система | |
Тип | Биоинформатика |
Лицензия | apache2.0 |
Веб-сайт |
FASTA - это Программный пакет для выравнивания последовательностей ДНК и белков , впервые описанный Дэвидом Дж. Липманом и Уильямом Р. Пирсоном в 1985 году. Его наследием является формат FASTA, который теперь повсеместно используется в биоинформатике.
Исходная программа FASTP была разработан для поиска сходства белковых последовательностей. Из-за экспоненциально расширяющейся генетической информации и ограниченной скорости и памяти компьютеров в 1980-х годах были введены эвристические методы для согласования последовательности запроса со всеми базами данных. FASTA, опубликованная в 1987 году, добавила возможность выполнять поиск ДНК: ДНК, транслированный белок: поиск ДНК, а также предоставила более сложную программу перетасовки для оценки статистической значимости. В этом пакете есть несколько программ, которые позволяют выравнивать последовательности белка и последовательности ДНК. В настоящее время повышенная производительность компьютера позволяет выполнять поиск local обнаружения выравнивания в базе данных с использованием алгоритма Смита – Уотермана.
FASTA произносится как «быстрый A», и означает «FAST-All», потому что он работает с любым алфавитом, является расширением исходных инструментов выравнивания «FAST-P» (белок) и «FAST-N» (нуклеотид).
Хронология картографов (с 2001 г.). Картографы ДНК нанесены синим цветом, устройства картографирования РНК - красным, картографы miRNA - зеленым, а устройства картографирования бисульфита - фиолетовым. Серые пунктирные линии соединяют связанные мапперы (расширения или новые версии). Временная шкала включает только составители карт с рецензируемыми публикациями, а дата соответствует самой ранней дате публикации (например, дате предварительной публикации, а не дате публикации)Текущий пакет FASTA содержит программы для белка: белка, ДНК: ДНК, белка: транслированной ДНК (со сдвигом рамки считывания) и упорядоченного или неупорядоченного поиска пептидов. Последние версии пакета FASTA включают специальные алгоритмы поиска с транслированием, которые правильно обрабатывают ошибки сдвига кадра (с которыми поиск с трансляцией шести кадров не справляется очень хорошо) при сравнении данных последовательностей нуклеотидов и белков.
В дополнение к методам быстрого эвристического поиска, пакет FASTA предоставляет SSEARCH, реализацию оптимального алгоритма Смита – Уотермана.
Основное внимание в пакете уделяется вычислению точной статистики сходства, поэтому что биологи могут судить о том, произошло ли совпадение случайно, или его можно использовать для вывода гомологии. Пакет FASTA доступен в Университете Вирджинии и Европейском институте биоинформатики.
. Формат файла FASTA, используемый в качестве входных данных для этого программного обеспечения, в настоящее время широко используется другими последовательностями инструменты поиска в базе данных (такие как BLAST ) и программы выравнивания последовательностей (Clustal, T-Coffee и т. д.).
FASTA берет заданную нуклеотидную или аминокислотную последовательность и выполняет поиск в соответствующей базе данных последовательностей, используя локальное выравнивание последовательностей, чтобы найти совпадения с похожими последовательностями в базе данных.
Программа FASTA следует в основном эвристическому методу, который способствует высокой скорости ее выполнения. Первоначально он наблюдает за образцом совпадений слов, пословных совпадений заданной длины и отмечает потенциальные совпадения перед выполнением более трудоемкого оптимизированного поиска с использованием алгоритма типа Смита – Уотермана.
Размер слова, заданный параметром kmer, управляет чувствительностью и скоростью работы программы. Увеличение значения kmer уменьшает количество обнаруженных фоновых совпадений. По возвращаемым совпадениям слов программа ищет сегменты, содержащие кластер ближайших совпадений. Затем он исследует эти сегменты на предмет возможного совпадения.
Между fastn и fastp есть некоторые различия, связанные с типом используемых последовательностей, но оба используют четыре шага и вычисляют три оценки для описания и форматирования результатов сходства последовательностей. Это:
FASTA не может удалить области низкой сложности перед выравниванием последовательностей, как это возможно с помощью BLAST. Это может быть проблематично, поскольку последовательность запроса содержит такие области, например мини- или микросателлиты, часто повторяющие одну и ту же короткую последовательность, это увеличивает количество незнакомых последовательностей в базе данных, которые совпадают только в этих повторах, которые встречаются довольно часто. Поэтому программа PRSS добавлена в дистрибутив FASTA. PRSS перемешивает совпадающие последовательности в базе данных либо на однобуквенном уровне, либо перемешивает короткие сегменты, длину которых может определить пользователь. Перетасованные последовательности теперь снова выровнены, и если оценка все еще выше, чем ожидалось, это вызвано тем, что области низкой сложности перемешаны, все еще отображаются в запросе. По количеству баллов перетасованные последовательности все еще достигают PRSS, теперь можно предсказать значимость баллов исходных последовательностей. Чем выше оценка перетасованных последовательностей, тем менее значимы совпадения, найденные между исходной базой данных и запросной последовательностью.
Программы FASTA находят области локального или глобального сходства между последовательностями белка или ДНК путем поиска в базах данных белков или ДНК. или путем выявления локальных дубликатов в последовательности. Другие программы предоставляют информацию о статистической значимости выравнивания. Подобно BLAST, FASTA может использоваться для вывода функциональных и эволюционных отношений между последовательностями, а также для определения членов семейств генов.