В поле из биоинформатики, база данных последовательностей представляет собой тип биологической базы данных, которая состоит из большой коллекции компьютеризированных («цифровых ») последовательности нуклеиновой кислоты, последовательности белка или другие последовательности полимера, хранящиеся в компьютере. База данных UniProt является примером базы данных последовательностей белков. По состоянию на 2013 год он содержал более 40 миллионов последовательностей и растет с экспоненциальной скоростью. Исторически последовательности публиковались в бумажной форме, но по мере роста числа последовательностей этот метод хранения становился неустойчивым.
В базах данных последовательностей можно искать, используя различные методов. Наиболее частым использованием, вероятно, является поиск последовательностей, похожих на определенный целевой белок или ген, последовательность которых уже известна пользователю. Программа BLAST - популярный метод этого типа.
Записи в базах данных последовательностей депонируются из широкого круга источников, от отдельных исследователей до крупных центров секвенирования генома. В результате сами последовательности, и особенно биологические аннотации, прикрепленные к этим последовательностям, могут различаться по качеству. Существует много избыточности, так как несколько лабораторий могут предоставить множество последовательностей, которые идентичны или почти идентичны другим в базах данных.
Многие аннотации последовательностей основаны не на лабораторных экспериментах, а на результатах последовательности поиск подобия для ранее аннотированных последовательностей. После того, как последовательность была аннотирована на основе сходства с другими и сама помещена в базу данных, она также может стать основой для будущих аннотаций. Это может привести к проблеме транзитивной аннотации, потому что может быть несколько таких переносов аннотаций из-за сходства последовательностей между конкретной записью в базе данных и фактической экспериментальной информацией влажной лаборатории. Поэтому следует соблюдать осторожность при интерпретации данных аннотаций из баз данных последовательностей.