Стокгольмский формат

редактировать
Стокгольмский формат
Расширения имени файла .sto, .stk
Тип интернет-СМИ text/x-stockholm-alignment
Разработано Эрик Зоннхаммерс
Тип формата Биоинформатика
Открытый формат ? да
Веб-сайт sonnhammer.sbc.su.se / Stockholm.html

Стокгольмский формат - это формат множественного выравнивания последовательностей, используемый Pfam и Rfam для распространения сравнений последовательностей белков и РНК. Ориентирующие редактора Ralee, Belvu и Jalview поддержка формат Стокгольм как и вероятностных инструменты поиска базы данных, Infernal и HMMER, а филогенетический инструмент анализа Xrate. Файлы в формате Stockholm часто имеют расширение имени файла .sto или .stk.

СОДЕРЖАНИЕ

  • 1 Синтаксис
  • 2 Рекомендуемые функции
    • 2.1 # = GF
    • 2.2 # = GS
    • 2.3 # = GR
    • 2.4 # = GC
    • 2.5 Примечания
    • 2.6 Рекомендуемые места размещения
  • 3 Ограничения по размеру
  • 4 Примеры
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки

Синтаксис

Правильно сформированный стокгольмский файл всегда содержит заголовок, в котором указывается текущий формат и идентификатор версии ' # STOCKHOLM 1.0'. Затем за заголовком следует несколько строк, смесь разметки (начиная с #) и последовательностей. Наконец, линия « //» указывает на конец выравнивания.

Пример без разметки выглядит так:

# STOCKHOLM 1.0 #=GF ID EXAMPLE lt;seqnamegt; lt;aligned sequencegt; lt;seqnamegt; lt;aligned sequencegt; lt;seqnamegt; lt;aligned sequencegt; //

Последовательности записываются по одной в строке. Сначала записывается имя последовательности, а после любого количества пробелов записывается последовательность. Имена последовательностей обычно имеют форму «имя / начало-конец» или просто «имя». Буквы последовательности могут включать любые символы, кроме пробелов. Пробелы могут быть обозначены знаком «. » Или « - ».

Строки разметки начинаются с символа #. «Параметры» разделяются пробелами, поэтому для разметки, состоящей из 1 символа на столбец, вместо пробела следует использовать подчеркивание («_»). Определенные типы наценки включают:

#=GF lt;featuregt; lt;Generic per-File annotation, free textgt; #=GC lt;featuregt; lt;Generic per-Column annotation, exactly 1 char per columngt; #=GS lt;seqnamegt; lt;featuregt; lt;Generic per-Sequence annotation, free textgt; #=GR lt;seqnamegt; lt;featuregt; lt;Generic per-Residue annotation, exactly 1 char per residuegt;

Рекомендуемые функции

Эти имена функций используются Pfam и Rfam для определенных типов аннотаций. (См. Документацию Pfam и Rfam в разделе «Описание полей»)

# = GF

Pfam и Rfam могут использовать следующие теги:

 Compulsory fields: ------------------ AC Accession number:   Accession number in form PFxxxxx (Pfam) or RFxxxxx (Rfam). ID Identification:    One word name for family. DE Definition:     Short description of family. AU Author:      Authors of the entry. SE Source of seed:    The source suggesting the seed members belong to one family. SS Source of structure:  The source (prediction or publication) of the consensus RNA secondary structure used by Rfam. BM Build method:    Command line used to generate the model SM Search method:    Command line used to perform the search GA Gathering threshold:  Search threshold to build the full alignment. TC Trusted Cutoff:    Lowest sequence score (and domain score for Pfam) of match in the full alignment. NC Noise Cutoff:    Highest sequence score (and domain score for Pfam) of match not in full alignment. TP Type:      Type of family -- presently Family, Domain, Motif or Repeat for Pfam. -- a tree with roots Gene, Intron or Cis-reg for Rfam. SQ Sequence:     Number of sequences in alignment. Optional fields: ---------------- DC Database Comment:   Comment about database reference. DR Database Reference:   Reference to external database. RC Reference Comment:   Comment about literature reference. RN Reference Number:   Reference Number. RM Reference Medline:   Eight digit medline UI number. RT Reference Title:   Reference Title. RA Reference Author:   Reference Author RL Reference Location:   Journal location. PI Previous identifier:  Record of all previous ID lines. KW Keywords:     Keywords. CC Comment:     Comments. NE Pfam accession:		 Indicates a nested domain. NL Location:     Location of nested domains - sequence ID, start and end of insert. WK Wikipedia link:    Wikipedia page CL Clan:      Clan accession MB Membership:     Used for listing Clan membership For embedding trees: ---------------- NH New Hampshire    A tree in New Hampshire eXtended format. TN Tree ID      A unique identifier for the next tree. Other: ------ FR False discovery Rate:   A method used to set the bit score threshold based on the ratio of expected false positives to true positives. Floating point number between 0 and 1. CB Calibration method:   Command line used to calibrate the model (Rfam only, release 12.0 and later)
  • Примечания: дерево может храниться в нескольких строках # = GF NH.
  • Если несколько деревьев хранятся в одном файле, каждому дереву должна предшествовать строка # = GF TN с уникальным идентификатором дерева. Если включено только одно дерево, строку # = GF TN можно не указывать.

# = GS

Rfam и Pfam могут использовать следующие функции:

  Feature     Description ---------------------  ----------- AC lt;accessiongt;    ACcession number DE lt;freetextgt;    DEscription DR lt;dbgt;; lt;accessiongt;;  Database Reference OS lt;organismgt;    Organism (species) OC lt;cladegt;     Organism Classification (clade, etc.) LO lt;lookgt;     Look (Color, etc.)

# = GR

  Feature Description   Markup letters ------- -----------   -------------- SS  Secondary Structure For RNA [.,;lt;gt;(){}[]AaBb.-_] --supports pseudoknot and further structure markup (see WUSS documentation) For protein [HGIEBTSCX] SA  Surface Accessibility [0-9X] (0=0%-10%;...; 9=90%-100%) TM  TransMembrane   [Mio] PP  Posterior Probability [0-9*] (0=0.00-0.05; 1=0.05-0.15; *=0.95-1.00) LI  LIgand binding   [*] AS  Active Site   [*] pAS  AS - Pfam predicted [*] sAS  AS - from SwissProt [*] IN  INtron (in or after) [0-2] For RNA tertiary interactions: ------------------------------ tWW  WC/WC  in trans For basepairs: [lt;gt;AaBb...Zz] For unpaired: [.] cWH  WC/Hoogsteen in cis cWS  WC/SugarEdge in cis tWS  WC/SugarEdge in trans notes: (1) {c,t}{W,H,S}{W,H,S} for general format. (2) cWW is equivalent to SS.

# = GC

Список допустимых функций включает в себя те, которые показаны ниже, а также те же функции, что и для # = GR с добавлением «_cons», что означает «консенсус». Пример: «SS_cons».

  Feature Description   Description ------- -----------   -------------- RF  ReFerence annotation Often the consensus RNA or protein sequence is used as a reference Any non-gap character (e.g. x's) can indicate consensus/conserved/match columns.'s or -'s indicate insert columns ~'s indicate unaligned insertions Upper and lower case can be used to discriminate strong and weakly conserved residues respectively MM  Model Mask    Indicates which columns in an alignment should be masked, such that the emission probabilities for match states corresponding to those columns will be the background distribution.

Примечания

  • Не используйте несколько строк с одинаковой меткой # = GC.
  • Для одной последовательности не используйте несколько строк с одинаковой меткой # = GR. Для каждой последовательности можно назначить только одно уникальное назначение.
  • «X» в SA и SS означает «остаток с неизвестной структурой».
  • Буквы SS взяты из DSSP : H = альфа-спираль, G = 3/10-спираль, I = p-спираль, E = удлиненная цепь, B = остаток в изолированном b-мостике, T = поворот, S = изгиб., C = катушка / петля.)
  • Буквы РНК SS взяты из обозначения WUSS (вторичная структура Вашингтонского университета). Соответствующие вложенные круглые скобки символы lt;gt;, (), [] или {} указывают базовую пару. Символы '.', ',' И ';' указать непарные регионы. Соответствующие символы верхнего и нижнего регистра английского алфавита указывают на взаимодействия псевдоузлов. 5'-нуклеотид в узле должен быть в верхнем регистре, а 3'-нуклеотид в нижнем регистре.

Рекомендуемые места размещения

  • # = GF Выше выравнивания
  • # = GC Ниже выравнивания
  • # = GS Выше выравнивания или чуть ниже соответствующей последовательности
  • # = GR Чуть ниже соответствующей последовательности

Ограничения по размеру

Для любого поля нет явных ограничений по размеру. Однако простой синтаксический анализатор, использующий фиксированные размеры полей, должен безопасно работать при выравнивании Pfam и Rfam с этими ограничениями:

  • Длина строки: 10000.
  • lt;имяgt;: 255.
  • lt;функцияgt;: 255.

Примеры

Ниже показан простой пример выравнивания Rfam ( UPSK RNA ) с псевдоузлом в Стокгольмском формате:

# STOCKHOLM 1.0 #=GF ID UPSK #=GF SE Predicted; Infernal #=GF SS Published; PMID 9223489 #=GF RN [1] #=GF RM 9223489 #=GF RT The role of the pseudoknot at the 3' end of turnip yellow mosaic #=GF RT virus RNA in minus-strand synthesis by the viral RNA-dependent RNA #=GF RT polymerase. #=GF RA Deiman BA, Kortlever RM, Pleij CW; #=GF RL J Virol 1997;71:5990-5996. AF035635.1/619-641    UGAGUUCUCGAUCUCUAAAAUCG M24804.1/82-104    UGAGUUCUCUAUCUCUAAAAUCG J04373.1/6212-6234    UAAGUUCUCGAUCUUUAAAAUCG M24803.1/1-23     UAAGUUCUCGAUCUCUAAAAUCG #=GC SS_cons    . AAA....lt;lt;lt;lt;aaa....gt;gt;gt;gt; //

Вот немного более сложный пример, показывающий домен Pfam CBS :

# STOCKHOLM 1.0 #=GF ID CBS #=GF AC PF00571 #=GF DE CBS domain #=GF AU Bateman A #=GF CC CBS domains are small intracellular modules mostly found #=GF CC in 2 or four copies within a protein. #=GF SQ 5 #=GS O31698/18-71 AC O31698 #=GS O83071/192-246 AC O83071 #=GS O83071/259-312 AC O83071 #=GS O31698/88-139 AC O31698 #=GS O31698/88-139 OS Bacillus subtilis O83071/192-246   MTCRAQLIAVPRASSLAEAIACAQKMRVSRVPVYERS #=GR O83071/192-246 SA 9998877564535242525515252536463774777 O83071/259-312   MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY #=GR O83071/259-312 SS CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEE O31698/18-71   MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS #=GR O31698/18-71 SS CCCHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHH O31698/88-139   EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE #=GR O31698/88-139 SS CCCCCCCHHHHHHHHHHHHEEEEEEEEEEEEEEEEEH #=GC SS_cons   CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEH O31699/88-139   EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE #=GR O31699/88-139 AS ________________*____________________ #=GR O31699/88-139 IN ____________1____________2______0____ //

Смотрите также

использованная литература

внешние ссылки

Последняя правка сделана 2023-03-21 08:44:52
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте