Разработано |
|
---|---|
Тип формата | Биоинформатика |
Расширенный из | значений, разделенных табуляцией |
Веб-сайт | samtools.github.io / hts-specs / |
Карта выравнивания последовательностей (SAM) - это текстовый формат, изначально предназначенный для хранения биологических последовательностей, выровненных с эталонной последовательностью разработан Хенг Ли и Бобом Хэндсакером и др. Он широко используется для хранения данных, таких как последовательности нуклеотидов, сгенерированных технологиями секвенирования следующего поколения, и этот стандарт был расширен за счет включения неотмеченных последовательностей. Формат поддерживает короткие и длинные чтения (до 128 Мбит / с), производимые различными платформами секвенирования, и используется для хранения сопоставленных данных внутри и между Broad Institute, Wellcome Sanger Institute, и во всем 1000 Genomes Project.
Формат SAM состоит из заголовка и секции выравнивания. Двоичным эквивалентом файла SAM является файл Binary Alignment Map (BAM), в котором те же данные хранятся в сжатом двоичном представлении. Файлы SAM можно анализировать и редактировать с помощью программного обеспечения SAMtools. Раздел заголовка должен предшествовать разделу выравнивания, если он присутствует. Заголовки начинаются с символа «@», который отличает их от раздела выравнивания. Разделы выравнивания имеют 11 обязательных полей, а также переменное количество дополнительных полей.
Столбец | Поле | Тип | Краткое описание |
---|---|---|---|
1 | QNAME | Строка | ИМЯ шаблона запроса |
2 | ФЛАГ | Int | побитовый ФЛАГ |
3 | RNAME | Строка | Ссылки последовательность ИМЯ |
4 | POS | Int | Крайнее левое отображение на основе 1 POSition |
5 | MAPQ | Int | MAPping Quality |
6 | CIGAR | Строка | Строка СИГАР |
7 | RNEXT | Строка | Ссылка. имя сопряжения / следующее чтение |
8 | PNEXT | Int | Положение сопряжения / следующее чтение |
9 | TLEN | Int | наблюдаемый шаблон LENgth |
10 | SEQ | Строка | сегмент SEQuence |
11 | QUAL | Строка | ASCII базового уровня с масштабированием по Phred. QUALity + 33 |
Из спецификации:
Поле FLAG отображается как одно целое число, но представляет собой сумму побитовых флагов для обозначения нескольких атрибутов выравнивания чтения. Каждый атрибут обозначает один бит в двоичном представлении целого числа.
Целое число | Двоичное | Описание (парная интерпретация чтения) |
---|---|---|
1 | 000000000001 | шаблон, имеющий несколько шаблонов в последовательности (чтение парное) |
2 | 000000000010 | каждый сегмент правильно выровнен в соответствии с выравнивателем (чтение отображается в правильной паре) |
4 | 000000000100 | сегмент не отображен (чтение1 не отображено) |
8 | 000000001000 | следующий сегмент в шаблоне не отображен (чтение2 не отображено) |
16 | 000000010000 | SEQ с обратным дополнением (чтение1 с обратным дополнением) |
32 | 000000100000 | SEQ следующего сегмента в шаблоне с обратным дополнением (чтение2 с обратным дополнением) |
64 | 000001000000 | первый сегмент в шаблоне (читается1) |
128 | 000010000000 | последний сегмент в шаблоне (читается2) |
256 | 000100000000 | не первичный выравнивание |
512 | 001000000000 | выравнивание не проходит проверку качества |
1024 | 010000000000 | ПЦР или оптический дубликат |
2048 | 100000000000 | дополнение ry выравнивание (например, зависит от выравнивателя, может быть частью разделенного чтения или связанной области) |
Атрибуты FLAG суммируются для получения окончательного значения, например строка SAM, полученная в результате записи FASTQ с парным концом Illumina, имеющей значение FLAG 2145, будет означать:
Значение флага | Значение | Считывание суммы флагов |
---|---|---|
1 | спарено | 1 |
32 | чтение2 было обратным дополнением | 33 |
64 | чтение1 | 97 |
2048 | Дополнительное выравнивание | 2145 |
Из спецификации:
Тип может быть одним из A (символ), B ( общий массив), f (действительное число), H (шестнадцатеричный массив), i (целое число) или Z (строка).
Тег | Тип | Описание |
---|---|---|
AM | i | Наименьшее качество отображения, не зависящее от шаблона, в шаблоне |
AS | i | Оценка выравнивания, генерируемая выравнивателем |
BC | Z | Последовательность штрих-кода, идентифицирующая образец |
BQ | Z | Смещение к качеству выравнивания оснований (BAQ) |
BZ | Z | Качество Phred уникальных оснований молекулярного штрих-кода в теге OX |
CB | Z | Идентификатор ячейки |
CC | Z | Ссылочное имя следующего попадания |
CG | B, I | только BAM: СИГАРА в двоичной кодировке BAM, если (и только если) она состоит из>65535 операторов |
CM | i | Изменить расстояние между последовательностью цветов и эталоном цвета (см. также NM) |
CO | Z | Текстовые комментарии |
CP | i | Крайняя левая координата следующего попадания |
CQ | Z | Базовые качества считывания цвета |
CR | Z | Базы последовательностей штрих-кодов сотовой связи (нескорректированные) |
CS | Z | Последовательность считывания цветов |
CT | Z | Тег аннотации полного считывания, используемый для согласования фиктивные функции аннотации |
CY | Z | Качество Phred последовательности сотового штрих-кода в тег CR |
E2 | Z | Второй наиболее вероятный вызов базы |
FI | i | Индекс сегмента в шаблоне |
FS | Z | Суффикс сегмента |
FZ | B, S | Интенсивности сигналов потока |
GC | ? | Зарезервировано для целей обратной совместимости |
GQ | ? | Зарезервировано для соображений обратной совместимости |
GS | ? | Зарезервировано для соображений обратной совместимости |
H0 | i | Количество точных совпадений |
H1 | i | Количество совпадений с 1 разницей (см. Также NM) |
H2 | i | Количество совпадений с двумя разностями |
HI | i | Индекс совпадений по запросу |
IH | i | Общее количество совпадений запроса |
LB | Z | Библиотека |
MC | Z | Строка CIGAR для сопряжения / следующего сегмента |
MD | Z | Строка для несовпадающих позиций |
MF | ? | Зарезервировано для целей обратной совместимости |
MI | Z | Молекулярный идентификатор; строка, которая однозначно идентифицирует молекулу, из которой была получена запись |
MQ | i | Качество сопоставления сопряжения / следующего сегмента |
NH | i | Количество сообщенных выравниваний, содержащих запрос в текущей записи |
NM | i | Изменить расстояние до ссылки |
OA | Z | Исходное выравнивание |
OC | Z | Исходная СИГАРА (устарело; вместо этого используйте OA) |
OP | i | Исходное положение сопоставления (не рекомендуется; вместо этого используйте OA) |
OQ | Z | Исходное качество основы |
OX | Z | Оригинальные уникальные молекулярные основы штрих-кода |
PG | Z | Программа |
PQ | i | Вероятность Phred шаблона |
PT | Z | Чтение аннотаций для частей дополненной последовательности чтения |
PU | Z | Платформа |
Q2 | Z | Качество Phred последовательности сопряжения / следующего сегмента в теге R2 |
QT | Z | Качество Phred выборки последовательность штрих-кода в теге BC |
QX | Z | Оценка качества уникального молекулярного идентификатора в теге RX |
R2 | Z | Последовательность сопряжения / следующего сегмента в шаблоне |
RG | Z | Группа чтения |
RT | ? | Res зарезервировано по причинам обратной совместимости |
RX | Z | Основания последовательности (возможно скорректированного) уникального молекулярного идентификатора |
S2 | ? | Зарезервировано для целей обратной совместимости |
SA | Z | Другие канонические выравнивания в химерном выравнивании |
SM | i | Качество отображения, не зависящее от шаблона |
SQ | ? | Зарезервировано для целей обратной совместимости |
TC | i | Количество сегментов в шаблоне |
U2 | Z | Вероятность второго вызова Phred быть неправильным при условии, что лучший вариант неправильный |
UQ | i | Вероятность Phred сегмента, при условии правильности отображения |
X? | ? | Зарезервировано для конечных пользователей |
Д? | ? | Зарезервировано для конечных пользователей |
Z? | ? | Зарезервировано для конечных пользователей |