Общий формат функции

редактировать
Общий формат функции
Расширения имени файла .gff
Тип интернет-носителя text / x- gff3
РазработаноSanger Center (v2), Sequence Ontology Project (v3)
Тип форматаБиоинформатика
Расширенный иззначений, разделенных табуляцией
Открыть формат ?да
Веб-сайтgithub.com / The-Sequence-Ontology / Спецификации / blob / master / gff3.md

В биоинформатике : общий формат признаков (формат поиска генов, формат общих признаков, GFF ) - это формат файла, используемый для описания генов и других характеристик ДНК, РНК и белка <118.>последовательности.

Содержание

Версии GFF

Существуют следующие версии GFF:

GFF2 / GTF имел номер недостатков, особенно то, что он может представлять только двухуровневую иерархию признаков и, таким образом, не может обрабатывать трехуровневую иерархию ген → транскрипт → экзон. GFF3 устраняет этот и другие недостатки. Например, он поддерживает произвольное количество иерархических уровней и придает определенные значения определенным тегам в поле атрибутов.

GTF идентичен GFF, версия 2.

Общая структура GFF

Все форматы GFF (GFF2, GFF3 и GTF) tab с разделителями по 9 полей в строке. Все они имеют одинаковую структуру для первых 7 полей, но отличаются содержанием и форматом девятого поля. Общая структура выглядит следующим образом:

Общая структура GFF
Индекс позицииИмя позицииОписание
1последовательностьИмя последовательности, в которой функция расположена.
2источникКлючевое слово, идентифицирующее источник функции, например программу (например, Augustus или) или организацию (например, TAIR ).
3особенностьНазвание типа признака, например "ген" или "экзон". В хорошо структурированном файле GFF все дочерние функции всегда следуют за своими родителями в едином блоке (поэтому все экзоны транскрипции помещаются после характерной строки их родительской «транскрипции» и перед любой другой родительской строкой транскрипции). В GFF3 все функции и их взаимосвязи должны быть совместимы со стандартами , выпущенными Sequence Ontology Project.
4startГеномное начало функции с смещением на 1 базу . Это контрастирует с другими полуоткрытыми форматами последовательностей с нулевым смещением, такими как BED.
5endГеномный конец признака с смещением на 1 базу . Это та же конечная координата, что и в полуоткрытых форматах последовательности с нулевым смещением, например, BED.
6scoreЧисловое значение, которое обычно указывает на достоверность источника аннотированного объекта. Значение "." (точка) используется для определения нулевого значения.
7цепочкаОдиночный символ, обозначающий цепочку признака; он может принимать значения «+» (положительный, или 5 '->3'), «-», (отрицательный, или 3 '->5'), «.» (не определено).
8этапэтап функций CDS; это может быть одно из значений 0, 1, 2 (для функций CDS) или "." (для всего остального). См. Раздел ниже для подробного объяснения.
9атрибутыВся прочая информация, относящаяся к этой функции. Формат, структура и содержание этого поля больше всего различаются между тремя конкурирующими форматами файлов.

Восьмое поле: этап функций CDS

Проще говоря, CDS означает «Последовательность кодирования». Точное значение термина определяется онтологией последовательностей (SO). В соответствии со спецификацией GFF3 :

Для характеристик типа «CDS» фаза указывает, где элемент начинается, относительно рамки считывания. Фаза - это одно из целых чисел 0, 1 или 2, указывающих количество оснований, которые должны быть удалены из начала этой функции, чтобы достичь первой основы следующего кодона.

Мета-директивы

В файлы GFF может быть включена дополнительная метаинформация, которая следует за директивой ##. Эта метаинформация может содержать подробные сведения о версии GFF, области последовательности или виде (полный список типов метаданных можно найти в Спецификации онтологии последовательности ).

Программное обеспечение GFF

Серверы

Серверы, которые генерируют этот формат:

СерверПример файла
UniProt [1]

Клиенты

Клиенты, использующие этот формат:

ИмяОписаниеСсылки
GBrowseПрограмма просмотра генома GMODGBrowse
IGBИнтегрированный браузер геномаИнтегрированный браузер генома
JalviewРедактор и средство просмотра множественного выравнивания последовательностейJalview
STRAPПодчеркивание особенностей последовательности в нескольких выравниваниях. Пример вывода: [2pting [3pting
JBrowseJBrowse - это быстрый встраиваемый браузер генома, полностью построенный на JavaScript и HTML5JBrowse.org
ZENBUСовместная система интеграции данных и интерактивной визуализации omics[4]

Проверка

В проекте modENCODE размещен онлайн-инструмент проверки GFF3 с щедрыми лимитами 286,10 МБ и 15 миллионами строк.

Коллекция программного обеспечения Genome Tools содержит инструмент gff3validator, который можно использовать в автономном режиме для проверки и, возможно, очистки файлов GFF3. Также доступна услуга онлайн-проверки .

См. Также

Ссылки

  1. ^Информация GFF / GTF из Ensembl
  2. ^«Спецификация GFF3». 2018-11-24.
  3. ^«Gff3 - Gmod».
Последняя правка сделана 2021-05-21 14:45:00
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте