WormBase

редактировать

WormBase

Содержимое
Описание	WormBase: всеобъемлющий ресурс для исследования нематод.
Организмы	Caenorhabditis elegans
Контакт
Основная ссылка	PMID 19910365
Доступ
Веб-сайт	http://www.wormbase.org/

WormBase представляет собой интерактивную биологическую базу данных о биологии и геноме нематод модельного организма Caenorhabditis elegans и содержит информацию о других родственных нематодах. WormBase используется исследовательским сообществом C. elegans как информационный ресурс и как место для публикации и распространения своих результатов. База данных регулярно обновляется, новые версии выпускаются каждые два месяца. WormBase - одна из организаций, участвующих в проекте Generic Model Organism Database (GMOD).

Содержание

1 Содержание
2 Инструменты
3 Выбор последовательности
- 3.1 Последовательность генома
- 3.2 Модели структуры гена
4 Номенклатура генов
- 4.1 Гены
- 4.2 Псевдогены
- 4.3 CDS
- 4.4 Транскрипты генов
- 4.5 Опероны
- 4.6 Некодирующие гены РНК
- 4.7 Транспозоны
5 Другие виды
- 5.1 Белки
6 ParaSite
7 WormBase менеджмент
8 Примечания и ссылки
9 Внешние ссылки
10 См. также

Содержание

WormBase включает следующие основные наборы данных:

Аннотированные геномы Caenorhabditis elegans, Caenorhabditis briggsae, Caenorhabditis remanei, Caenorhabditis brenneri, Caenorhabditis angaria, Pristionchus pacificus, Haemonchus contortus, Meloidogyne hapla, Meloidogyne incognita, Brugia malayi и Onchocerca volvulus ;
Отобранные вручную аннотации с описанием функции из ~ 20 500 генов, кодирующих белок C. elegans, и ~ 16 000 некодирующих генов C. elegans;
G еновые семейства;
Ортологии;
Сайты связывания геномных факторов транскрипции
Исчерпывающая информация о мутантных аллелях и их фенотипах;
Целый геном РНКи (РНК-интерференция);
Генетические карты, маркеры и полиморфизмы;
Физическая карта C. elegans;
Профили экспрессии генов (стадия, ткань и клетка) из микрочипов, анализа SAGE и слияния промоторов GFP;
Полный клон клеток червя;
Схема соединений нервной системы червя;
Взаимодействие белок-белок Интерактом данные ;
генетические регуляторные отношения;
детали внутри- и межвидовых последовательностей гомологии (со ссылками на другие модели Базы данных организмов ).

Кроме того, WormBase содержит последнюю доступную для поиска библиографию исследований C. elegans и связана с проектом WormBook.

Инструменты

WormBase предлагает множество способов поиска и извлечения данных из базы данных:

WormMart, Wiki - был инструментом для извлечения различной информации о многие гены (или последовательности этих генов). Это была реализация WormBase BioMart.
WormMine, Wiki - по состоянию на 2016 год основного средства сбора данных. Это реализация WormBase InterMine.
Genome Browser - просмотр генов C. elegans (и других видов) в их геномном контексте
Textpresso - инструмент поиска, который запрашивает опубликованный C. elegans литература (включая рефераты встреч) и подгруппу литературы по нематодам.

курирование последовательности

курирование последовательности в WormBase относится к поддержанию и аннотации первичной геномной последовательности и согласованного набора генов.

Последовательность генома

Несмотря на то, что последовательность генома C. elegans является наиболее точной и полной последовательностью эукариотического генома, она постоянно нуждалась в уточнении по мере создания новых доказательств. Многие из этих изменений были вставками или делециями одиночных нуклеотидов, однако было обнаружено несколько крупных неправильных сборок. Например, в 2005 году пришлось инвертировать космиду размером 39 kb. Другие улучшения произошли в результате сравнения геномной ДНК с последовательностями кДНК и анализа высокопроизводительных данных RNASeq. Когда обнаруживаются различия между геномной последовательностью и транскриптами, повторный анализ исходных геномных данных часто приводит к модификации геномной последовательности. Изменения в геномной последовательности создают трудности при сравнении хромосомных координат данных, полученных из разных версий WormBase. Для облегчения этих сравнений программа и данные по преобразованию координат доступны по адресу: http://wiki.wormbase.org/index.php/Converting_Coordinates_between_releases

Модели структуры гена

Все гены -наборы видов WormBase изначально были созданы с помощью программ прогнозирования генов. Программы предсказания генов дают разумный набор структур генов, но лучшие из них правильно предсказывают только около 80% полных структур генов. Им сложно предсказать гены с необычной структурой, а также со слабым сигналом начала трансляции, слабыми сайтами сплайсинга или генами с одним экзоном. Они могут неправильно предсказать модель кодирующего гена, в которой ген является псевдогеном, и они плохо предсказывают изоформы гена, если вообще предсказывают.

Генные модели генов C. elegans, C. briggsae, C. remanei и C. brenneri курируются вручную. Большинство изменений структуры генов было основано на данных транскрипции из крупномасштабных проектов, таких как библиотеки EST Юджи Кохары, проект Orfeome Марка Видаля (worfdb.dfci.harvard.edu/), данные Waterston и Hillier's Illumina и данные Македонки Митревой 454. Однако другие типы данных (например, выравнивание белков, программы предсказания ab initio, лидерные сайты транс-сплайсинга, сигналы поли-A и сайты добавления, теги транскриптов SAGE и TEC-RED, масс-спектроскопические пептиды и консервативные белковые домены) полезны для уточнения структур, особенно там, где экспрессия низкая и транскрипты недоступны. Когда гены между доступными видами нематод сохраняются, сравнительный анализ также может быть очень информативным.

WormBase призывает исследователей сообщать им через службу поддержки, если у них есть доказательства неправильной структуры гена. Любые доказательства изменения последовательности кДНК или мРНК следует направлять в EMBL / GenBank / DDBJ; это помогает в подтверждении и доказательствах для генной модели, поскольку WormBase регулярно получает данные о последовательностях из этих общедоступных баз данных. Это также делает данные общедоступными, позволяя исследователям делать соответствующие ссылки и признания.

Когда любое изменение вносится в CDS (или псевдоген), старая генная модель сохраняется как объект «истории». Он будет иметь суффиксное имя, например: «AC3.5: wp119», где «AC3.5» - это имя CDS, а «119» относится к версии базы данных, в которой было внесено изменение. Причина изменения и доказательства для изменения добавляются к аннотации CDS - их можно увидеть в разделе Visible / Remark раздела «Отображение дерева» CDS на веб-сайте WormBase.

Номенклатура генов

Гены

В WormBase ген - это область, которая экспрессируется, или область, которая была экспрессирована и теперь является псевдогеном. Гены имеют уникальные идентификаторы, например «WBGene00006415». Все гены WormBase C. elegans также имеют название последовательности, которое происходит от космиды, фосмиды или клона YAC, на котором они расположены, например F38H4.7, что указывает на то, что он находится на космиде 'F38H4', и на этой космиде есть по крайней мере 6 других генов. Если ген продуцирует белок, который может быть классифицирован как член семейства, гену также может быть присвоено имя CGC, например tag-30, что указывает на то, что это 30-й член семейство генов tag . Присвоение названий семейств генов контролируется WormBase, и запросы имен должны быть сделаны перед публикацией через форму по адресу: http://tazendra.caltech.edu/~azurebrd/cgi-bin/forms/gene_name.cgi

Из этого формата есть несколько исключений, например, гены cln-3.1, cln-3.2 и cln-3.3, которые одинаково похожи. к человеческому гену CLN3 . Названия генов GCG для видов, отличных от elegans в WormBase, имеют в начале трехбуквенный код вида, например Cre-acl-5, Cbr-acl-5, Cbn-acl. -5 .

Ген может быть псевдогеном или может экспрессировать один или несколько генов некодирующей РНК (нкРНК) или белок-кодирующих последовательностей (CDS).

Псевдогены

Псевдогены - это гены, которые не производят разумный функциональный транскрипт. Они могут быть псевдогенами кодирующих генов или некодирующей РНК, и могут быть целыми или фрагментами гена и могут выражать или не выражать транскрипт. Граница между тем, что считается разумным транскриптом кодирования, иногда является субъективным, поскольку при отсутствии других доказательств использование слабых сайтов сплайсинга или коротких экзонов часто может привести к предполагаемой, хотя и неудовлетворительной, модели CDS. Псевдогены и гены с проблемной структурой постоянно пересматриваются в WormBase и используются новые данные, чтобы попытаться определить их статус.

CDS

Кодирующие последовательности (CDS) - единственная часть структуры гена, которая вручную настраивается в WormBase. Структура гена и его транскриптов происходит из структуры их CDS.

CDS имеют имя последовательности, которое происходит от того же имени последовательности, что и их родительский объект Gene, поэтому ген «F38H4.7» имеет CDS, называемый «F38H4.7». CDS определяет кодирующие экзоны в гене от кодона START (метионин) до кодона STOP (включительно).

Любой ген может кодировать несколько белков в результате альтернативного сплайсинга. Эти изоформы имеют имя, которое образовано из имени последовательности гена с добавленной уникальной буквой. В случае гена bli-4 известно 6 изоформ CDS, называемых K04F10.4a, K04F10.4b, K04F10.4c, K04F10.4d, K04F10.4e и K04F10.4f.

В литературе принято ссылаться на изоформы с использованием названия семейства генов CGC с добавленной буквой, например pha-4a, однако это не имеет значения в базе данных WormBase и выполняет поиск для pha-4a в WormBase ничего не вернет. Правильным названием этой изоформы является либо имя CDS / транскрипта: F38A6.1a, или, что еще лучше, имя белка: WP: CE15998 .

Транскрипты гена

транскрипты гена в WormBase автоматически выводятся путем картирования любых доступных выравниваний кДНК или мРНК на модели CDS. Эти генные транскрипты поэтому часто включают экзоны UTR, окружающие CDS. Если нет доступных транскриптов кДНК или мРНК, то транскрипты генов будут иметь точно такую же структуру, что и CDS, на которых они моделируются.

Транскрипты генов названы в честь названия последовательности CDS, использованного для их создания, например, F38H4.7 или K04F10.4a .

Однако, если есть альтернатива сплайсинга в UTR, который не изменит последовательность белка, альтернативно сплайсированные транскрипты называются с добавленной цифрой, например: K04F10.4a.1 и K04F10.4a.2 . Если нет изоформ кодирующего гена, например AC3.5, но есть альтернативный сплайсинг в UTRs, будет несколько транскриптов с именами AC3.5.1 и AC3.5.2 и т. Д. Если нет альтернативных транскриптов UTR, единственный coding_transcript называется так же, как CDS, и не имеет добавленного.1, как в случае K04F10.4f.

Опероны

Группы генов, которые транскрибируются как опероны, курируются как объекты оперонов. Они имеют такие названия, как CEOP5460 и подбираются вручную с использованием данных из участков лидерной последовательности, подвергнутых транс-сплайсингу SL2.

Гены некодирующей РНК

В WormBase есть несколько классов классов некодирующих РНК генов:

тРНК гены предсказываются программой tRNAscan-SE.
рРНК гены предсказываются на основе гомологии с другими видами.
мяРНК гены в основном импортируются из генов Rfam.
piRNA из анализа характерного мотива в этих гены.
miRNA гены в основном были импортированы из miRBase. В них размечены первичный и зрелый транскрипты. Первичный транскрипт будет иметь название последовательности, например W09G3.10, а к зрелому транскрипту будет добавлена буква, например W09G3.10a (и если есть альтернативные зрелые транскрипты, W09G3.10b и т. Д.).
snoRNA гены в основном импортируются из Rfam или из документов.
гены ncRNA, которые не имеют очевидной другой функции, но которые, очевидно, не являются белками -coding и не являются псевдогенами. Многие из них сохраняют гомологию с генами других видов. Некоторые из них экспрессируются в обратном направлении по отношению к генам, кодирующим белок.

Существует также один ген скРНК.

Транспозоны

Транспозоны не классифицируются как гены и поэтому не имеют родительского генного объекта. Их структура курируется как объект Transposon_CDS с именем типа C29E6.6 .

Другие виды

У видов non-elegans в WormBase есть геномы, которые были собраны с помощью технологий секвенирования, которые не включают секвенирование космиды или YAC. Следовательно, у этих видов нет названий последовательностей для CDS и транскриптов генов, основанных на названиях космид. Вместо этого у них есть уникальные буквенно-цифровые идентификаторы, составленные как имена в таблице ниже.

Названия генов
Виды	Пример названия гена
C. briggsae	CBG00001
C. remanei	CRE00001
C. brenneri	CBN00001
С. japonica	CJA00001
Pristionchus pacificus	PPA00001

Белки

Белковые продукты гена создаются путем трансляции последовательностей CDS. Каждой уникальной белковой последовательности дается уникальное идентифицирующее имя, например WP: CE40440 . Примеры названий идентификаторов белков для каждого вида в WormBase приведены в таблице ниже.

Названия генов
Виды	Пример названия белка
C. elegans	WP: CE00001
C. briggsae	BP: CBP00001
C. remanei	RP: RP00001
C. brenneri	CN: CN00001
C. japonica	JA: JA00001
Pristionchus pacificus	PP: PP00001
Heterorhabditis bacteriophora	HB: HB00001
Brugia malayi	BM: BM00001
Meloidogyne hapla	MH: MH00001
Meloidogyne incognita	MI: MI00001
Haemonchus contortus	HC: HC00001

Две последовательности CDS из разных генов внутри вида могут быть идентичными и поэтому возможно иметь идентичные белки, кодируемые отдельными генами. Когда это происходит, для белка используется одно уникальное идентифицирующее имя, даже если он производится двумя генами.

ParaSite

WormBase ParaSite - это вспомогательный портал для примерно 100 черновых геномов паразитических гельминтов (нематод и платихельминтов ), разработанных в Европейский институт биоинформатики и Wellcome Trust Sanger Institute. Все геномы собраны и аннотированы. Также доступна дополнительная информация, такая как белковые домены и термины Gene Ontology. Генные деревья позволяют выравнивать ортологи между паразитическими червями, другими нематодами и видами компараторов, не являющихся червями. Предлагается инструмент сбора данных BioMart, обеспечивающий крупномасштабный доступ к данным.

Управление WormBase

WormBase - это результат сотрудничества Европейского института биоинформатики, Wellcome Trust Sanger Institute, Института исследований рака Онтарио, Вашингтонский университет в Сент-Луисе и Калифорнийский технологический институт. Он поддержан грантом P41-HG002223 от Национальных институтов здравоохранения и грантом G0701197 от Британского совета медицинских исследований. Caltech выполняет биологическое лечение и разрабатывает лежащие в основе онтологии, EBI выполняет курирование и вычисление последовательностей, а также построение базы данных, Sanger в первую очередь участвует в курировании и отображении геномов и генов паразитических нематод, а OICR разрабатывает веб-сайт и основные инструменты интеллектуального анализа данных.

Примечания и ссылки

Внешние ссылки

WormBase
WormBase ParaSite
Веб-сайт WormBook, онлайн-учебник, дополняющий WormBase.
Textpresso, поисковая система по C. elegans и другой биологической литературе.
WormBase Wiki
Примечания к выпуску, сведения о последней версии WormBase
WormBase: лучшее программное обеспечение, более богатое содержание Статья, посвященная исследованию нуклеиновых кислот WormBase (2006).
WormBase в Twitter

См. Также