Содержимое | |
---|---|
Описание | WormBase: всеобъемлющий ресурс для исследования нематод. |
Организмы | Caenorhabditis elegans |
Контакт | |
Основная ссылка | PMID 19910365 |
Доступ | |
Веб-сайт | http://www.wormbase.org/ |
WormBase представляет собой интерактивную биологическую базу данных о биологии и геноме нематод модельного организма Caenorhabditis elegans и содержит информацию о других родственных нематодах. WormBase используется исследовательским сообществом C. elegans как информационный ресурс и как место для публикации и распространения своих результатов. База данных регулярно обновляется, новые версии выпускаются каждые два месяца. WormBase - одна из организаций, участвующих в проекте Generic Model Organism Database (GMOD).
WormBase включает следующие основные наборы данных:
Кроме того, WormBase содержит последнюю доступную для поиска библиографию исследований C. elegans и связана с проектом WormBook.
WormBase предлагает множество способов поиска и извлечения данных из базы данных:
курирование последовательности в WormBase относится к поддержанию и аннотации первичной геномной последовательности и согласованного набора генов.
Несмотря на то, что последовательность генома C. elegans является наиболее точной и полной последовательностью эукариотического генома, она постоянно нуждалась в уточнении по мере создания новых доказательств. Многие из этих изменений были вставками или делециями одиночных нуклеотидов, однако было обнаружено несколько крупных неправильных сборок. Например, в 2005 году пришлось инвертировать космиду размером 39 kb. Другие улучшения произошли в результате сравнения геномной ДНК с последовательностями кДНК и анализа высокопроизводительных данных RNASeq. Когда обнаруживаются различия между геномной последовательностью и транскриптами, повторный анализ исходных геномных данных часто приводит к модификации геномной последовательности. Изменения в геномной последовательности создают трудности при сравнении хромосомных координат данных, полученных из разных версий WormBase. Для облегчения этих сравнений программа и данные по преобразованию координат доступны по адресу: http://wiki.wormbase.org/index.php/Converting_Coordinates_between_releases
Все гены -наборы видов WormBase изначально были созданы с помощью программ прогнозирования генов. Программы предсказания генов дают разумный набор структур генов, но лучшие из них правильно предсказывают только около 80% полных структур генов. Им сложно предсказать гены с необычной структурой, а также со слабым сигналом начала трансляции, слабыми сайтами сплайсинга или генами с одним экзоном. Они могут неправильно предсказать модель кодирующего гена, в которой ген является псевдогеном, и они плохо предсказывают изоформы гена, если вообще предсказывают.
Генные модели генов C. elegans, C. briggsae, C. remanei и C. brenneri курируются вручную. Большинство изменений структуры генов было основано на данных транскрипции из крупномасштабных проектов, таких как библиотеки EST Юджи Кохары, проект Orfeome Марка Видаля (worfdb.dfci.harvard.edu/), данные Waterston и Hillier's Illumina и данные Македонки Митревой 454. Однако другие типы данных (например, выравнивание белков, программы предсказания ab initio, лидерные сайты транс-сплайсинга, сигналы поли-A и сайты добавления, теги транскриптов SAGE и TEC-RED, масс-спектроскопические пептиды и консервативные белковые домены) полезны для уточнения структур, особенно там, где экспрессия низкая и транскрипты недоступны. Когда гены между доступными видами нематод сохраняются, сравнительный анализ также может быть очень информативным.
WormBase призывает исследователей сообщать им через службу поддержки, если у них есть доказательства неправильной структуры гена. Любые доказательства изменения последовательности кДНК или мРНК следует направлять в EMBL / GenBank / DDBJ; это помогает в подтверждении и доказательствах для генной модели, поскольку WormBase регулярно получает данные о последовательностях из этих общедоступных баз данных. Это также делает данные общедоступными, позволяя исследователям делать соответствующие ссылки и признания.
Когда любое изменение вносится в CDS (или псевдоген), старая генная модель сохраняется как объект «истории». Он будет иметь суффиксное имя, например: «AC3.5: wp119», где «AC3.5» - это имя CDS, а «119» относится к версии базы данных, в которой было внесено изменение. Причина изменения и доказательства для изменения добавляются к аннотации CDS - их можно увидеть в разделе Visible / Remark раздела «Отображение дерева» CDS на веб-сайте WormBase.
В WormBase ген - это область, которая экспрессируется, или область, которая была экспрессирована и теперь является псевдогеном. Гены имеют уникальные идентификаторы, например «WBGene00006415». Все гены WormBase C. elegans также имеют название последовательности, которое происходит от космиды, фосмиды или клона YAC, на котором они расположены, например F38H4.7, что указывает на то, что он находится на космиде 'F38H4', и на этой космиде есть по крайней мере 6 других генов. Если ген продуцирует белок, который может быть классифицирован как член семейства, гену также может быть присвоено имя CGC, например tag-30, что указывает на то, что это 30-й член семейство генов tag . Присвоение названий семейств генов контролируется WormBase, и запросы имен должны быть сделаны перед публикацией через форму по адресу: http://tazendra.caltech.edu/~azurebrd/cgi-bin/forms/gene_name.cgi
Из этого формата есть несколько исключений, например, гены cln-3.1, cln-3.2 и cln-3.3, которые одинаково похожи. к человеческому гену CLN3 . Названия генов GCG для видов, отличных от elegans в WormBase, имеют в начале трехбуквенный код вида, например Cre-acl-5, Cbr-acl-5, Cbn-acl. -5 .
Ген может быть псевдогеном или может экспрессировать один или несколько генов некодирующей РНК (нкРНК) или белок-кодирующих последовательностей (CDS).
Псевдогены - это гены, которые не производят разумный функциональный транскрипт. Они могут быть псевдогенами кодирующих генов или некодирующей РНК, и могут быть целыми или фрагментами гена и могут выражать или не выражать транскрипт. Граница между тем, что считается разумным транскриптом кодирования, иногда является субъективным, поскольку при отсутствии других доказательств использование слабых сайтов сплайсинга или коротких экзонов часто может привести к предполагаемой, хотя и неудовлетворительной, модели CDS. Псевдогены и гены с проблемной структурой постоянно пересматриваются в WormBase и используются новые данные, чтобы попытаться определить их статус.
Кодирующие последовательности (CDS) - единственная часть структуры гена, которая вручную настраивается в WormBase. Структура гена и его транскриптов происходит из структуры их CDS.
CDS имеют имя последовательности, которое происходит от того же имени последовательности, что и их родительский объект Gene, поэтому ген «F38H4.7» имеет CDS, называемый «F38H4.7». CDS определяет кодирующие экзоны в гене от кодона START (метионин) до кодона STOP (включительно).
Любой ген может кодировать несколько белков в результате альтернативного сплайсинга. Эти изоформы имеют имя, которое образовано из имени последовательности гена с добавленной уникальной буквой. В случае гена bli-4 известно 6 изоформ CDS, называемых K04F10.4a, K04F10.4b, K04F10.4c, K04F10.4d, K04F10.4e и K04F10.4f.
В литературе принято ссылаться на изоформы с использованием названия семейства генов CGC с добавленной буквой, например pha-4a, однако это не имеет значения в базе данных WormBase и выполняет поиск для pha-4a в WormBase ничего не вернет. Правильным названием этой изоформы является либо имя CDS / транскрипта: F38A6.1a, или, что еще лучше, имя белка: WP: CE15998 .
транскрипты гена в WormBase автоматически выводятся путем картирования любых доступных выравниваний кДНК или мРНК на модели CDS. Эти генные транскрипты поэтому часто включают экзоны UTR, окружающие CDS. Если нет доступных транскриптов кДНК или мРНК, то транскрипты генов будут иметь точно такую же структуру, что и CDS, на которых они моделируются.
Транскрипты генов названы в честь названия последовательности CDS, использованного для их создания, например, F38H4.7 или K04F10.4a .
Однако, если есть альтернатива сплайсинга в UTR, который не изменит последовательность белка, альтернативно сплайсированные транскрипты называются с добавленной цифрой, например: K04F10.4a.1 и K04F10.4a.2 . Если нет изоформ кодирующего гена, например AC3.5, но есть альтернативный сплайсинг в UTRs, будет несколько транскриптов с именами AC3.5.1 и AC3.5.2 и т. Д. Если нет альтернативных транскриптов UTR, единственный coding_transcript называется так же, как CDS, и не имеет добавленного.1, как в случае K04F10.4f.
Группы генов, которые транскрибируются как опероны, курируются как объекты оперонов. Они имеют такие названия, как CEOP5460 и подбираются вручную с использованием данных из участков лидерной последовательности, подвергнутых транс-сплайсингу SL2.
В WormBase есть несколько классов классов некодирующих РНК генов:
Существует также один ген скРНК.
Транспозоны не классифицируются как гены и поэтому не имеют родительского генного объекта. Их структура курируется как объект Transposon_CDS с именем типа C29E6.6 .
У видов non-elegans в WormBase есть геномы, которые были собраны с помощью технологий секвенирования, которые не включают секвенирование космиды или YAC. Следовательно, у этих видов нет названий последовательностей для CDS и транскриптов генов, основанных на названиях космид. Вместо этого у них есть уникальные буквенно-цифровые идентификаторы, составленные как имена в таблице ниже.
Виды | Пример названия гена |
---|---|
C. briggsae | CBG00001 |
C. remanei | CRE00001 |
C. brenneri | CBN00001 |
С. japonica | CJA00001 |
Pristionchus pacificus | PPA00001 |
Белковые продукты гена создаются путем трансляции последовательностей CDS. Каждой уникальной белковой последовательности дается уникальное идентифицирующее имя, например WP: CE40440 . Примеры названий идентификаторов белков для каждого вида в WormBase приведены в таблице ниже.
Виды | Пример названия белка |
---|---|
C. elegans | WP: CE00001 |
C. briggsae | BP: CBP00001 |
C. remanei | RP: RP00001 |
C. brenneri | CN: CN00001 |
C. japonica | JA: JA00001 |
Pristionchus pacificus | PP: PP00001 |
Heterorhabditis bacteriophora | HB: HB00001 |
Brugia malayi | BM: BM00001 |
Meloidogyne hapla | MH: MH00001 |
Meloidogyne incognita | MI: MI00001 |
Haemonchus contortus | HC: HC00001 |
Две последовательности CDS из разных генов внутри вида могут быть идентичными и поэтому возможно иметь идентичные белки, кодируемые отдельными генами. Когда это происходит, для белка используется одно уникальное идентифицирующее имя, даже если он производится двумя генами.
WormBase ParaSite - это вспомогательный портал для примерно 100 черновых геномов паразитических гельминтов (нематод и платихельминтов ), разработанных в Европейский институт биоинформатики и Wellcome Trust Sanger Institute. Все геномы собраны и аннотированы. Также доступна дополнительная информация, такая как белковые домены и термины Gene Ontology. Генные деревья позволяют выравнивать ортологи между паразитическими червями, другими нематодами и видами компараторов, не являющихся червями. Предлагается инструмент сбора данных BioMart, обеспечивающий крупномасштабный доступ к данным.
WormBase - это результат сотрудничества Европейского института биоинформатики, Wellcome Trust Sanger Institute, Института исследований рака Онтарио, Вашингтонский университет в Сент-Луисе и Калифорнийский технологический институт. Он поддержан грантом P41-HG002223 от Национальных институтов здравоохранения и грантом G0701197 от Британского совета медицинских исследований. Caltech выполняет биологическое лечение и разрабатывает лежащие в основе онтологии, EBI выполняет курирование и вычисление последовательностей, а также построение базы данных, Sanger в первую очередь участвует в курировании и отображении геномов и генов паразитических нематод, а OICR разрабатывает веб-сайт и основные инструменты интеллектуального анализа данных.