Европейский архив нуклеотидов

редактировать

Европейский архив нуклеотидов (ENA)

Содержание
Описание	Полный архив нуклеотидных последовательностей, аннотации и связанные данные.
типы данных. захваченные	нуклеотидная последовательность, функциональная аннотация, секвенирование считывает информацию и секвенсор, образец подробности, другие связанные записи.
Организмы	Все
Связаться
Исследовательский центр	Европейский институт биоинформатики
Лаборатория	Группа PANDA
Первичное цитирование	PMID 20972220
Дата выпуска	апрель 1982
Доступ
Формат данных	XML. FASTQ. EMBL-Bank формат
Веб-сайт	ENA
URL для загрузки	ENA для загрузки
Веб-сервис URL	Браузер ENA
Инструменты
Автономный	Набор инструментов CRAM
Разное
Лицензия	Без ограничений

Европейский нуклеотид e Архив (ENA ) - это репозиторий, обеспечивающий свободный и неограниченный доступ к аннотированным последовательностям ДНК и РНК. Он также хранит дополнительную информацию, такую как экспериментальные процедуры, подробности сборки последовательности и другие метаданные, относящиеся к проектам секвенирования. Архив состоит из трех основных баз данных: Архив чтения последовательностей, Архив трассировки и База данных нуклеотидных последовательностей EMBL (также известная как банк EMBL). ENA производится и поддерживается Европейским институтом биоинформатики и является членом Международного сотрудничества баз данных нуклеотидных последовательностей (INSDC) вместе с Банком данных ДНК Японии и GenBank.

ENA выросла из библиотеки данных EMBL, которая была выпущена в 1982 году как первый поддерживаемый на международном уровне ресурс для данных нуклеотидных последовательностей. По состоянию на начало 2012 года каждая база данных ENA и других членов INSDC содержала полные геномы 5682 организмов и данные о последовательностях почти 700000. Кроме того, объем данных экспоненциально увеличивается с периодом удвоения примерно 10 месяцев.

Содержание

1 История
2 База данных нуклеотидных последовательностей EMBL
- 2.1 Классы данных
- 2.2 Формат EMBL-банка
3 Последовательность чтения Архив
4 Доступ к данным
5 Хранение
6 Финансирование
7 См. Также
8 Ссылки
9 Внешние ссылки

История

Европейский архив нуклеотидов произошел из отдельных баз данных, самой ранней из которых была библиотека данных EMBL, созданная в октябре 1980 г. в Европейской лаборатории молекулярной биологии (EMBL), Heidelberg. Первый выпуск этой базы данных был выпущен в апреле 1982 года и содержал в общей сложности 568 отдельных записей, состоящих примерно из 500 000 пар оснований. В 1984 году, ссылаясь на библиотеку данных EMBL, Нил и Кеннард отметили, что «несколько лет назад было ясно, что большая компьютеризированная база данных последовательностей будет иметь важное значение для исследований в области молекулярной биологии».

Данные о нуклеотидных последовательностях в книжной форме. 242>Несмотря на то, что основным методом распространения в то время была магнитная лента, к 1987 году библиотека данных EMBL использовалась примерно 10 000 ученых по всему миру. В том же году был представлен файловый сервер EMBL для обслуживания записей базы данных по BITNET, EARN и раннему Интернету. В мае 1988 г. журнал Nucleic Acids Research ввел политику, гласящую, что «рукописи, представленные в [Nucleic Acids Research] и содержащие или обсуждающие данные о последовательностях, должны сопровождаться доказательствами того, что данные были депонированы в библиотеке данных EMBL.. "

EBI в Wellcome Trust Genome Campus в Hinxton, UK, в котором размещен Европейский нуклеотидный архив.

В 1990-х годах библиотека данных EMBL была переименована в нуклеотидную последовательность EMBL База данных и была официально перемещена в Европейский институт биоинформатики (EBI) из Гейдельберга. В 2003 году база данных нуклеотидных последовательностей была расширена за счет добавления архива версий последовательностей (SVA), который поддерживает записи всех текущих и предыдущих записей в базе данных. Год спустя, в июне 2004 г., ограничения на максимальную длину последовательности для каждой записи (тогда 350 килобаз ) были сняты, что позволило сохранять последовательности целого генома как единую запись базы данных.

После внедрения секвенирования по Сэнгеру, Wellcome Trust Sanger Institute (тогда известный как Центр Сэнгера) начал каталогизацию чтений последовательности вместе с информацией о качестве в базе данных под названием Архив трассировки. Архив трассировки существенно вырос с коммерциализацией высокопроизводительных технологий параллельного секвенирования такими компаниями, как Roche и Illumina. В 2008 году EBI объединила архив трассировки, базу данных нуклеотидных последовательностей EMBL (теперь также известную как EMBL-Bank) и недавно разработанный архив последовательностей (или коротких) считываний (SRA), чтобы составить ENA, направленную на обеспечение комплексного архив нуклеотидной последовательности. Как член Международного сотрудничества по базам данных нуклеотидных последовательностей, ENA ежедневно обменивается данными с Банком данных ДНК Японии и GenBank.

Базой данных нуклеотидных последовательностей EMBL.

База данных нуклеотидных последовательностей EMBL (EMBL-Bank) увеличилась в размере с примерно 600 записей в 1982 году до более 2,5 × 10 к декабрю 2012 года.

База данных нуклеотидных последовательностей EMBL (также известная как EMBL-Bank) является раздел ENA, который содержит высокоуровневые детали сборки генома, а также собранные последовательности и их функциональную аннотацию . EMBL-Bank поддерживается путем прямого представления геномных консорциумов и более мелких исследовательских групп, а также путем извлечения данных о последовательностях, связанных с патентными заявками.

Начиная с версии 114 (декабрь 2012 г.), База данных нуклеотидных последовательностей EMBL содержит приблизительно 5 × 10 нуклеотидов с несжатым размером файла 1,6 терабайт.

Классы данных

База данных нуклеотидных последовательностей EMBL поддерживает множество данных, полученных из разных источников, включая, но не ограничено:

Теги экспрессируемой последовательности с соответствующими данными образца.
Нуклеотидная последовательность, генерируемая из проектов секвенирования всего генома на различных этапах сборки, включая полную contigs и аннотированная, полностью собранная последовательность.
Данные, относящиеся к транскриптомике, такие как комплементарная ДНК, с необязательной аннотацией.
Роман или расширенные аннотации существующих кодовых последовательностей, например, новые версии последовательностей w с исправленными стартовыми или стоп-кодонами.

формат банка EMBL

База данных нуклеотидных последовательностей EMBL использует плоский файл открытый текст формат для представления и хранения данных, которые обычно называют форматом EMBL-Bank. Формат EMBL-Bank использует другой синтаксис для записей в DDBJ и GenBank, хотя каждый формат использует определенную стандартизированную номенклатуру, например, таксономии, как определено в NCBI База данных таксонов. Каждая строка файла формата EMBL содержит двухбуквенный код, например ACдля обозначения инвентарного номера и KWдля списка соответствующих ключевых слов. к записи; каждая запись заканчивается //.

Архив чтения последовательности

SRA быстро растет с 2008 года. По состоянию на 2011 год большая часть данных SRA была произведена анализатором генома Illumina.

ENA работает экземпляр архива чтения последовательностей (SRA), архивного репозитория операций чтения и анализа последовательностей, которые предназначены для публичного выпуска. Первоначально называвшийся «Архив коротких чтений», название было изменено в ожидании того, что будущие технологии секвенирования смогут производить более длинные чтения последовательности. В настоящее время в архиве принимаются считывания последовательностей, генерируемые платформами секвенирования следующего поколения, такими как анализатор генома Illumina и ABI SOLiD, а также некоторые соответствующие анализы и выравнивания. SRA работает под руководством International Nucleotide Sequence Database Collaboration (INSDC) и является самым быстрорастущим хранилищем в ENA.

В 2010 г. архив чтения последовательностей составлял примерно 95% данных пар оснований, доступных через ENA, охватывающих более 500000000000 считываний последовательностей, состоящих из более чем 60 триллионов (6 × 10) пар оснований. Почти половина этих данных была депонирована в рамках проекта 1000 Genomes Project, в котором исследователи опубликовали свои данные о последовательностях в SRA в реальном времени. В целом, по состоянию на сентябрь 2010 г. 65% архива считывания последовательностей составляли геномная последовательность человека, а еще 16% относились к последовательности считывания метагенома человека.

предпочтительным форматом данных для файлов, представленных в SRA, является формат BAM, который может хранить как выровненные, так и невыровненные чтения. Внутри SRA полагается на NCBI SRA Toolkit, который используется во всех трех базах данных INSDC, для обеспечения гибкого сжатия данных, API доступа и преобразования в другие форматы, такие как FASTQ.

Доступ к данным

Снимок экрана браузера ENA веб-интерфейса, показывающий запись HTML.

К данным, содержащимся в ENA, можно получить доступ вручную или программно через REST URL через браузер ENA. Изначально ограниченный архивом чтения последовательности, браузер ENA теперь также предоставляет доступ к архиву трассировки и EMBL-Bank, что позволяет извлекать файлы в различных форматах, включая XML, HTML, FASTA и FASTQ. Доступ к отдельным записям можно получить, используя их регистрационные номера, а другие текстовые запросы разрешены через поисковую систему EB-eye. Кроме того, поиск на основе сходства последовательностей, реализованный с использованием графов Де Брейна, предлагает другой метод получения записей из ENA.

Доступ к ENA осуществляется через EBI SOAP и REST API, которые также предлагают доступ к другим базам данных, размещенным в EBI, таким как Ensembl и InterPro.

Storage

Европейский нуклеотидный архив обрабатывает большие объемы данных, которые создают серьезные проблемы с хранением. По состоянию на 2012 год требования ENA к хранилищу продолжают экспоненциально расти, при этом время удвоения составляет примерно 10 месяцев. Чтобы справиться с этим увеличением, ENA выборочно отбрасывает менее ценные данные платформы секвенирования и реализует передовые стратегии сжатия. Инструментарий сжатия на основе справочника CRAM был разработан, чтобы помочь снизить требования к хранению ENA.

Финансирование

В настоящее время ENA финансируется совместно Европейской лабораторией молекулярной биологии, Европейская комиссия и Wellcome Trust. Новая структура ELIXIR, координируемая директором EBI Джанет Торнтон, направлена на обеспечение устойчивой европейской инфраструктуры финансирования для поддержки постоянной доступности баз данных наук о жизни, таких как ENA.

См. Также

Ссылки

Внешние ссылки