Содержание | |
---|---|
Описание | Полный архив нуклеотидных последовательностей, аннотации и связанные данные. |
типы данных. захваченные | нуклеотидная последовательность, функциональная аннотация, секвенирование считывает информацию и секвенсор, образец подробности, другие связанные записи. |
Организмы | Все |
Связаться | |
Исследовательский центр | Европейский институт биоинформатики |
Лаборатория | Группа PANDA |
Первичное цитирование | PMID 20972220 |
Дата выпуска | апрель 1982 |
Доступ | |
Формат данных | XML. FASTQ. EMBL-Bank формат |
Веб-сайт | ENA |
URL для загрузки | ENA для загрузки |
Веб-сервис URL | Браузер ENA |
Инструменты | |
Автономный | Набор инструментов CRAM |
Разное | |
Лицензия | Без ограничений |
Европейский нуклеотид e Архив (ENA ) - это репозиторий, обеспечивающий свободный и неограниченный доступ к аннотированным последовательностям ДНК и РНК. Он также хранит дополнительную информацию, такую как экспериментальные процедуры, подробности сборки последовательности и другие метаданные, относящиеся к проектам секвенирования. Архив состоит из трех основных баз данных: Архив чтения последовательностей, Архив трассировки и База данных нуклеотидных последовательностей EMBL (также известная как банк EMBL). ENA производится и поддерживается Европейским институтом биоинформатики и является членом Международного сотрудничества баз данных нуклеотидных последовательностей (INSDC) вместе с Банком данных ДНК Японии и GenBank.
ENA выросла из библиотеки данных EMBL, которая была выпущена в 1982 году как первый поддерживаемый на международном уровне ресурс для данных нуклеотидных последовательностей. По состоянию на начало 2012 года каждая база данных ENA и других членов INSDC содержала полные геномы 5682 организмов и данные о последовательностях почти 700000. Кроме того, объем данных экспоненциально увеличивается с периодом удвоения примерно 10 месяцев.
Европейский архив нуклеотидов произошел из отдельных баз данных, самой ранней из которых была библиотека данных EMBL, созданная в октябре 1980 г. в Европейской лаборатории молекулярной биологии (EMBL), Heidelberg. Первый выпуск этой базы данных был выпущен в апреле 1982 года и содержал в общей сложности 568 отдельных записей, состоящих примерно из 500 000 пар оснований. В 1984 году, ссылаясь на библиотеку данных EMBL, Нил и Кеннард отметили, что «несколько лет назад было ясно, что большая компьютеризированная база данных последовательностей будет иметь важное значение для исследований в области молекулярной биологии».
Данные о нуклеотидных последовательностях в книжной форме. 242>Несмотря на то, что основным методом распространения в то время была магнитная лента, к 1987 году библиотека данных EMBL использовалась примерно 10 000 ученых по всему миру. В том же году был представлен файловый сервер EMBL для обслуживания записей базы данных по BITNET, EARN и раннему Интернету. В мае 1988 г. журнал Nucleic Acids Research ввел политику, гласящую, что «рукописи, представленные в [Nucleic Acids Research] и содержащие или обсуждающие данные о последовательностях, должны сопровождаться доказательствами того, что данные были депонированы в библиотеке данных EMBL.. " EBI в Wellcome Trust Genome Campus в Hinxton, UK, в котором размещен Европейский нуклеотидный архив.В 1990-х годах библиотека данных EMBL была переименована в нуклеотидную последовательность EMBL База данных и была официально перемещена в Европейский институт биоинформатики (EBI) из Гейдельберга. В 2003 году база данных нуклеотидных последовательностей была расширена за счет добавления архива версий последовательностей (SVA), который поддерживает записи всех текущих и предыдущих записей в базе данных. Год спустя, в июне 2004 г., ограничения на максимальную длину последовательности для каждой записи (тогда 350 килобаз ) были сняты, что позволило сохранять последовательности целого генома как единую запись базы данных.
После внедрения секвенирования по Сэнгеру, Wellcome Trust Sanger Institute (тогда известный как Центр Сэнгера) начал каталогизацию чтений последовательности вместе с информацией о качестве в базе данных под названием Архив трассировки. Архив трассировки существенно вырос с коммерциализацией высокопроизводительных технологий параллельного секвенирования такими компаниями, как Roche и Illumina. В 2008 году EBI объединила архив трассировки, базу данных нуклеотидных последовательностей EMBL (теперь также известную как EMBL-Bank) и недавно разработанный архив последовательностей (или коротких) считываний (SRA), чтобы составить ENA, направленную на обеспечение комплексного архив нуклеотидной последовательности. Как член Международного сотрудничества по базам данных нуклеотидных последовательностей, ENA ежедневно обменивается данными с Банком данных ДНК Японии и GenBank.
База данных нуклеотидных последовательностей EMBL (также известная как EMBL-Bank) является раздел ENA, который содержит высокоуровневые детали сборки генома, а также собранные последовательности и их функциональную аннотацию . EMBL-Bank поддерживается путем прямого представления геномных консорциумов и более мелких исследовательских групп, а также путем извлечения данных о последовательностях, связанных с патентными заявками.
Начиная с версии 114 (декабрь 2012 г.), База данных нуклеотидных последовательностей EMBL содержит приблизительно 5 × 10 нуклеотидов с несжатым размером файла 1,6 терабайт.
База данных нуклеотидных последовательностей EMBL поддерживает множество данных, полученных из разных источников, включая, но не ограничено:
База данных нуклеотидных последовательностей EMBL использует плоский файл открытый текст формат для представления и хранения данных, которые обычно называют форматом EMBL-Bank. Формат EMBL-Bank использует другой синтаксис для записей в DDBJ и GenBank, хотя каждый формат использует определенную стандартизированную номенклатуру, например, таксономии, как определено в NCBI База данных таксонов. Каждая строка файла формата EMBL содержит двухбуквенный код, например AC
для обозначения инвентарного номера и KW
для списка соответствующих ключевых слов. к записи; каждая запись заканчивается //
.
ENA работает экземпляр архива чтения последовательностей (SRA), архивного репозитория операций чтения и анализа последовательностей, которые предназначены для публичного выпуска. Первоначально называвшийся «Архив коротких чтений», название было изменено в ожидании того, что будущие технологии секвенирования смогут производить более длинные чтения последовательности. В настоящее время в архиве принимаются считывания последовательностей, генерируемые платформами секвенирования следующего поколения, такими как анализатор генома Illumina и ABI SOLiD, а также некоторые соответствующие анализы и выравнивания. SRA работает под руководством International Nucleotide Sequence Database Collaboration (INSDC) и является самым быстрорастущим хранилищем в ENA.
В 2010 г. архив чтения последовательностей составлял примерно 95% данных пар оснований, доступных через ENA, охватывающих более 500000000000 считываний последовательностей, состоящих из более чем 60 триллионов (6 × 10) пар оснований. Почти половина этих данных была депонирована в рамках проекта 1000 Genomes Project, в котором исследователи опубликовали свои данные о последовательностях в SRA в реальном времени. В целом, по состоянию на сентябрь 2010 г. 65% архива считывания последовательностей составляли геномная последовательность человека, а еще 16% относились к последовательности считывания метагенома человека.
предпочтительным форматом данных для файлов, представленных в SRA, является формат BAM, который может хранить как выровненные, так и невыровненные чтения. Внутри SRA полагается на NCBI SRA Toolkit, который используется во всех трех базах данных INSDC, для обеспечения гибкого сжатия данных, API доступа и преобразования в другие форматы, такие как FASTQ.
К данным, содержащимся в ENA, можно получить доступ вручную или программно через REST URL через браузер ENA. Изначально ограниченный архивом чтения последовательности, браузер ENA теперь также предоставляет доступ к архиву трассировки и EMBL-Bank, что позволяет извлекать файлы в различных форматах, включая XML, HTML, FASTA и FASTQ. Доступ к отдельным записям можно получить, используя их регистрационные номера, а другие текстовые запросы разрешены через поисковую систему EB-eye. Кроме того, поиск на основе сходства последовательностей, реализованный с использованием графов Де Брейна, предлагает другой метод получения записей из ENA.
Доступ к ENA осуществляется через EBI SOAP и REST API, которые также предлагают доступ к другим базам данных, размещенным в EBI, таким как Ensembl и InterPro.
Европейский нуклеотидный архив обрабатывает большие объемы данных, которые создают серьезные проблемы с хранением. По состоянию на 2012 год требования ENA к хранилищу продолжают экспоненциально расти, при этом время удвоения составляет примерно 10 месяцев. Чтобы справиться с этим увеличением, ENA выборочно отбрасывает менее ценные данные платформы секвенирования и реализует передовые стратегии сжатия. Инструментарий сжатия на основе справочника CRAM был разработан, чтобы помочь снизить требования к хранению ENA.
В настоящее время ENA финансируется совместно Европейской лабораторией молекулярной биологии, Европейская комиссия и Wellcome Trust. Новая структура ELIXIR, координируемая директором EBI Джанет Торнтон, направлена на обеспечение устойчивой европейской инфраструктуры финансирования для поддержки постоянной доступности баз данных наук о жизни, таких как ENA.