GenBank

редактировать
База данных последовательностей ДНК
GenBank
Содержимое
ОписаниеНуклеотидные последовательности для более чем 300 000 организмов с поддерживающей библиографической и биологической аннотацией.
Типы данных. захваченные
  • Нуклеотидная последовательность
  • Белковая последовательность
Организмы Все
Связаться с
Исследовательским центром NCBI
Основное цитированиеPMID 21071399
Дата выпуска1982 г.; 38 лет назад (1982)
Доступ
Формат данных
Веб-сайтNCBI
URL загрузкиncbi ftp
Web-сервис URL
Tools
Web BLAST
Standalone BLAST
Разное
Лицензия Неясно

База данных последовательностей GenBank представляет собой открытый доступ, аннотированную коллекцию всех общедоступных нуклеотидных последовательностей и их белков переводы. Он производится и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национальных институтов здравоохранения в США ) в рамках Международное сотрудничество с базами данных нуклеотидных последовательностей (INSDC).

GenBank и его сотрудники получают последовательности, полученные в лабораториях по всему миру из более чем 100 000 различных организмов. База данных была создана в 1982 году Уолтером Гоудом и Лос-Аламосской национальной лабораторией. GenBank стал важной базой данных для исследований в биологических областях и в последние годы рос с экспоненциальной скоростью, удваиваясь примерно каждые 18 месяцев.

Версия 194, выпущенная в феврале 2013 года, содержала более 150 миллиардов нуклеотидных оснований в более чем 162 миллионах последовательностей. GenBank создан на основе прямых заявок от отдельных лабораторий, а также массовых заявок от крупных центров секвенирования .

Содержание
  • 1 Представления
  • 2 История
  • 3 Рост
  • 4 Неполные идентификации
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки
Представления

Только оригинальные последовательности могут быть отправлены в GenBank. Прямая отправка осуществляется в GenBank с использованием BankIt, который представляет собой веб-форму, или автономной программы отправки, Sequin. После получения представления последовательности сотрудники GenBank проверяют подлинность данных и присваивают последовательности регистрационный номер и проводят проверки обеспечения качества. Затем представленные материалы отправляются в общедоступную базу данных, где записи могут быть получены с помощью Entrez или загружены с помощью FTP. Наиболее распространены массовые отправки данных Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) и (HTGS). часто предоставляется крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома.

История

Уолтер Гоуд из Группы теоретической биологии и биофизики в Национальной лаборатории Лос-Аламоса и другие учредили Лос-Аламосскую базу данных последовательностей в 1979 году, который завершился в 1982 году созданием публичного GenBank. Финансирование было предоставлено Национальными институтами здравоохранения, Национальным научным фондом, Министерством энергетики и Министерством обороны. LANL сотрудничал в GenBank с фирмой Bolt, Beranek, and Newman, и к концу 1983 года в нем хранилось более 2000 последовательностей.

В середине 1980-х биоинформатическая компания Intelligenetics из Стэнфордского университета управляла проектом GenBank в сотрудничестве с LANL. Как один из самых ранних проектов сообщества биоинформатики в Интернете, проект GenBank создал группы новостей BIOSCI / Bionet для продвижения открытого доступа общения между учеными-биологами. В период с 1989 по 1992 год проект GenBank перешел во вновь созданный Национальный центр биотехнологической информации.

Genbank и EMBL: NucleotideSequences 1986/1987, тома с I по VII. CDRom Genbank v100
Growth
Рост пар оснований GenBank с 1982 по 2018 год в полулогарифмической шкале

В примечаниях к выпуску GenBank для выпуска 162.0 (октябрь 2007 г.) говорится, что «с 1982 г. по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев ». По состоянию на 15 июня 2019 года GenBank версии 232.0 содержит 213 383 758 локусов, 329 835 282 370 оснований из 213 383 758 зарегистрированных последовательностей.

База данных GenBank включает дополнительные наборы данных, которые создаются механически из основной коллекции данных последовательностей, и поэтому исключены из этого подсчета.

Основные организмы в GenBank (выпуск 191)
Организмпары оснований
Homo sapiens1,6310774187 × 10 ^
Mus musculus9,974977889 × 10 ^
Rattus norvegicus6.521253272 × 10 ^
Bos taurus5.386258455 × 10 ^
Zea mays5.062731057 × 10 ^
Sus scrofa4.88786186 × 10 ^
Данио рерио3.120857462 × 10 ^
Strongylocentrotus purpuratus1.435236534 × 10 ^
Macaca mulatta1.256203101 × 10 ^
Ориза sativa Japonica Group1.255686573 × 10 ^
Nicotiana tabacum1.197357811 × 10 ^
Xenopus (Silurana) tropicalis1.249938611 × 10 ^
Drosophila melanogaster1,11996522 × 10 ^
Пан троглодиты1,008323292 × 10 ^
Arabidopsis thaliana1,144226616 × 10 ^
Canis lupus familis951,238,343
Vitis vinifera999,010,073
Gallus gallus899,631,338
Glycine max906,638,854
Triticum aestivum898,689,329
полная идентификация

В общедоступных базах данных, в которых можно производить поиск с помощью инструмента поиска базового локального сопоставления (NCBI BLAST) Национального центра биотехнологической информации, отсутствуют проверенные экспертами последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, количество ссылочных последовательностей ограничено.

В статье, опубликованной в Journal of Clinical Microbiology, оцениваются результаты секвенирования гена 16S рРНК, проанализированные с помощью GenBank в сочетании с другими свободно доступными веб-сайтами с контролем качества. общедоступные базы данных на основе, такие как EzTaxon -e (https://web.archive.org/web/20130928154318/http://eztaxon-e.ezbiocloud.net/ ) и базы данных BIBI (https://web.archive.org/web/20151001000357/http://pbil.univ-lyon1.fr/bibi/ ). Результаты показали, что анализы, проведенные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более разборчивыми, чем с использованием только GenBank (каппа = 0,66) или других баз данных.

См. Также
Ссылки

.

Внешние ссылки
Последняя правка сделана 2021-05-21 14:13:22
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте