Проект аннотации позвоночных и генома

редактировать

База данных Аннотации генома позвоночных (VEGA ) - это биологическая база данных, предназначенная для помощи исследователям в поиске конкретных областей генома и аннотировании генов или областей геномов позвоночных. Браузер VEGA основан на веб-коде и инфраструктуре Ensembl и обеспечивает общедоступное наблюдение за известными генами позвоночных для научного сообщества. Веб-сайт VEGA часто обновляется, чтобы поддерживать самую свежую информацию о геномах позвоночных, и пытается постоянно предоставлять высококачественные аннотации всех опубликованных геномов позвоночных или участков генома. VEGA была разработана Wellcome Trust Sanger Institute и тесно связана с другими базами данных аннотаций, такими как ZFIN (Информационная сеть Zebrafish), Havana Group и GenBank. Ручная аннотация в настоящее время более точна при идентификации вариантов сплайсинга, псевдогенов, признаков полиаденилирования, некодирующих областей и сложных генных структур, чем автоматические методы.

Содержание

  • 1 История
  • 2 Геном человека
  • 3 Другие позвоночные
    • 3.1 Рыбы данио
    • 3.2 Мышь
    • 3.3 Свинья
    • 3.4 Собака, шимпанзе, валлаби и горилла
  • 4 Сравнительный анализ
  • 5 Ссылки
  • 6 Внешние ссылки

История

База данных Genome Annotation (VEGA) была впервые обнародована в 2004 г. Институтом Wellcome Trust Sanger. Он был разработан для просмотра ручных аннотаций геномных последовательностей человека, мышей и рыбок данио и является центральным кешем для центров секвенирования генома, где хранятся аннотации человеческих хромосом. Ручное аннотирование геномных данных чрезвычайно важно для создания точного эталонного набора генов, но оно дорого по сравнению с автоматическими методами и поэтому ограничивается модельными организмами. Инструменты аннотации, которые были разработаны в Wellcome Trust Sanger Institute (WTSI), теперь используются для заполнения этого пробела, поскольку их можно использовать удаленно и, таким образом, открывать жизнеспособные возможности для совместной работы сообщества по аннотациям. Проектами HAVANA и VEGA руководила доктор Дженнифер Харроу из Института Wellcome Sanger. VEGA архивируется с февраля 2017 года, а команда HAVANA переехала в EMBL-EBI в июне 2017 года.

Геном человека

База данных Vega является центральным хранилищем для большинства центров секвенирования генома. аннотации хромосом человека. Со времени первоначальной публикации VEGA количество аннотированных локусов генов человека увеличилось более чем вдвое и превысило 49 000 (выпуск от сентября 2012 г.), более 20 000 из которых, по прогнозам, кодируют белок. Группа компаний Havana Group в рамках сотрудничества по согласованию кодирующих последовательностей (CCDS) и полногеномного расширения проекта ENCODE полностью вручную аннотировала геном человека, который доступен для справки, сравнительного анализа и поиска последовательностей в базе данных VEGA. Последний выпуск VEGA был выпущен в феврале 2017 года (выпуск 68), и теперь VEGA представляет собой заархивированный сайт, который больше не будет обновляться.

Другие позвоночные

База данных VEGA объединяет информацию из отдельных баз данных генома позвоночных и объединяет их все вместе, чтобы облегчить доступ и сравнительный анализ для исследователей. Группа анализа и аннотации человека и позвоночных (Гавана) из Wellcome Trust Sanger Institute (WTSI) вручную аннотирует геномы человека, мыши и рыбок данио с помощью инструмента аннотации генома Otterlace / ZMap. Система ручных аннотаций Otterlace включает в себя реляционную базу данных, в которой хранятся данные ручных аннотаций и поддерживает графический интерфейс Zmap, и основана на схеме Ensembl.

Zebrafish

Геном Zebrafish, который полностью обновляется. упорядочены и аннотированы вручную. В геноме рыбок данио в настоящее время содержится 18 454 аннотированных гена VEGA, из которых 16 588 являются предполагаемыми генами, кодирующими белок (сентябрь 2012 г., выпуск).

Мышь

Геном мыши в настоящее время содержит 23 322 аннотированных гена VEGA - из которых 14 805 являются предполагаемыми генами, кодирующими белок (июнь 2012 г., выпуск). Локусы, выбранные для ручной аннотации, разбросаны по всему геному, но некоторые области получили больше внимания, чем другие: хромосомы 2, 4, 11 и X, которые были полностью аннотированы. Аннотации, показанные в этом выпуске Vega, взяты из замораживания данных, сделанного 19 марта 2012 года, и генные структуры представлены в объединенном наборе мышиных генов, показанном в Ensembl release 67. Vega также показывает искусственные локусы, созданные программами нокаута мыши.

Свинья

В геноме Свиньи в настоящее время аннотировано 2 842 гена VEGA, из которых 2 264 являются предполагаемыми генами, кодирующими белок (сентябрь 2012 г., выпуск). Главный комплекс гистосовместимости свиней (MHC), также известный как антигенный комплекс лейкоцитов свиней (SLA), охватывает область 2,4 Мб субметацентрической хромосомы 7 (SSC7p1.1-q1.1). МНС свиньи участвует в контроле иммунного ответа и восприимчивости к ряду заболеваний и играет уникальную роль в гистосовместимости. Хромосомы X-WTSI и Y-WTSI в настоящее время аннотируются Гаваной.

Собака, шимпанзе, валлаби и горилла

Геном собаки в настоящее время содержит 45 аннотированных генов VEGA, из которых 29 прогнозируемые гены, кодирующие белок (февраль 2005 г., выпуск). В геноме шимпанзе в настоящее время содержится 124 аннотированных гена VEGA, из которых 52 являются предполагаемыми генами, кодирующими белок (январь 2012 г., выпуск). В настоящее время геном Валлаби содержит 193 аннотированных гена VEGA, 76 из которых являются предполагаемыми генами, кодирующими белок (март 2009 г., релиз). В настоящее время геном гориллы содержит 324 аннотированных гена VEGA, 176 из которых являются предполагаемыми генами, кодирующими белок (март 2009 г., выпуск).

Сравнительный анализ

В дополнение к полным геномам и в отличие от В других браузерах VEGA также отображает небольшие готовые области, представляющие интерес, из геномов других позвоночных, гаплотипов человека и линий мышей. В настоящее время он включает законченную последовательность и аннотацию главного комплекса гистосовместимости (MHC) из разных гаплотипов человека, собаки и свиньи [последний из которых в настоящее время доступен только в очень ограниченной форме в Ensembl Pre !. Кроме того, имеется аннотация штамма мыши NOD (диабет без ожирения) для областей-кандидатов IDD (инсулинозависимый диабет) и еще двух областей свиней.

Vega содержит сравнительный попарный анализ между конкретными геномными областями разных видов или из разные гаплотипы / штаммы. Это контрастирует с Ensembl, где выполняется множество сравнений всего генома по сравнению со всеми геномами. Анализ в Vega включает:

1. Идентификация геномных выравниваний с помощью LastZ. 2. Прогнозирование пар ортологов с помощью конвейера дерева генов Ensembl. Обратите внимание, что хотя конвейер генерирует филогенетические родословные, ограниченный объем сравнительного анализа Vega означает, что он обязательно будет неполным, и, следовательно, на веб-сайте будут показаны только ортологи. 3. Ручная идентификация аллелей в различных гаплотипах человека или линий мышей.

Существует пять наборов анализов:

1. Область MHC сравнивалась между собакой, свиньей (две группы), гориллой, шимпанзе, валлаби, мышью и восемью гаплотипами человека:

  • хромосома собаки 12-MHC
  • хромосома гориллы 6-MHC
  • хромосома 6-MHC шимпанзе
  • хромосома валлаби 2-MHC
  • хромосома 7 свиньи на Sscrofa10.2 (от 24,7 МБ до 29,8 МБП)
  • хромосома 7-MHC свиньи
  • хромосома 17 мыши (33,3 Мбит / с до 38,9 Мбит / с)
  • хромосома 6 в эталонной сборке человека (28 Мбит / с до 34 Мбит / с)
  • область MHC хромосомы 6 в ЦОГ человека, QBL, Гаплотипы APD, DBB, MANN, MCF и SSTO (полноразмерные фрагменты хромосомы)

2. Сравнение LRC-регионов свиньи, гориллы и человека (девять гаплотипов):

  • хромосома свиньи 6 (от 53,6Mbp до 54,0Mbp)
  • хромосома гориллы 19-LRC
  • хромосома человека 19q13. 4 (54,6–55,6 Мбит / с) на эталонной сборке.
  • область LRC хромосомы 19 в гаплотипах COX_1, COX_2, PGF_1, PGF_2, DM1A, DM1B, MC1A и MC1B (полноразмерные фрагменты хромосомы).
  • Области инсулинозависимого диабета (Idd) на шести хромосомах мыши (1, 3, 4, 6, 11 и 17) сравнивались между эталоном CL57BL / 6 и одним или несколькими из DIL Non-Obese Diabetic (NOD), CHORI-29 NOD и 129 штаммов. Дополнительные подробности описаны здесь

3. Области эталонной сборки CL57BL / 6, используемые в этих сравнениях:

  • Idd3.1: хромосома 3, клоны от AC117584.11 до AC115749.12
  • Idd4.1: хромосома 11, клоны AL596185.12 на AL663042.5
  • Idd4.2: хромосома 11, клоны от AL663082.5 до AL604065.7
  • Idd4.2Q: хромосома 11, клоны от AL596111.7 до AL645695.18
  • Idd5.1: хромосома 1, клоны от AL683804.15 до AL645534.20
  • Idd5.3: хромосома 1, клоны от AC100180.12 до AC101699.9
  • Idd5.4: хромосома 1, клоны от AC123760.9 до AC109283.8
  • Idd6.1 + Idd6.2: хромосома 6, клоны от AC164704.4 до AC164090.3
  • Idd6.3: хромосома 6, клоны AC171002. 2 по AC163356.2
  • Idd9.1: хромосома 4, клоны с AL627093.17 по AL670959.8
  • Idd9.1M: хромосома 4, клоны с AL611963.24 по AL669936.12
  • Idd9.2: хромосома 4, клоны от CR788296.8 до AL626808.28
  • Idd9.3: хромосома 4, клоны с AL607078.26 по AL606967.14
  • Idd10.1: хромосома 3, клоны AC167172.3 - AC131184.4
  • Idd16.1: хромосома 17, клоны AC12 От 5141.4 до AC167363.3
  • Idd18.1: хромосома 3, клоны от AL845310.4 до AL683824.8
  • Idd18.2: хромосома 3, клоны от AC123057.4 до AC129293.9

4. Сравнение трех конкретных регионов:

  • хромосома 17 свиньи (58,2 Мбит / с до 67,4 Мбит / с)
  • хромосома человека 20q13.13-q13.33 (45,8 Мбит / с до 62,4 Мбит / с)
  • хромосома 2 мыши (168,3–179,0 Мбит / с)

5. Парные сравнения трех пар полноразмерных хромосом мыши и человека:

  • хромосома 1 человека и хромосома 4 мыши
  • хромосома 17 человека и хромосома 11 мыши
  • хромосома X человека и хромосома X

Ссылки

Внешние ссылки

Последняя правка сделана 2021-06-18 11:48:13
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте