Проект Consensus CDS

редактировать
Проект CCDS
Контент
ОписаниеКонвергенция к стандартному набору аннотаций генов
Контакт
Исследовательский центр Национальный центр биотехнологической информации. Европейский институт биоинформатики. Калифорнийский университет в Санта-Круз. Wellcome Trust Sanger Institute
Авторы Пруитт К.Д.
Первичный цитатаПрюитт К.Д. и др. (2009)
Дата выпуска2009
Доступ
Веб-сайтhttps: //www.ncbi.nlm.nih. gov / projects / CCDS / CcdsBrowse.cgi
Разное
ВерсияCCDS Release 21

Проект Consensus Coding Sequence (CCDS) - это совместная работа по поддержанию набор данных белок-кодирующих областей, которые одинаково аннотированы на эталонных геномных сборках человека и мыши. Проект CCDS отслеживает идентичные аннотации белков в эталонных геномах мыши и человека с помощью стабильного идентификатора (CCDS ID) и гарантирует, что они последовательно представлены Национальным центром биотехнологической информации (NCBI), Ensembl и UCSC Genome Browser. Целостность набора данных CCDS поддерживается посредством строгого тестирования обеспечения качества и постоянного ручного контроля.

Содержание

  • 1 Мотивация и предыстория
  • 2 Группы участников
  • 3 Определение набор генов CCDS
  • 4 Тестирование обеспечения качества
  • 5 Процесс проверки
  • 6 Ручное курирование
  • 7 Проблемы курирования и рекомендации по аннотации
  • 8 Доступ к данным CCDS
  • 9 Текущие приложения
  • 10 История выпуска CCDS
  • 11 Перспективы на будущее
  • 12 См. Также
  • 13 Источники
  • 14 Внешние ссылки

Мотивация и предыстория

Биологические и биомедицинские исследования стали основываться на точных и последовательных аннотации генов и их продуктов на сборках генома. Справочные аннотации геномов доступны из различных источников, каждый со своими независимыми целями и политиками, что приводит к некоторым вариациям аннотаций.

Проект CCDS был создан для определения золотого стандарта набора аннотаций генов, кодирующих белок, которые идентично аннотированы в сборках эталонного генома человека и мыши участвующими группами аннотаций. Наборы генов CCDS, которые были достигнуты на основе консенсуса различных партнеров, теперь состоят из более чем 18 000 генов человека и более 20 000 генов мыши (см. История выпуска CCDS). Набор данных CCDS все чаще представляет все больше альтернативных событий соединения с каждым новым выпуском.

Участвующие группы

Участвующие группы аннотаций включают:

  • Национальный центр биотехнологической информации (NCBI)
  • Европейский институт биоинформатики (EBI)
  • Wellcome Trust Sanger Institute (WTSI)
  • Комитет по номенклатуре генов HUGO (HGNC)
  • Информатика генома мышей (MGI)

Ручная аннотация обеспечивается:

  • эталонной последовательностью (RefSeq ) в NCBI
  • Анализ и аннотации человека и позвоночных (HAVANA) в WTSI

Определение набора генов CCDS

«Консенсус» определяется как области, кодирующие белок, которые совпадают по начальному кодону, стоп-кодону и соединениям сплайсинга, и для которых прогноз соответствует критериям обеспечения качества. Комбинация ручных и автоматических аннотаций генома, предоставляемых (NCBI) и Ensembl (которые включают ручные аннотации HAVANA), сравнивается для определения аннотаций с совпадающими геномными координатами.

Тестирование обеспечения качества

Чтобы гарантировать высокое качество CDS, проводятся множественные тесты обеспечения качества (QA) (Таблица 1). Все тесты выполняются после этапа сравнения аннотаций каждой сборки CCDS и не зависят от тестов QA отдельных групп аннотаций, выполняемых перед сравнением аннотаций.

Таблица 1: Примеры типов тестов QA CCDS, выполненных до принятия кандидатов CCDS
Тест QAЦель теста
В соответствии с NMDПроверяет транскрипты, которые могут подвергаться нонсенс-опосредованному распаду (NMD)
Низкое качествоПроверяет низкую склонность к кодированию
Неконсенсусные сайты сплайсингаПроверяет неканонические сайты сплайсинга
Прогнозируемый псевдогенПроверяет гены, которые, по прогнозам, являются псевдогенами UCSC
Слишком короткийПроверяет транскрипты или белки, которые необычно короткие, обычно <100 amino acids
Ортолог не найден / не законсервированПроверяет гены, которые не законсервированы и / или не являются в кластере HomoloGene
Запуск или остановка CDS не совмещеныПроверяет наличие стартового или стоп-кодона в эталонной последовательности генома
Внутренний стопПроверяет наличие внутреннего стоп-кодона в геномной последовательности
NCBI: длина белка Ensembl отличаетсяПроверяет, является ли белок, кодируемый NCBI RefSeq такая же длина, как у белка EBI / WTSI
NCBI: Ensembl с низким процентом идентичностиПроверяет>99% общей идентичности между белками NCBI и EBI / WTSI
Ген прекращенПроверки если GeneID больше не действителен

Аннотации, не прошедшие тесты QA, проходят цикл ручной проверки, которая может улучшить результаты или принять решение об отклонении совпадений аннотаций на основании сбоя QA.

Процесс проверки

База данных CCDS уникальна тем, что процесс проверки должен выполняться несколькими соавторами, и до внесения каких-либо изменений необходимо достичь согласия. Это стало возможным благодаря системе координации сотрудников, которая включает в себя рабочий процесс и форумы для анализа и обсуждения. База данных CCDS управляет внутренним веб-сайтом, который служит нескольким целям, включая общение с кураторами, голосование соавторов, предоставление специальных отчетов и отслеживание статуса представительств CCDS. Когда сотрудничающий член группы CCDS идентифицирует идентификатор CCDS, который может нуждаться в проверке, для принятия решения об окончательном результате используется процесс голосования.

Ручное курирование

Скоординированное ручное курирование поддерживается веб-сайтом с ограниченным доступом и списком рассылки для обсуждения. Рекомендации CCDS были разработаны для разрешения конкретных конфликтов, которые наблюдались чаще. Установление руководящих принципов курирования CCDS помогло сделать процесс курирования CCDS более эффективным за счет уменьшения количества конфликтующих голосов и времени, затрачиваемого на обсуждение для достижения консенсусного соглашения. Ссылку на рекомендации CCDS можно найти здесь..

Политики курирования, установленные для набора данных CCDS, были интегрированы в рекомендации по аннотациям RefSeq и HAVANA и, таким образом, новые аннотации, предоставленные обоими группы с большей вероятностью будут согласованы и приведут к добавлению идентификатора CCDS. Эти стандарты касаются конкретных проблемных областей, не являются исчерпывающим набором рекомендаций по аннотациям и не ограничивают политики аннотаций какой-либо совместной группы. Примеры включают стандартизованные руководящие принципы курирования для выбора кодона инициации и интерпретации исходных ORF и транскриптов, которые, как предполагается, являются кандидатами на нонсенс-опосредованный распад. Курирование происходит постоянно, и любой из сотрудничающих центров может пометить идентификатор CCDS как потенциальное обновление или отзыв.

Противоречивые мнения разрешаются путем консультаций с научными экспертами или другими группами специалистов по аннотации, такими как Комитет по номенклатуре генов HUGO (HGNC) и Mouse Genome Informatics (MGI). Если конфликт не может быть разрешен, соавторы соглашаются отозвать идентификатор CCDS, пока не станет доступна дополнительная информация.

Проблемы курирования и рекомендации по аннотации

Нонсенс-опосредованный распад (NMD): NMD - самый эффективный процесс наблюдения мРНК. NMD устраняет дефектную мРНК перед тем, как ее можно будет транслировать в белок. Это важно, потому что если дефектная мРНК транслируется, усеченный белок может вызвать заболевание. Были предложены различные механизмы для объяснения NMD ; один из них - модель комплекса экзонных соединений (EJC). В этой модели, если стоп-кодон находится>50 нуклеотидов выше последнего соединения экзон-экзон, предполагается, что транскрипт является кандидатом NMD. Сотрудники CCDS используют консервативный метод, основанный на модели EJC, для скрининга транскриптов мРНК. Любые транскрипты, определенные как кандидаты в NMD, исключаются из набора данных CCDS, за исключением следующих ситуаций:

  1. все транскрипты в одном конкретном локусе оцениваются как кандидаты в NMD, однако локус ранее известно, что это кодирующая область белка;
  2. есть экспериментальные данные, свидетельствующие о том, что функциональный белок продуцируется из транскрипта-кандидата NMD.

Ранее, NMD Транскрипты-кандидаты считались транскриптами, кодирующими белок, как RefSeq, так и HAVANA, и, таким образом, эти транскрипты-кандидаты NMD были представлены в наборе данных CCDS. Группа RefSeq и проект HAVANA впоследствии пересмотрели свои политики аннотаций.

Множественные сайты начала трансляции внутри фрейма: Множественные факторы способствуют инициации трансляции, такие как восходящие открытые рамки считывания (uORF), вторичная структура и контекст последовательности вокруг сайта инициации трансляции. Общий стартовый сайт определен в рамках консенсусной последовательности Козака: (GCC) GCCACCAUGG у позвоночных. Последовательность в скобках (GCC) - это мотив с неизвестным биологическим воздействием. Существуют вариации в пределах консенсусной последовательности Козака, например, G или A наблюдается на три нуклеотида выше (в положении -3) от AUG. Основания между положениями -3 и +4 последовательности Козака оказывают наиболее значительное влияние на эффективность трансляции. Следовательно, последовательность (A / G) NNAUGG определяется как сильный сигнал Козака в проекте CCDS.

Согласно механизму сканирования, малая субъединица рибосомы может инициировать трансляцию с первого достигнутого стартового кодона. Есть исключения из модели сканирования:

  1. , когда место инициации не окружено сильным сигналом Козака, что приводит к сканированию с утечками. Таким образом, рибосома пропускает этот AUG и инициирует трансляцию с нижележащего стартового сайта;
  2. когда более короткая ORF может позволить рибосоме повторно - инициировать трансляцию в нисходящем ORF.

. Согласно руководящим принципам CCDS по аннотации, самая длинная ORF должна быть аннотирована, за исключением случаев, когда есть экспериментальные доказательства того, что внутренний стартовый сайт используется для инициации трансляции. Кроме того, для идентификации стартовых кодонов можно использовать другие типы новых данных, такие как данные профилирования рибосом. Набор данных CCDS записывает один сайт инициации перевода для каждого идентификатора CCDS. Любые альтернативные стартовые сайты могут быть использованы для перевода и будут указаны в публичной заметке CCDS.

Открытые рамки считывания в восходящем направлении: Кодоны инициации AUG, расположенные в лидерах транскрипции, известны как AUG в восходящем направлении (uAUG). Иногда uAUG связаны с u ORF. u ORF обнаруживаются примерно в 50% транскриптов человека и мыши. Существование u ORF - еще одна проблема для набора данных CCDS. Механизм сканирования для инициации трансляции предполагает, что малые рибосомные субъединицы (40S) связываются на 5 ’конце зарождающегося транскрипта мРНК и сканируют первый стартовый кодон AUG. Возможно, сначала распознается uAUG, а затем переводится соответствующий uORF. Переведенная u ORF может быть кандидатом на NMD, хотя исследования показали, что некоторые u ORF могут избежать NMD. Предел среднего размера для u ORF, которые будут ускользать от NMD, составляет приблизительно 35 аминокислот. Также было высказано предположение, что u ORF ингибируют трансляцию нижележащего гена, улавливая рибосомный комплекс инициации и заставляя рибосому диссоциировать от мРНК. транскрипт до того, как он достигнет областей, кодирующих белок. В настоящее время нет исследований о глобальном влиянии u ORF на регуляцию трансляции.

Текущие правила аннотации CCDS допускают включение мРНК транскриптов, содержащих u ORF, если они соответствуют следующим двум биологическим требованиям:

  1. мРНК транскрипт имеет сильный сигнал Козака;
  2. транскрипт мРНК состоит из ≥ 35 аминокислот или перекрывается с первичной открытой рамкой считывания.

Сквозные транскрипты: Сквозные транскрипты также известны как соединенные гены или совместно транскрибируемые гены. Сквозные транскрипты определяются как транскрипты, объединяющие по крайней мере часть одного экзона каждого из двух или более отдельных известных (партнерских) генов, которые лежат на одной хромосоме в одной ориентации. Биологическая функция сквозных транскриптов и соответствующих им белковых молекул остается неизвестной. Однако определение гена сквозного чтения в наборе данных CCDS состоит в том, что отдельные гены-партнеры должны быть разными, а транскрипты сквозного чтения должны иметь ≥ 1 экзон (или ≥ 2 сайтов сплайсинга, за исключением случая общего терминала). exon) с каждым из отдельных более коротких локусов. Транскрипты не считаются сквозными транскриптами в следующих случаях:

  1. когда транскрипты производятся из перекрывающихся генов, но не имеют одинаковых сайтов сплайсинга;
  2. когда транскрипты транслируются из гены, имеющие вложенные друг относительно друга структуры. В этом случае сотрудники CCDS и HGNC согласились, что сквозной транскрипт должен быть представлен как отдельный локус.

Качество эталонной последовательности генома: По мере создания набора данных CCDS Для представления геномных аннотаций человека и мыши проблемы качества с последовательностями эталонного генома человека и мыши становятся еще одной проблемой. Проблемы качества возникают при неправильной сборке эталонного генома. Таким образом, неправильно собранный геном может содержать преждевременные стоп-кодоны, отступы со сдвигом рамки или вероятные полиморфные псевдогены. После выявления этих проблем с качеством сотрудники CCDS сообщают о проблемах Консорциуму ссылок на геном, который исследует и вносит необходимые исправления.

Доступ к данным CCDS

Проект CCDS доступен на странице набора данных NCBI CCDS (здесь), которая предоставляет ссылки для загрузки FTP и интерфейс запроса для получения информации о последовательностях и местоположениях CCDS. Отчеты CCDS можно получить с помощью интерфейса запросов, который расположен в верхней части страницы набора данных CCDS. Пользователи могут выбрать различные типы идентификаторов, такие как идентификатор CCDS, идентификатор гена, символ гена, идентификатор нуклеотида и идентификатор белка, для поиска конкретной информации CCDS. Отчеты CCDS (рис. 1) представлены в виде таблицы со ссылками на определенные ресурсы, например, исторический отчет, Entrez Gene или повторный запрос набора данных CCDS. В таблице идентификаторов последовательностей представлена ​​транскрипционная информация в VEGA, Ensembl и Blink. Таблица расположения хромосом включает геномные координаты для каждого отдельного экзона конкретной кодирующей последовательности. В этой таблице также есть ссылки на несколько различных браузеров генома, которые позволяют визуализировать структуру кодирующей области. Точная нуклеотидная последовательность и последовательность белка конкретной кодирующей последовательности также отображаются в разделе данных последовательности CCDS.

Рисунок 1. Снимок экрана набора данных CCDS, показывающий отчет для белка Itm2a (CCDS 30349).

Текущие приложения

Набор данных CCDS является неотъемлемой частью гена GENCODE аннотации, и он используется в качестве стандарта для высококачественного кодирования определения экзона в различных областях исследований, включая клинические исследования, крупномасштабные эпигеномные исследования, проекты экзома и дизайн массива экзонов. Из-за согласованной аннотации экзонов CCDS независимыми группами аннотаций, проекты экзома, в частности, рассматривают кодирующие экзоны CCDS как надежные цели для последующих исследований (например, для обнаружения однонуклеотидного варианта ), и эти экзоны использовались в качестве мишеней кодирующей области в коммерчески доступных наборах exome.

История выпуска CCDS

Размер набора данных CCDS продолжал расти как за счет обновлений компьютерных аннотаций генома, которые объединяют новые наборы данных, представленных в Международное сотрудничество баз данных нуклеотидных последовательностей (INSDC ), так и за счет текущих мероприятий по курированию, которые дополняют или улучшают эту аннотацию. В таблице 2 приведены основные статистические данные для каждой сборки CCDS, где общедоступные идентификаторы CCDS - это все те, которые не проверялись или ожидали обновления или отзыва на момент текущей даты выпуска.

Таблица 2. Сводная статистика для прошлых выпусков CCDS.
ВыпускВидыНазвание сборкиКоличество общедоступных идентификаторов CCDSКоличество идентификаторов геновТекущая дата выпуска
1Homo sapiensNCBI3513,7401295014 марта 2007 г.
2Mus musculusMGSCv3613,21813,01228 ноября 2007 г.
3Homo sapiensNCBI3617,49415,8051 мая 2008 г.
4Mus musculusMGSCv3717, 0821688824 января 2011 г.
5Homo sapiensNCBI3619,39317,0532 сентября 2009 г.
6Homo sapiensGRCh3722,91218,17420 апреля 2011 г.
7Mus musculusMGSCv3721,87419,50714 августа, 2012
8Homo sapiensGRCh37.p225,35418,4076 сентября 2011 г.
9Homo sapiensGRCh37.p526,25418,47425 октября 2012 г.
10Mus musculusGRCm3822,93419 9455 августа 2013 г.
11Homo sapiensGRCh37.p927,37718,53529 апреля 2013 г.
12Homo sapiensGRCh37.p1027,65518,60724 октября 2013 г.
13Mus musculusGRCm38.p123,01019,9907 апреля 2014 г.
14Homo sapiensGRCh37.p1328,64918,67329 ноября 2013 г.
15Homo sapiensGRCh37.p1328,89718,6817 августа 2014 г.
16Mus musculusGRCm38.p223,83520,07910 сентября 2014 г.
17Homo sapiensGRCh3830,46118,80010 сентября 2014 г.
18Homo sapiensGRCh38.p231,37118,82612 мая 2015 г.
19Mus musculusGRCm38.p324,83420,21530 июля 2015 г.
20Homo sapiensGRCh38.p732,52418,8928 сентября 2016 г.
21Mus musculusGRCm38.p425,75720,3548 декабря 2016 г.

Полную статистику выпуска можно найти в офисе ial CCDS на странице Выпуски и статистика.

Перспективы на будущее

Долгосрочные цели включают добавление атрибутов, указывающих, где аннотация транскрипции также идентична (включая UTR ), и для указания вариантов склейки с разными UTR с одинаковым идентификатором CCDS. Также ожидается, что по мере того, как станут доступны более полные и высококачественные данные о последовательностях генома для других организмов, аннотации этих организмов могут быть включены в CCDS.

Набор CCDS станет более полным по мере того, как независимые курирующие группы согласятся в случаях, в которых они изначально различаются, по мере того, как происходит дополнительная экспериментальная проверка слабо поддерживаемых генов и по мере того, как методы автоматического аннотации продолжают совершенствоваться. Связь между сотрудничающими группами CCDS продолжается и позволит устранить различия и определить уточнения между циклами обновления CCDS. Ожидается, что обновления у людей будут происходить примерно каждые 6 месяцев, а у мышей - ежегодно.

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-15 10:03:17
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте