GENCODE

редактировать
GENCODE
Содержание
ОписаниеЭнциклопедия генов и вариантов генов
Типы данных. охваченыВсе особенности генов в геноме человека и мыши
Связаться с
Исследовательским центром Wellcome Trust Sanger Institute
Авторы Харроу Дж. и др.
Основная ссылкаPMID 22955987
Дата выпускасентябрь 2012 г. (сентябрь 2012 г.)
Доступ
Веб-сайтГенкод веб-сайта
Инструменты
Веб Браузер генома UCSC: http://genome.cse.ucsc.edu/encode/
Разное
Лицензия Открытый доступ
Выпуск данных. частотаЧеловек - Ежеквартально. Мышь - Полугодовой
ВерсияЧеловек - Выпуск 32 (сентябрь 2019 г.). Мышь - Выпуск M23 (сентябрь 2019 г.)

GENCODE - научный проект в исследовании генома и в рамках масштабного проекта ENCODE (ENCyclopedia Of DNA Elements).

Консорциум GENCODE изначально был сформирован как часть пилотной фазы проекта ENCODE для идентификации и картирования всех генов, кодирующих белок в областях ENCODE (примерно 1% генома человека). Учитывая первоначальный успех проекта, GENCODE теперь стремится создать «Энциклопедию генов и вариантов генов», идентифицируя все особенности генов в геноме человека и мыши, используя комбинацию вычислительного анализа, ручного аннотирования и экспериментальной проверки, а также аннотируя все основанные на фактических данных особенности гена во всем геноме человека с высокой точностью.

Результатом будет набор аннотаций, включающий все кодирующие белок локусы с альтернативно транскрибируемыми вариантами, некодирующие локусы с подтверждением транскрипции и псевдогены.

Содержание
  • 1 Текущий прогресс
  • 2 История
  • 3 Ключевые участники
  • 4 Ключевые статистические данные
  • 5 Методология
    • 5.1 Автоматическая аннотация (Ensembl)
    • 5.2 Ручная аннотация (группа HAVANA)
    • 5.3 Процесс слияния генов Ensembl / HAVANA
    • 5.4 Оценка качества
    • 5.5 Общие методы, используемые для GENCODE 7
  • 6 Использование / доступ
    • 6.1 Определение уровня
    • 6.2 Определение статуса гена / транскрипта
    • 6.3 Обзор генома Biodalliance r
  • 7 Проблемы
    • 7.1 Определение «гена»
    • 7.2 Псевдогены
  • 8 Связанные проекты
    • 8.1 ENCODE
    • 8.2 Проект «Геном человека»
  • 9 Подпроекты
    • 9.1 Ensembl
    • 9.2 Дизайн микрочипов экспрессии lncRNA
    • 9.3 RGASP
  • 10 См. Также
  • 11 Ссылки
  • 12 Внешние ссылки
Текущий прогресс

GENCODE в настоящее время продвигается к своим целям в фазе 2 проекта, а именно:

  • Для продолжения улучшения охвата и точности набора генов человека GENCODE путем улучшения и расширения аннотации всех основанных на фактических данных генных характеристик в геноме человека с высокой точностью, включая кодирование белков локусы с альтернативными вариантами сплайсинга, некодирующими локусами и псевдогенами.
  • Для создания мышиного набора генов GENCODE, который включает белковые кодирующие области со связанными альтернативными вариантами сплайсинга, некодирующие локусы, которые имеют доказательства транскрипции, и псевдогены.

Самым последним выпуском аннотаций набора генов человека является Gencode 32 с датой замораживания сентября. ber 2019. В этом выпуске используется последняя сборка эталонного генома человека GRCh38.

Последним выпуском для аннотаций генома мыши является Gencode M23, также с датой замораживания в сентябре 2019 года.

С сентября 2009 года GENCODE является набором генов человека, используемым проектом Ensembl, и каждый новый выпуск GENCODE соответствует выпуску Ensembl.

История
Хронология проекта GENCODE

2003 Сентябрь . Национальный институт исследования генома человека (NHGRI) создал общественный исследовательский консорциум под названием ENCODE, "Энциклопедия элементов ДНК" в сентябре 2003 г., чтобы осуществить проект по идентификации всех функциональных элементов в последовательности генома человека. Проект был разработан в три этапа - пилотный этап, этап разработки технологии и этап производства. Пилотная стадия проекта ENCODE была направлена ​​на глубокое компьютерное и экспериментальное исследование 44 областей общей последовательностью 30 Мб, что составляет примерно 1% генома человека. В рамках этого этапа был сформирован консорциум GENCODE для идентификации и картирования всех генов, кодирующих белок, в регионах ENCODE. Предполагалось, что результаты первых двух этапов будут использованы для определения наилучшего пути дальнейшего анализа оставшихся 99% генома человека на экономически эффективном и всеобъемлющем этапе производства.

2005 апрель . Первый выпуск аннотации 44 регионов ENCODE был заморожен 29 апреля 2005 г. и использовался на первом семинаре ENCODE Genome Annotation Assessment Project (E-GASP). GENCODE Release 1 содержал 416 известных локусов, 26 новых (кодирующих последовательность ДНК) локусов CDS, 82 новых локуса транскриптов, 78 предполагаемых локусов, 104 процессированных псевдогена и 66 необработанных псевдогенов.

Октябрь 2005 г. . Вторая версия (выпуск 02) была заморожена 14 октября 2005 г. и содержала обновления, полученные в результате экспериментальных проверок с использованием RACE и RT-PCR техники. GENCODE Release 2 содержал 411 известных локусов, 30 новых локусов CDS, 81 новый локус транскриптов, 83 предполагаемых локуса, 104 процессированных псевдогена и 66 необработанных псевдогенов.

2007 июнь . Выводы пилотного проекта были опубликованы в июне 2007 года. Результаты подчеркнули успех пилотного проекта по созданию возможной платформы и новых технологий для характеристики функциональных элементов в геноме человека, которые открывает путь к исследованию генома.

2007 октябрь . После успешной пилотной фазы на 1% генома Wellcome Trust Sanger Institute получил грант от Национального института исследования генома человека США (NHGRI) на осуществить расширение проекта GENCODE для интегрированной аннотации генных характеристик. Это новое финансирование было частью усилий NHGRI по расширению проекта ENCODE до стадии производства для всего генома вместе с дополнительными экспериментальными исследованиями.

2012 Сентябрь . В сентябре 2012 года консорциум GENCODE опубликовал крупный документ, в котором обсуждались результаты основного выпуска - GENCODE Release 7, который был заморожен в декабре 2011 года. В выпуске GENCODE 7 использовалось сочетание руководств. аннотации генов от группы анализа и аннотаций человека и позвоночных (HAVANA) и полностью новый выпуск (Ensembl выпуск 62) автоматической аннотации генов от Ensembl. На момент выпуска GENCODE Release 7 содержал наиболее полную общедоступную аннотацию локусов длинной некодирующей РНК (днРНК) с преобладающей формой транскрипта, состоящей из двух экзонов.

2013-2017 . Участие в Группа GENCODE, успешно предоставившая полную аннотацию функциональных элементов в геноме человека, получила в 2013 году второй грант для продолжения работы по аннотации генома человека и расширения GENCODE для включения аннотации генома мыши. Предполагается, что данные аннотации мышей позволят проводить сравнительные исследования между геномами человека и мыши, чтобы улучшить качество аннотаций в обоих геномах.

Ключевые участники

Ключевые участники проекта GENCODE оставались относительно последовательными на всех его этапах, и теперь Wellcome Trust Sanger Institute возглавляет общие усилия по проекту.

Сводка основных участвующих организаций на каждой фазе приведена ниже:

GENCODE, фаза 2 (текущая)GENCODE, фаза расширенияGENCODE, пилотная фаза
Wellcome Trust Sanger Institute, Кембридж, ВеликобританияWellcome Trust Sanger Institute, Кембридж, ВеликобританияWellcome Trust Sanger Institute, Кембридж, Великобритания
  • Команда 16: Популяция и сравнительная геномика
  • Команда 71: Информатика (в основном группа аннотаций HAVANA)
Центр регулирования Геномики (CRG), Барселона, Каталония, ИспанияЦентр регулирования Геномики (CRG), Барселона, Каталония, ИспанияInstitut Municipal d'Investigació Mèdica (IMIM), Барселона, Каталония, Испания
Университет Лозанны, ШвейцарияУниверситет Лозанны, ШвейцарияУниверситет Женевы, Швейцария
Калифорнийский университет, Санта-Крус (UCSC), Калифорния, СШАКалифорнийский университет (UCSC), Санта-Крус, СШАВашингтонский университет (Вашингтонский университет), Сент-Луис, США
Массачус etts Institute of Technology (MIT), Бостон, СШАМассачусетский технологический институт (MIT), Бостон, СШАКалифорнийский университет, Беркли, США
Йельский университет (Йель), Нью-Хейвен, СШАЙельский университет (Йель), Нью-Хейвен, СШАЕвропейский институт биоинформатики, Хинкстон, Великобритания
Испанский национальный центр исследования рака (CNIO), Мадрид, ИспанияИспанский национальный центр исследований рака (CNIO), Мадрид, Испания
Вашингтонский университет (Вашингтонский университет), Сент-Луис, США
Ключевые статистические данные

С момента своего создания GENCODE выпустила 20 версий аннотации набора генов человека (за исключением незначительных обновлений).

Ключевая сводная статистика самой последней аннотации набора генов GENCODE Human (Release 20, апрель 2014 замораживание, Ensembl 76 ), которая является первой версией, в которой используется последняя версия Human. Сборка генома (GRCh38) показана ниже:

КатегорииВсегоКатегорииВсего
Общее количество генов58,688Общее количество транскриптов194,334
Гены, кодирующие белок19,942Транскрипты, кодирующие белок79,460
Длинные некодирующие гены РНК14,470- полноразмерное кодирование белка:54,447
Малые гены некодирующих РНК9,519- кодирование белка с частичной длиной:25,013
Псевдогены14,363Транскрипты опосредованного бессмысленным распадом13,229
- обработанные псевдогены:10,736Транскрипты длинных некодирующих РНК-локусов24,489
- необработанные псевдогены:3,202
- унитарные пс eudogenes:171
- полиморфные псевдогены:26
- псевдогены:2
сегменты гена иммуноглобулина / рецептора Т-клеток618Общее количество различных трансляций59,575
- сегменты, кодирующие белок:392Гены, которые имеют более одной отдельной трансляции13,579
- псевдогены:226

См. GENCODE Statistics README и страница биотипов GENCODE для получения более подробной информации о классификации указанного выше набора генов..

Благодаря достижениям в технологиях секвенирования (например, RT-PCR-seq), расширенному охвату ручных аннотаций (группа HAVANA) и усовершенствованиям алгоритмов автоматического аннотирования с помощью Ensembl точность и полнота аннотаций GENCODE постоянно повышались. дорабатывается через итерацию выпусков.

Ниже показано сравнение ключевых статистических данных трех основных выпусков GENCODE. Очевидно, что, хотя охват, с точки зрения общего числа обнаруженных генов, неуклонно увеличивается, количество генов, кодирующих белок, фактически уменьшилось. В основном это связано с новыми экспериментальными данными, полученными с использованием кластеров Cap Analysis Gene Expression (CAGE), аннотированных сайтов PolyA и попаданий пептида.

  • Версия 7 (Замораживание декабря 2010 г., ГРЧ37) - Ensembl 62
  • Версия 10 (замораживание июля 2011 г., GRCh37) - Ensembl 65
  • Версия 20 (замораживание апреля 2014 г., ГРЧ38) - Ensembl 76
Методология
Схема конвейера GENCODE. Схема показывает поток данных между ручными и автоматизированными аннотациями через специализированные конвейеры прогнозирования, чтобы предоставить подсказки для первого прохода аннотации и контроля качества (QC). Аннотированные генные модели подлежат экспериментальной проверке, а система отслеживания AnnoTrack содержит данные из всех этих источников и используется для выделения различий, координации контроля качества и отслеживания результатов. Ручные и автоматизированные процессы аннотации создают набор данных GENCODE, а также используются для контроля качества завершенных аннотаций.

Общий процесс создания аннотации для GENCODE включает ручное управление, различные вычислительные анализы и целевые экспериментальные подходы. Предполагаемые локусы могут быть проверены с помощью влажных лабораторных экспериментов, а расчетные прогнозы анализируются вручную. В настоящее время, чтобы гарантировать, что набор аннотаций охватывает весь геном, а не только области, которые были аннотированы вручную, объединенный набор данных создается с использованием ручных аннотаций из HAVANA вместе с автоматическими аннотациями из автоматически аннотированного набора генов Ensembl. Этот процесс также добавляет уникальные полноразмерные предсказания CDS из набора кодирования белков Ensembl в аннотированные вручную гены, чтобы обеспечить максимально полную и актуальную аннотацию генома.

Автоматическая аннотация (Ensembl)

Транскрипты Ensembl являются продуктами системы автоматической аннотации генов Ensembl (набор конвейеров аннотаций генов), называемой сборкой гена Ensembl. Все транскрипты Ensembl основаны на экспериментальных данных, и поэтому автоматизированный конвейер полагается на мРНК и белковые последовательности, депонированные в общедоступные базы данных научным сообществом. Более того, уровни 1 и 2 белка из UniProt, нетранслируемые области (UTR), гены длинной межгенной некодирующей РНК (lincRNA) (аннотированные с использованием комбинации последовательностей кДНК и регуляторных данных из проекта Ensembl), короткие некодирующие РНК (аннотированные с использованием Ансамблевые конвейеры нкРНК).

Ручная аннотация (группа HAVANA)

Основной подход к ручной аннотации генов заключается в аннотировании транскриптов, выровненных по геному, и использовании геномных последовательностей в качестве эталона, а не кДНК. Готовая геномная последовательность анализируется с использованием модифицированного конвейера Ensembl, а результаты BLAST для кДНК / EST и белков, наряду с различными ab initio предсказаниями, могут быть проанализированы вручную в инструменте браузера аннотаций Otterlace. Таким образом, можно предсказать больше альтернативных вариантов сплайсинга по сравнению с аннотацией кДНК. Более того, геномная аннотация дает более полный анализ псевдогенов. В консорциуме GENCODE есть несколько аналитических групп, которые запускают конвейеры, которые помогают ручным аннотаторам создавать модели в неаннотированных регионах и выявлять потенциально пропущенные или неправильные ручные аннотации, включая полностью отсутствующие локусы, отсутствующие альтернативные изоформы, неправильные места сплайсинга и неправильные биотипы. Они отправляются обратно в ручные аннотаторы с помощью системы отслеживания AnnoTrack. Некоторые из этих конвейеров используют данные из других подгрупп ENCODE, включая данные RNASeq, модификацию гистонов и данные CAGE и Ditag. Данные RNAseq - важный новый источник доказательств, но создание на их основе полных генных моделей - сложная проблема. В рамках GENCODE был проведен конкурс для оценки качества прогнозов, производимых различными конвейерами прогнозирования RNAseq (см. RGASP ниже). Для подтверждения неопределенных моделей в GENCODE также есть экспериментальный конвейер валидации с использованием секвенирования РНК и процесса слияния генов RACE

Ensembl / HAVANA

В процессе слияния сначала сравниваются все модели транскриптов HAVANA и Ensembl. путем кластеризации перекрывающихся кодирующих экзонов на одной и той же цепи, а затем путем попарного сравнения каждого экзона в кластере транскриптов. Модуль, используемый для объединения набора генов, - HavanaAdder. Перед запуском кода HavanaAdder требуются дополнительные шаги (например, система проверки работоспособности Ensembl и запросы к набору генов CCDS и выравнивания кДНК Ensembl). Если аннотация, описанная во внешних наборах данных, отсутствует в ручном наборе, то она сохраняется в системе AnnoTrack для проверки.

Оценка качества

Для GENCODE 7 моделям транскрипции присваивается высокий или низкий уровень поддержки, основанный на новом методе, разработанном для оценки качества стенограмм. Этот метод основан на выравнивании мРНК и EST, предоставленных UCSC и Ensembl. Выравнивания мРНК и EST сравнивают с транскриптами GENCODE, и транскрипты оценивают в баллах в соответствии с выравниванием по всей длине. Сводка уровней поддержки для каждой хромосомы в GENCODE Release 7 показана на рисунке справа. Аннотации делятся на аннотации, созданные с помощью автоматизированного процесса, ручного метода и объединенные аннотации, где оба процесса приводят к одной и той же аннотации.

Общие методы, используемые для GENCODE 7

Усиление, упорядочение, сопоставление и проверка соединение экзон-экзон

Двухцепочечная кДНК восьми тканей человека (головной мозг, сердце, почки, семенники, печень, селезенка, легкие и скелетные мышцы) была создана с помощью амплификации кДНК, а очищенная ДНК была непосредственно использована для получения библиотеку секвенирования с помощью «Набор для подготовки образцов геномной ДНК» (Illumina). Эта библиотека была впоследствии секвенирована на платформе Illumina Genome Analyzer 2. Затем считывания (35 или 75 нт) были сопоставлены с эталонным геномом человека (hg19) и предсказанными сплайсированными ампликонами с помощью программного обеспечения Bowtie. Только считывания с уникальным отображением без несоответствия считались подтверждением сайта сплайсинга (транскрипта). Сварные стыки были подтверждены, если минимум 10 считываний со следующими характеристиками охватили прогнозируемые стыковые стыки. Для считываний длиной 35 и 75 нуклеотидов требовалось по крайней мере 4 и 8 нуклеотидов на каждой стороне контрольных точек (т.е. на каждом целевом экзоне) соответственно.

Сравнение расшифровок RefSeq, UCSC, AceView и GENCODE

Транскрипты, принадлежащие четырем различным наборам данных (GENCODE, RefSeq, UCSC и AceView), сравнивались, чтобы оценить, в какой степени эти наборы данных перекрываются. Сравнивались выпуски GENCODE 7, RefSeq и UCSC Genes freeze, июль 2011 г., и выпуск AceView 2010. Перекрытия между различными комбинациями наборов данных были графически представлены в виде трехсторонних диаграмм Венна с использованием пакета Vennerable R и отредактированы вручную.

Анализ PhyloCSF

PhyloCSF использовался для идентификации потенциальных новых кодирующих генов в РНК. -seq модели транскриптов, основанные на эволюционных сигнатурах. Для каждой модели транскрипта, созданной на основе данных Illumina HBM с использованием Exonerate или Scripture, выравнивание млекопитающих было произведено путем извлечения выравнивания каждого экзона из выравнивания UCSC позвоночных (которое включает 33 плацентарных млекопитающих).

APPRIS (CNIO)

APPRIS - это система, которая развертывает ряд вычислительных методов для придания ценности аннотациям человеческого генома. APPRIS также выбирает одну из CDS для каждого гена в качестве основной изоформы. Более того, он определяет основной вариант, объединяя структурную и функциональную информацию о белках и информацию о сохранении родственных видов. Сервер APPRIS использовался в контексте расширения проекта ENCODE для аннотирования генома человека, но APPRIS используется для других видов (например, мыши, крысы и рыбок данио). Конвейер состоит из отдельных модулей, которые объединяют информацию о структуре и функциях белка, а также данные об эволюции. Каждый модуль реализован как отдельный веб-сервис.

Использование / доступ

Текущая версия набора генов GENCODE Human (GENCODE Release 20) включает файлы аннотаций (в форматах GTF и GFF3), файлы FASTA и файлы METADATA, связанные с аннотацией GENCODE на всех геномные регионы (референсные хромосомы / участки / скаффолды / гаплотипы). Данные аннотации относятся к эталонным хромосомам и хранятся в отдельных файлах, которые включают: аннотацию генов, особенности PolyA, аннотированные HAVANA, псевдогены (Retrotransposed), предсказанные конвейерами Yale и UCSC, но не HAVANA, длинные некодирующие РНК и тРНК. структуры, предсказанные тРНК-сканированием. Некоторые примеры строк в формате GTF показаны ниже:

Пример файла GTF, где показаны стандартные столбцы GTF, разделенные табуляцией (1–9)

Столбцы в форматах файлов GENCODE GTF описаны ниже.

Описание формата файла GENCODE GTF. Стандартные столбцы GTF, разделенные табуляцией

Номер столбцаСодержимоеЗначения / формат
1имя хромосомыchr {1,2,3,4,5, 6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22, X, Y, M}
2источник аннотации{ENSEMBL, HAVANA}
3feature-type{ген, транскрипт, экзон, CDS, UTR, start_codon, stop_codon, Selenocysteine}
4место начала геномацелочисленное значение (На основе 1)
5конечное местоположение геномацелочисленное значение
6оценка (не используется).
7геномная цепь{+, -}
8фаза генома ( для функций CDS){0,1,2,.}
9дополнительная информация в виде пар ключ-значениеСм. пояснения в таблице ниже.

Описание пар ключ-значение в 9-м столбце файла GENCODE GTF (формат: ключ "значение")

Имя ключаФормат значения
gene_idENSGXXXXXXXXXXX
идентификатор_транскриптаENSTXXXXXXXXXXX
тип_генасписок биотипов
состояние_гена{ИЗВЕСТНО, НОВОЕ, ПУТАТИВНОЕ}
имя_генастрока
transcript_typeсписок биотипов
transcript_status{KNOWN, NOVEL, PUTATIVE}
transcript_namestring
exon_numberуказывает биологическое положение экзона в транскрипте
exon_idENSEXXXXXXXXXXX
уровень
  1. (проверенные локусы),
  2. (вручную аннотированные локусы),
  3. (автоматически аннотированные локусы)

Определение уровня

Каждый ген в наборе данных GENCODE классифицируется на три уровня в соответствии с их типом аннотации:

Уровень 1 (проверенные локусы): Включает транскрипты которые были вручную аннотированы и экспериментально подтверждены с помощью RT-PCR-seq, и псевдогенами, которые были проверены с помощью трех различных методологий.

Уровень 2 (локусы с ручными аннотациями): Выделяет стенограммы, которые были вручную аннотированы только HAVANA, а также включает стенограммы, которые были объединены с моделями, созданными автоматическим конвейером Ensembl.

Уровень 3 (локусы с автоматической аннотацией): Обозначает транскрипты и предсказания псевдогенов, полученные в результате автоматизированного конвейера аннотаций Ensembl.

Определение статуса гена / транскрипта

Генам и транскриптам присваивается статус "известные", "новые" или "предполагаемые" в зависимости от их присутствия в других основных базах данных и доказательств, используемых для построения их составных стенограмм.

Известно: Представлен в базе данных Комитета по номенклатуре генов HUGO (HGNC) и RefSeq.

Роман: В настоящее время не представлен в базах данных HGNC или RefSeq, но хорошо подтверждается либо свидетельством транскрипта, специфичным для локуса, либо свидетельством из паралогичного или ортологичного локуса.

Предполагаемый: В настоящее время не представлен в базах данных HGNC или RefSeq, но подтвержден более короткими и более разреженными свидетельствами транскрипции.

Браузер генома Biodalliance

Кроме того, на веб-сайте GENCODE есть браузер генома для человека и мыши, с помощью которого вы можете добраться до любой области генома, указав номер хромосомы и начальную конечную позицию (например, 22: 30,700,000..30,900,000), а также по идентификатору транскрипта ENS (с / без версии), идентификатору гена ENS (с / без версии) и имени гена. Браузер работает на Biodalliance.

Проблемы

Определение «гена»

Определение «гена» никогда не было тривиальной проблемой, с многочисленными определениями и понятиями, предложенными на протяжении многих лет с момента открытия человеческий геном. Сначала гены были задуманы в 1900-х годах как дискретные единицы наследственности, затем это считалось планом для синтеза белка, а в более позднее время его определяли как генетический код, который транскрибируется в РНК. Хотя определение гена сильно изменилось за последнее столетие, оно остается сложной и противоречивой темой для многих исследователей. С появлением проекта ENCODE / GENCODE были обнаружены еще более проблемные аспекты определения, включая альтернативный сплайсинг (при котором серии экзонов разделены интронами), межгенные транскрипции и сложные паттерны рассредоточенной регуляции, а также не -генная консервация и обилие некодирующих генов РНК. Поскольку GENCODE стремится создать энциклопедию генов и вариантов генов, эти проблемы представляли растущую проблему для проекта GENCODE по разработке обновленного понятия гена.

Псевдогены

Псевдогены имеют ДНК последовательности, которые подобны функциональным генам, кодирующим белок, однако их транскрипты обычно идентифицируются со сдвигом рамки считывания или делецией и обычно аннотируются как побочный продукт аннотации генов, кодирующих белок в большинстве генетических баз данных. Однако недавний анализ ретротранспонированных псевдогенов обнаружил, что некоторые ретранспонированные псевдогены экспрессируются и функционируют и оказывают значительное биологическое / регуляторное воздействие на биологию человека. Чтобы справиться с неизвестными и сложностями псевдогенов, GENCODE создала онтологию псевдогенов, используя комбинацию автоматизированных, ручных и экспериментальных методов, чтобы связать различные биологические свойства, такие как особенности последовательности, эволюция и потенциальные биологические функции с псевдогенами.

Связанные проекты

ENCODE

Энциклопедия элементов ДНК (ENCODE) - это общественный исследовательский консорциум, созданный Национальным исследовательским институтом генома человека (NHGRI) в сентябре 2003 г. (пилотный этап). Целью ENCODE является создание исчерпывающего списка частей функциональных элементов в геноме человека, включая элементы, которые действуют на уровне белка и РНК, а также регуляторные элементы, которые контролируют клетки и условия, в которых ген активен. Анализ данных во время пилотной фазы (2003–2007 гг.) Координировался группой Ensembl, совместным проектом EBI и Wellcome Trust Sanger Institute. На начальных этапах пилотного проекта и разработки технологий 44 региона - примерно 1% генома человека - были нацелены на анализ с использованием различных экспериментальных и вычислительных методов. Все данные, полученные исследователями ENCODE, и результаты аналитических проектов ENCODE с 2003 по 2012 год хранятся в браузере и базе данных UCSC Genome. Результаты ENCODE за 2013 год и позже доступны для бесплатного скачивания и анализа на портале проекта ENCODE. Чтобы аннотировать все основанные на фактах особенности генов (гены, транскрипты, кодирующие последовательности и т. Д.) Во всем геноме человека с высокой точностью, консорциум ENCODE создает подпроект GENCODE.

Проект генома человека

Проект генома человека представлял собой международную исследовательскую работу по определению последовательности генома человека и идентификации содержащихся в нем генов. Проект координировали Национальные институты здравоохранения и Министерство энергетики США. Среди дополнительных участников были университеты в Соединенных Штатах и ​​международные партнеры в Великобритании, Франции, Германии, Японии и Китае. Проект «Геном человека» официально начался в 1990 году и был завершен в 2003 году, на 2 года раньше запланированного срока. После обнародования полной последовательности генома человека в апреле 2003 года научное сообщество активизировало свои усилия по поиску данных, чтобы понять, как организм работает в состоянии здоровья и болезни. Основным требованием для такого понимания биологии человека является способность идентифицировать и характеризовать функциональные элементы, основанные на последовательностях, посредством экспериментов и компьютерного анализа. В сентябре 2003 года NHGRI представила проект ENCODE для облегчения идентификации и анализа полного набора функциональных элементов в последовательности человеческого генома.

Подпроекты

Ensembl

Ensembl является частью проекта GENCODE, и он сыграл важную роль в обеспечении автоматической аннотации к сборке эталонного генома человека и объединении этой аннотации с ручной аннотацией от команды HAVANA. Набор генов, предоставленный Ensembl для человека, представляет собой набор генов GENCODE

Дизайн микроматрицы экспрессии днРНК

Ключевой областью исследований проекта GENCODE было изучение биологической значимости длинных некодирующих РНК ( днРНК). Чтобы лучше понять экспрессию lncRNA у людей, GENCODE создал подпроект для разработки пользовательских платформ микрочипов, способных количественно определять транскрипты в аннотации lncRNA GENCODE. Ряд дизайнов был создан с использованием системы Agilent Technologies eArray, и эти дизайны доступны в стандартном пользовательском формате Agilent.

RGASP

Геном RNA-seq Проект Annotation Assessment Project (RGASP) предназначен для оценки эффективности различных вычислительных методов для высококачественного анализа данных о последовательности РНК. Основные цели RGASP - обеспечить беспристрастную оценку программного обеспечения для выравнивания РНК-seq, характеристики транскрипта (обнаружение, реконструкция и количественная оценка), а также определить возможность автоматизированного аннотации генома на основе секвенирования транскриптома.

RGASP - это были организованы в рамках консорциума, смоделированного по образцу семинара по прогнозированию генов EGASP (ENCODE Genome Annotation Assessment Project), и были проведены два раунда семинаров для рассмотрения различных аспектов анализа РНК-секвенирования, а также изменения технологий и форматов секвенирования. Одним из основных открытий первого и второго раундов проекта было то, что согласование считываемых данных влияет на качество прогнозов генов. Таким образом, в настоящее время проводится третий раунд семинара RGASP (в 2014 г.), в котором основное внимание уделяется картированию считывания в геном.

См. Также
Ссылки
  1. ^ Харроу Дж., Фрэнкиш А., Гонсалес Дж. М., Тапанари Э., Диханс М., Кокочински Ф. и др. (2012). «GENCODE: справочная аннотация человеческого генома для проекта ENCODE» (PDF). Genome Res. 22 (9): 1760–74. doi : 10.1101 / gr.135350.111. PMC 3431492. PMID 22955987.
  2. ^ Харроу Дж., Деноуд Ф., Фрэнкиш А., Реймонд А., Чен С.К., Краст Дж. И др. (2006). «GENCODE: создание справочной аннотации для ENCODE». Genome Biol. 7 Дополнение 1: S4.1–9. doi : 10.1186 / gb-2006-7-s1-s4. PMC 1810553. PMID 16925838.
  3. ^Франкиш, А; Mudge, JM; Thomas, M; Харроу, Дж (2012). «Важность выявления альтернативного сплайсинга в аннотации генома позвоночных». База данных. 2012 : bas014. doi : 10.1093 / database / bas014. PMC 3308168. PMID 22434846.
  4. ^Дерриен, Т. Джонсон, Р. Bussotti, G; Танзер, А; Джебали, S; Тилгнер, H; Гернек, G; Мартин, Д.; Меркель, А; Ноулз, Д.Г.; Лагард, Дж; Veeravalli, L; Руан, X; Руан, Y; Лассманн, Т; Carninci, P; Браун, JB; Липович, Л; Гонсалес, JM; Thomas, M; Дэвис, Калифорния; Шихаттар, Р. Gingeras, TR; Хаббард, Т.Дж.; Notredame, C; Харроу, Дж; Гуиго, Р. (сентябрь 2012 г.). "The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression". Genome Research. 22(9): 1775–89. doi :10.1101/gr.132159.111. PMC 3431493. PMID 22955988.
  5. ^Pei, B; Sisu, C; Frankish, A; Howald, C; Habegger, L; Mu, XJ; Harte, R; Balasubramanian, S; Tanzer, A; Diekhans, M; Reymond, A; Hubbard, TJ; Harrow, J; Gerstein, MB (Sep 5, 2012). "The GENCODE pseudogene resource". Геномная биология. 13(9): R51. doi :10.1186/gb-2012-13-9-r51. PMC 3491395. PMID 22951037.
  6. ^ "GENCODE – Goals". GENCODE. Wellcome Trust Sanger Institute. c. 2013. Retrieved 5 September 2014.
  7. ^ "GENCODE – Data". GENCODE. Wellcome Trust Sanger Institute. September 2019. Retrieved 14 October 2019.
  8. ^ The ENCODE Project Consortium (22 October 2004). "The ENCODE (ENCyclopedia of DNA Elements) Project" (PDF). Science. 306(5696): 636–640. doi :10.1126/science.1105136. PMID 15499007. S2CID 22837649.
  9. ^The ENCODE Project Consortium (14 June 2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project". Nature. 447(7146): 799–816. doi :10.1038/nature05874. PMC 2212820. PMID 17571346.
  10. ^ "Researchers Expand Efforts to Explore Functional Landscape of the Human Genome". Wellcome Trust Sanger Institute. Wellcome Trust Sanger Institute. 9 October 2007. Retrieved 8 September 2014.
  11. ^"GENCODE – Home page". GENCODE. Wellcome Trust Sanger Institute. c. 2013. Retrieved 8 September 2014.
  12. ^"Participants, all funded personnel". GENCODE. Wellcome Trust Sanger Institute. c. 2014. Retrieved 8 September 2014.
  13. ^"GENCODE Project Participants". Genome BioInformatics Research Lab. Genome BioInformatics Research Lab. c. 2005. Retrieved 8 September 2014.
  14. ^ "GENCODE – Statistics". GENCODE. Wellcome Trust Sanger Institute. c. 2014. Retrieved 8 September 2014.
  15. ^ Searle, S; Frankish, A; Bignell, A; Aken, B; Derrien, T; Diekhans, M; и другие. (2010). "The GENCODE human gene set". Геномная биология. 11(Suppl 1): 36. doi :10.1186/gb-2010-11-S1-P36. PMC 3026266.
  16. ^"Ensembl Gene Set". Ensembl. August 2014. Retrieved 6 September 2014.
  17. ^Kokocinski, F; Harrow, J; Hubbard, T (2010). "AnnoTrack - a tracking system for genome annotation". BMC Genomics. 11: 538. doi :10.1186/1471-2164-11-538. PMC 3091687. PMID 20923551.
  18. ^"A system for annotating alternative splice isoforms". APPRIS. July 2014. Retrieved 6 September 2014.
  19. ^Gerstein MB, Bruce C, Rozowsky JS, Zheng D, Du J, Korbel JO, et al. (2007). "What is a gene, post-ENCODE? History and updated definition". Genome Res. 17(6): 669–81. doi :10.1101/gr.6339607. PMID 17567988.
  20. ^"ENCODE: Encyclopedia of DNA Elements". ENCODE. c. 2014. Retrieved 7 September 2014.
  21. ^ "ENCODE: Pilot Project at UCSC". ENCODE. c. 2007. Retrieved 7 September 2014.
  22. ^"The Human Genome Project". Genetics Home Reference. U.S. National Library of Medicine (NLM). 1 September 2014. Retrieved 7 September 2014.
  23. ^"ENCODE data in Ensembl". Ensembl. August 2014. Retrieved 7 September 2014.
  24. ^Derrien T, Johnson R, Bussotti G, Tanzer A, Djebali S, Tilgner H, et al. (2012). "The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression". Genome Res. 22(9): 1775–89. doi :10.1101/gr.132159.111. PMC 3431493. PMID 22955988.
  25. ^"GENCODE - lncRNA microarray". GENCODE. c. 2013. Retrieved 10 September 2014.
  26. ^"GENCODE - RGASP 1/2 Guidelines". GENCODE. c. 2013. Retrieved 10 September 2014.
  27. ^"GENCODE - RGASP 1/2 Guidelines". GENCODE. c. 2013. Retrieved 10 September 2014.
External links
Последняя правка сделана 2021-05-21 08:48:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте