GENCODE

редактировать

GENCODE
Содержание
Описание	Энциклопедия генов и вариантов генов
Типы данных. охвачены	Все особенности генов в геноме человека и мыши
Связаться с
Исследовательским центром	Wellcome Trust Sanger Institute
Авторы	Харроу Дж. и др.
Основная ссылка	PMID 22955987
Дата выпуска	сентябрь 2012 г. (сентябрь 2012 г.)
Доступ
Веб-сайт	Генкод веб-сайта
Инструменты
Веб	Браузер генома UCSC: http://genome.cse.ucsc.edu/encode/
Разное
Лицензия	Открытый доступ
Выпуск данных. частота	Человек - Ежеквартально. Мышь - Полугодовой
Версия	Человек - Выпуск 32 (сентябрь 2019 г.). Мышь - Выпуск M23 (сентябрь 2019 г.)

GENCODE - научный проект в исследовании генома и в рамках масштабного проекта ENCODE (ENCyclopedia Of DNA Elements).

Консорциум GENCODE изначально был сформирован как часть пилотной фазы проекта ENCODE для идентификации и картирования всех генов, кодирующих белок в областях ENCODE (примерно 1% генома человека). Учитывая первоначальный успех проекта, GENCODE теперь стремится создать «Энциклопедию генов и вариантов генов», идентифицируя все особенности генов в геноме человека и мыши, используя комбинацию вычислительного анализа, ручного аннотирования и экспериментальной проверки, а также аннотируя все основанные на фактических данных особенности гена во всем геноме человека с высокой точностью.

Результатом будет набор аннотаций, включающий все кодирующие белок локусы с альтернативно транскрибируемыми вариантами, некодирующие локусы с подтверждением транскрипции и псевдогены.

Содержание

1 Текущий прогресс
2 История
3 Ключевые участники
4 Ключевые статистические данные
5 Методология
- 5.1 Автоматическая аннотация (Ensembl)
- 5.2 Ручная аннотация (группа HAVANA)
- 5.3 Процесс слияния генов Ensembl / HAVANA
- 5.4 Оценка качества
- 5.5 Общие методы, используемые для GENCODE 7
6 Использование / доступ
- 6.1 Определение уровня
- 6.2 Определение статуса гена / транскрипта
- 6.3 Обзор генома Biodalliance r
7 Проблемы
- 7.1 Определение «гена»
- 7.2 Псевдогены
8 Связанные проекты
- 8.1 ENCODE
- 8.2 Проект «Геном человека»
9 Подпроекты
- 9.1 Ensembl
- 9.2 Дизайн микрочипов экспрессии lncRNA
- 9.3 RGASP
10 См. Также
11 Ссылки
12 Внешние ссылки

Текущий прогресс

GENCODE в настоящее время продвигается к своим целям в фазе 2 проекта, а именно:

Для продолжения улучшения охвата и точности набора генов человека GENCODE путем улучшения и расширения аннотации всех основанных на фактических данных генных характеристик в геноме человека с высокой точностью, включая кодирование белков локусы с альтернативными вариантами сплайсинга, некодирующими локусами и псевдогенами.
Для создания мышиного набора генов GENCODE, который включает белковые кодирующие области со связанными альтернативными вариантами сплайсинга, некодирующие локусы, которые имеют доказательства транскрипции, и псевдогены.

Самым последним выпуском аннотаций набора генов человека является Gencode 32 с датой замораживания сентября. ber 2019. В этом выпуске используется последняя сборка эталонного генома человека GRCh38.

Последним выпуском для аннотаций генома мыши является Gencode M23, также с датой замораживания в сентябре 2019 года.

С сентября 2009 года GENCODE является набором генов человека, используемым проектом Ensembl, и каждый новый выпуск GENCODE соответствует выпуску Ensembl.

История

Хронология проекта GENCODE

2003 Сентябрь . Национальный институт исследования генома человека (NHGRI) создал общественный исследовательский консорциум под названием ENCODE, "Энциклопедия элементов ДНК" в сентябре 2003 г., чтобы осуществить проект по идентификации всех функциональных элементов в последовательности генома человека. Проект был разработан в три этапа - пилотный этап, этап разработки технологии и этап производства. Пилотная стадия проекта ENCODE была направлена на глубокое компьютерное и экспериментальное исследование 44 областей общей последовательностью 30 Мб, что составляет примерно 1% генома человека. В рамках этого этапа был сформирован консорциум GENCODE для идентификации и картирования всех генов, кодирующих белок, в регионах ENCODE. Предполагалось, что результаты первых двух этапов будут использованы для определения наилучшего пути дальнейшего анализа оставшихся 99% генома человека на экономически эффективном и всеобъемлющем этапе производства.

2005 апрель . Первый выпуск аннотации 44 регионов ENCODE был заморожен 29 апреля 2005 г. и использовался на первом семинаре ENCODE Genome Annotation Assessment Project (E-GASP). GENCODE Release 1 содержал 416 известных локусов, 26 новых (кодирующих последовательность ДНК) локусов CDS, 82 новых локуса транскриптов, 78 предполагаемых локусов, 104 процессированных псевдогена и 66 необработанных псевдогенов.

Октябрь 2005 г. . Вторая версия (выпуск 02) была заморожена 14 октября 2005 г. и содержала обновления, полученные в результате экспериментальных проверок с использованием RACE и RT-PCR техники. GENCODE Release 2 содержал 411 известных локусов, 30 новых локусов CDS, 81 новый локус транскриптов, 83 предполагаемых локуса, 104 процессированных псевдогена и 66 необработанных псевдогенов.

2007 июнь . Выводы пилотного проекта были опубликованы в июне 2007 года. Результаты подчеркнули успех пилотного проекта по созданию возможной платформы и новых технологий для характеристики функциональных элементов в геноме человека, которые открывает путь к исследованию генома.

2007 октябрь . После успешной пилотной фазы на 1% генома Wellcome Trust Sanger Institute получил грант от Национального института исследования генома человека США (NHGRI) на осуществить расширение проекта GENCODE для интегрированной аннотации генных характеристик. Это новое финансирование было частью усилий NHGRI по расширению проекта ENCODE до стадии производства для всего генома вместе с дополнительными экспериментальными исследованиями.

2012 Сентябрь . В сентябре 2012 года консорциум GENCODE опубликовал крупный документ, в котором обсуждались результаты основного выпуска - GENCODE Release 7, который был заморожен в декабре 2011 года. В выпуске GENCODE 7 использовалось сочетание руководств. аннотации генов от группы анализа и аннотаций человека и позвоночных (HAVANA) и полностью новый выпуск (Ensembl выпуск 62) автоматической аннотации генов от Ensembl. На момент выпуска GENCODE Release 7 содержал наиболее полную общедоступную аннотацию локусов длинной некодирующей РНК (днРНК) с преобладающей формой транскрипта, состоящей из двух экзонов.

2013-2017 . Участие в Группа GENCODE, успешно предоставившая полную аннотацию функциональных элементов в геноме человека, получила в 2013 году второй грант для продолжения работы по аннотации генома человека и расширения GENCODE для включения аннотации генома мыши. Предполагается, что данные аннотации мышей позволят проводить сравнительные исследования между геномами человека и мыши, чтобы улучшить качество аннотаций в обоих геномах.

Ключевые участники

Ключевые участники проекта GENCODE оставались относительно последовательными на всех его этапах, и теперь Wellcome Trust Sanger Institute возглавляет общие усилия по проекту.

Сводка основных участвующих организаций на каждой фазе приведена ниже:

GENCODE, фаза 2 (текущая)	GENCODE, фаза расширения	GENCODE, пилотная фаза
Wellcome Trust Sanger Institute, Кембридж, Великобритания	Wellcome Trust Sanger Institute, Кембридж, Великобритания	Wellcome Trust Sanger Institute, Кембридж, Великобритания Команда 16: Популяция и сравнительная геномика Команда 71: Информатика (в основном группа аннотаций HAVANA)
Центр регулирования Геномики (CRG), Барселона, Каталония, Испания	Центр регулирования Геномики (CRG), Барселона, Каталония, Испания	Institut Municipal d'Investigació Mèdica (IMIM), Барселона, Каталония, Испания
Университет Лозанны, Швейцария	Университет Лозанны, Швейцария	Университет Женевы, Швейцария
Калифорнийский университет, Санта-Крус (UCSC), Калифорния, США	Калифорнийский университет (UCSC), Санта-Крус, США	Вашингтонский университет (Вашингтонский университет), Сент-Луис, США
Массачус etts Institute of Technology (MIT), Бостон, США	Массачусетский технологический институт (MIT), Бостон, США	Калифорнийский университет, Беркли, США
Йельский университет (Йель), Нью-Хейвен, США	Йельский университет (Йель), Нью-Хейвен, США	Европейский институт биоинформатики, Хинкстон, Великобритания
Испанский национальный центр исследования рака (CNIO), Мадрид, Испания	Испанский национальный центр исследований рака (CNIO), Мадрид, Испания
	Вашингтонский университет (Вашингтонский университет), Сент-Луис, США

Ключевые статистические данные

С момента своего создания GENCODE выпустила 20 версий аннотации набора генов человека (за исключением незначительных обновлений).

Ключевая сводная статистика самой последней аннотации набора генов GENCODE Human (Release 20, апрель 2014 замораживание, Ensembl 76 ), которая является первой версией, в которой используется последняя версия Human. Сборка генома (GRCh38) показана ниже:

Категории	Всего	Категории	Всего
Общее количество генов	58,688	Общее количество транскриптов	194,334
Гены, кодирующие белок	19,942	Транскрипты, кодирующие белок	79,460
Длинные некодирующие гены РНК	14,470	- полноразмерное кодирование белка:	54,447
Малые гены некодирующих РНК	9,519	- кодирование белка с частичной длиной:	25,013
Псевдогены	14,363	Транскрипты опосредованного бессмысленным распадом	13,229
- обработанные псевдогены:	10,736	Транскрипты длинных некодирующих РНК-локусов	24,489
- необработанные псевдогены:	3,202
- унитарные пс eudogenes:	171
- полиморфные псевдогены:	26
- псевдогены:	2
сегменты гена иммуноглобулина / рецептора Т-клеток	618	Общее количество различных трансляций	59,575
- сегменты, кодирующие белок:	392	Гены, которые имеют более одной отдельной трансляции	13,579
- псевдогены:	226

См. GENCODE Statistics README и страница биотипов GENCODE для получения более подробной информации о классификации указанного выше набора генов..

Благодаря достижениям в технологиях секвенирования (например, RT-PCR-seq), расширенному охвату ручных аннотаций (группа HAVANA) и усовершенствованиям алгоритмов автоматического аннотирования с помощью Ensembl точность и полнота аннотаций GENCODE постоянно повышались. дорабатывается через итерацию выпусков.

Ниже показано сравнение ключевых статистических данных трех основных выпусков GENCODE. Очевидно, что, хотя охват, с точки зрения общего числа обнаруженных генов, неуклонно увеличивается, количество генов, кодирующих белок, фактически уменьшилось. В основном это связано с новыми экспериментальными данными, полученными с использованием кластеров Cap Analysis Gene Expression (CAGE), аннотированных сайтов PolyA и попаданий пептида.

Версия 7 (Замораживание декабря 2010 г., ГРЧ37) - Ensembl 62
Версия 10 (замораживание июля 2011 г., GRCh37) - Ensembl 65
Версия 20 (замораживание апреля 2014 г., ГРЧ38) - Ensembl 76

Сравнение версий GENCODE (транскрипты)
Сравнение версий GENCODE (гены)
Сравнение версий GENCODE для людей (переводы)

Методология

Схема конвейера GENCODE. Схема показывает поток данных между ручными и автоматизированными аннотациями через специализированные конвейеры прогнозирования, чтобы предоставить подсказки для первого прохода аннотации и контроля качества (QC). Аннотированные генные модели подлежат экспериментальной проверке, а система отслеживания AnnoTrack содержит данные из всех этих источников и используется для выделения различий, координации контроля качества и отслеживания результатов. Ручные и автоматизированные процессы аннотации создают набор данных GENCODE, а также используются для контроля качества завершенных аннотаций.

Общий процесс создания аннотации для GENCODE включает ручное управление, различные вычислительные анализы и целевые экспериментальные подходы. Предполагаемые локусы могут быть проверены с помощью влажных лабораторных экспериментов, а расчетные прогнозы анализируются вручную. В настоящее время, чтобы гарантировать, что набор аннотаций охватывает весь геном, а не только области, которые были аннотированы вручную, объединенный набор данных создается с использованием ручных аннотаций из HAVANA вместе с автоматическими аннотациями из автоматически аннотированного набора генов Ensembl. Этот процесс также добавляет уникальные полноразмерные предсказания CDS из набора кодирования белков Ensembl в аннотированные вручную гены, чтобы обеспечить максимально полную и актуальную аннотацию генома.

Автоматическая аннотация (Ensembl)

Транскрипты Ensembl являются продуктами системы автоматической аннотации генов Ensembl (набор конвейеров аннотаций генов), называемой сборкой гена Ensembl. Все транскрипты Ensembl основаны на экспериментальных данных, и поэтому автоматизированный конвейер полагается на мРНК и белковые последовательности, депонированные в общедоступные базы данных научным сообществом. Более того, уровни 1 и 2 белка из UniProt, нетранслируемые области (UTR), гены длинной межгенной некодирующей РНК (lincRNA) (аннотированные с использованием комбинации последовательностей кДНК и регуляторных данных из проекта Ensembl), короткие некодирующие РНК (аннотированные с использованием Ансамблевые конвейеры нкРНК).

Ручная аннотация (группа HAVANA)

Основной подход к ручной аннотации генов заключается в аннотировании транскриптов, выровненных по геному, и использовании геномных последовательностей в качестве эталона, а не кДНК. Готовая геномная последовательность анализируется с использованием модифицированного конвейера Ensembl, а результаты BLAST для кДНК / EST и белков, наряду с различными ab initio предсказаниями, могут быть проанализированы вручную в инструменте браузера аннотаций Otterlace. Таким образом, можно предсказать больше альтернативных вариантов сплайсинга по сравнению с аннотацией кДНК. Более того, геномная аннотация дает более полный анализ псевдогенов. В консорциуме GENCODE есть несколько аналитических групп, которые запускают конвейеры, которые помогают ручным аннотаторам создавать модели в неаннотированных регионах и выявлять потенциально пропущенные или неправильные ручные аннотации, включая полностью отсутствующие локусы, отсутствующие альтернативные изоформы, неправильные места сплайсинга и неправильные биотипы. Они отправляются обратно в ручные аннотаторы с помощью системы отслеживания AnnoTrack. Некоторые из этих конвейеров используют данные из других подгрупп ENCODE, включая данные RNASeq, модификацию гистонов и данные CAGE и Ditag. Данные RNAseq - важный новый источник доказательств, но создание на их основе полных генных моделей - сложная проблема. В рамках GENCODE был проведен конкурс для оценки качества прогнозов, производимых различными конвейерами прогнозирования RNAseq (см. RGASP ниже). Для подтверждения неопределенных моделей в GENCODE также есть экспериментальный конвейер валидации с использованием секвенирования РНК и процесса слияния генов RACE

Ensembl / HAVANA

В процессе слияния сначала сравниваются все модели транскриптов HAVANA и Ensembl. путем кластеризации перекрывающихся кодирующих экзонов на одной и той же цепи, а затем путем попарного сравнения каждого экзона в кластере транскриптов. Модуль, используемый для объединения набора генов, - HavanaAdder. Перед запуском кода HavanaAdder требуются дополнительные шаги (например, система проверки работоспособности Ensembl и запросы к набору генов CCDS и выравнивания кДНК Ensembl). Если аннотация, описанная во внешних наборах данных, отсутствует в ручном наборе, то она сохраняется в системе AnnoTrack для проверки.

Оценка качества

Для GENCODE 7 моделям транскрипции присваивается высокий или низкий уровень поддержки, основанный на новом методе, разработанном для оценки качества стенограмм. Этот метод основан на выравнивании мРНК и EST, предоставленных UCSC и Ensembl. Выравнивания мРНК и EST сравнивают с транскриптами GENCODE, и транскрипты оценивают в баллах в соответствии с выравниванием по всей длине. Сводка уровней поддержки для каждой хромосомы в GENCODE Release 7 показана на рисунке справа. Аннотации делятся на аннотации, созданные с помощью автоматизированного процесса, ручного метода и объединенные аннотации, где оба процесса приводят к одной и той же аннотации.

Общие методы, используемые для GENCODE 7

Усиление, упорядочение, сопоставление и проверка соединение экзон-экзон

Двухцепочечная кДНК восьми тканей человека (головной мозг, сердце, почки, семенники, печень, селезенка, легкие и скелетные мышцы) была создана с помощью амплификации кДНК, а очищенная ДНК была непосредственно использована для получения библиотеку секвенирования с помощью «Набор для подготовки образцов геномной ДНК» (Illumina). Эта библиотека была впоследствии секвенирована на платформе Illumina Genome Analyzer 2. Затем считывания (35 или 75 нт) были сопоставлены с эталонным геномом человека (hg19) и предсказанными сплайсированными ампликонами с помощью программного обеспечения Bowtie. Только считывания с уникальным отображением без несоответствия считались подтверждением сайта сплайсинга (транскрипта). Сварные стыки были подтверждены, если минимум 10 считываний со следующими характеристиками охватили прогнозируемые стыковые стыки. Для считываний длиной 35 и 75 нуклеотидов требовалось по крайней мере 4 и 8 нуклеотидов на каждой стороне контрольных точек (т.е. на каждом целевом экзоне) соответственно.

Сравнение расшифровок RefSeq, UCSC, AceView и GENCODE

Транскрипты, принадлежащие четырем различным наборам данных (GENCODE, RefSeq, UCSC и AceView), сравнивались, чтобы оценить, в какой степени эти наборы данных перекрываются. Сравнивались выпуски GENCODE 7, RefSeq и UCSC Genes freeze, июль 2011 г., и выпуск AceView 2010. Перекрытия между различными комбинациями наборов данных были графически представлены в виде трехсторонних диаграмм Венна с использованием пакета Vennerable R и отредактированы вручную.

Анализ PhyloCSF

PhyloCSF использовался для идентификации потенциальных новых кодирующих генов в РНК. -seq модели транскриптов, основанные на эволюционных сигнатурах. Для каждой модели транскрипта, созданной на основе данных Illumina HBM с использованием Exonerate или Scripture, выравнивание млекопитающих было произведено путем извлечения выравнивания каждого экзона из выравнивания UCSC позвоночных (которое включает 33 плацентарных млекопитающих).

APPRIS (CNIO)

APPRIS - это система, которая развертывает ряд вычислительных методов для придания ценности аннотациям человеческого генома. APPRIS также выбирает одну из CDS для каждого гена в качестве основной изоформы. Более того, он определяет основной вариант, объединяя структурную и функциональную информацию о белках и информацию о сохранении родственных видов. Сервер APPRIS использовался в контексте расширения проекта ENCODE для аннотирования генома человека, но APPRIS используется для других видов (например, мыши, крысы и рыбок данио). Конвейер состоит из отдельных модулей, которые объединяют информацию о структуре и функциях белка, а также данные об эволюции. Каждый модуль реализован как отдельный веб-сервис.

Использование / доступ

Текущая версия набора генов GENCODE Human (GENCODE Release 20) включает файлы аннотаций (в форматах GTF и GFF3), файлы FASTA и файлы METADATA, связанные с аннотацией GENCODE на всех геномные регионы (референсные хромосомы / участки / скаффолды / гаплотипы). Данные аннотации относятся к эталонным хромосомам и хранятся в отдельных файлах, которые включают: аннотацию генов, особенности PolyA, аннотированные HAVANA, псевдогены (Retrotransposed), предсказанные конвейерами Yale и UCSC, но не HAVANA, длинные некодирующие РНК и тРНК. структуры, предсказанные тРНК-сканированием. Некоторые примеры строк в формате GTF показаны ниже:

Пример файла GTF, где показаны стандартные столбцы GTF, разделенные табуляцией (1–9)

Столбцы в форматах файлов GENCODE GTF описаны ниже.

Описание формата файла GENCODE GTF. Стандартные столбцы GTF, разделенные табуляцией

Номер столбца	Содержимое	Значения / формат
1	имя хромосомы	chr {1,2,3,4,5, 6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22, X, Y, M}
2	источник аннотации	{ENSEMBL, HAVANA}
3	feature-type	{ген, транскрипт, экзон, CDS, UTR, start_codon, stop_codon, Selenocysteine}
4	место начала генома	целочисленное значение (На основе 1)
5	конечное местоположение генома	целочисленное значение
6	оценка (не используется)	.
7	геномная цепь	{+, -}
8	фаза генома ( для функций CDS)	{0,1,2,.}
9	дополнительная информация в виде пар ключ-значение	См. пояснения в таблице ниже.

Описание пар ключ-значение в 9-м столбце файла GENCODE GTF (формат: ключ "значение")

Имя ключа	Формат значения
gene_id	ENSGXXXXXXXXXXX
идентификатор_транскрипта	ENSTXXXXXXXXXXX
тип_гена	список биотипов
состояние_гена	{ИЗВЕСТНО, НОВОЕ, ПУТАТИВНОЕ}
имя_гена	строка
transcript_type	список биотипов
transcript_status	{KNOWN, NOVEL, PUTATIVE}
transcript_name	string
exon_number	указывает биологическое положение экзона в транскрипте
exon_id	ENSEXXXXXXXXXXX
уровень	(проверенные локусы), (вручную аннотированные локусы), (автоматически аннотированные локусы)

Определение уровня

Каждый ген в наборе данных GENCODE классифицируется на три уровня в соответствии с их типом аннотации:

Уровень 1 (проверенные локусы): Включает транскрипты которые были вручную аннотированы и экспериментально подтверждены с помощью RT-PCR-seq, и псевдогенами, которые были проверены с помощью трех различных методологий.

Уровень 2 (локусы с ручными аннотациями): Выделяет стенограммы, которые были вручную аннотированы только HAVANA, а также включает стенограммы, которые были объединены с моделями, созданными автоматическим конвейером Ensembl.

Уровень 3 (локусы с автоматической аннотацией): Обозначает транскрипты и предсказания псевдогенов, полученные в результате автоматизированного конвейера аннотаций Ensembl.

Определение статуса гена / транскрипта

Генам и транскриптам присваивается статус "известные", "новые" или "предполагаемые" в зависимости от их присутствия в других основных базах данных и доказательств, используемых для построения их составных стенограмм.

Известно: Представлен в базе данных Комитета по номенклатуре генов HUGO (HGNC) и RefSeq.

Роман: В настоящее время не представлен в базах данных HGNC или RefSeq, но хорошо подтверждается либо свидетельством транскрипта, специфичным для локуса, либо свидетельством из паралогичного или ортологичного локуса.

Предполагаемый: В настоящее время не представлен в базах данных HGNC или RefSeq, но подтвержден более короткими и более разреженными свидетельствами транскрипции.

Браузер генома Biodalliance

Кроме того, на веб-сайте GENCODE есть браузер генома для человека и мыши, с помощью которого вы можете добраться до любой области генома, указав номер хромосомы и начальную конечную позицию (например, 22: 30,700,000..30,900,000), а также по идентификатору транскрипта ENS (с / без версии), идентификатору гена ENS (с / без версии) и имени гена. Браузер работает на Biodalliance.

Проблемы

Определение «гена»

Определение «гена» никогда не было тривиальной проблемой, с многочисленными определениями и понятиями, предложенными на протяжении многих лет с момента открытия человеческий геном. Сначала гены были задуманы в 1900-х годах как дискретные единицы наследственности, затем это считалось планом для синтеза белка, а в более позднее время его определяли как генетический код, который транскрибируется в РНК. Хотя определение гена сильно изменилось за последнее столетие, оно остается сложной и противоречивой темой для многих исследователей. С появлением проекта ENCODE / GENCODE были обнаружены еще более проблемные аспекты определения, включая альтернативный сплайсинг (при котором серии экзонов разделены интронами), межгенные транскрипции и сложные паттерны рассредоточенной регуляции, а также не -генная консервация и обилие некодирующих генов РНК. Поскольку GENCODE стремится создать энциклопедию генов и вариантов генов, эти проблемы представляли растущую проблему для проекта GENCODE по разработке обновленного понятия гена.

Псевдогены

Псевдогены имеют ДНК последовательности, которые подобны функциональным генам, кодирующим белок, однако их транскрипты обычно идентифицируются со сдвигом рамки считывания или делецией и обычно аннотируются как побочный продукт аннотации генов, кодирующих белок в большинстве генетических баз данных. Однако недавний анализ ретротранспонированных псевдогенов обнаружил, что некоторые ретранспонированные псевдогены экспрессируются и функционируют и оказывают значительное биологическое / регуляторное воздействие на биологию человека. Чтобы справиться с неизвестными и сложностями псевдогенов, GENCODE создала онтологию псевдогенов, используя комбинацию автоматизированных, ручных и экспериментальных методов, чтобы связать различные биологические свойства, такие как особенности последовательности, эволюция и потенциальные биологические функции с псевдогенами.

Связанные проекты

ENCODE

Энциклопедия элементов ДНК (ENCODE) - это общественный исследовательский консорциум, созданный Национальным исследовательским институтом генома человека (NHGRI) в сентябре 2003 г. (пилотный этап). Целью ENCODE является создание исчерпывающего списка частей функциональных элементов в геноме человека, включая элементы, которые действуют на уровне белка и РНК, а также регуляторные элементы, которые контролируют клетки и условия, в которых ген активен. Анализ данных во время пилотной фазы (2003–2007 гг.) Координировался группой Ensembl, совместным проектом EBI и Wellcome Trust Sanger Institute. На начальных этапах пилотного проекта и разработки технологий 44 региона - примерно 1% генома человека - были нацелены на анализ с использованием различных экспериментальных и вычислительных методов. Все данные, полученные исследователями ENCODE, и результаты аналитических проектов ENCODE с 2003 по 2012 год хранятся в браузере и базе данных UCSC Genome. Результаты ENCODE за 2013 год и позже доступны для бесплатного скачивания и анализа на портале проекта ENCODE. Чтобы аннотировать все основанные на фактах особенности генов (гены, транскрипты, кодирующие последовательности и т. Д.) Во всем геноме человека с высокой точностью, консорциум ENCODE создает подпроект GENCODE.

Проект генома человека

Проект генома человека представлял собой международную исследовательскую работу по определению последовательности генома человека и идентификации содержащихся в нем генов. Проект координировали Национальные институты здравоохранения и Министерство энергетики США. Среди дополнительных участников были университеты в Соединенных Штатах и международные партнеры в Великобритании, Франции, Германии, Японии и Китае. Проект «Геном человека» официально начался в 1990 году и был завершен в 2003 году, на 2 года раньше запланированного срока. После обнародования полной последовательности генома человека в апреле 2003 года научное сообщество активизировало свои усилия по поиску данных, чтобы понять, как организм работает в состоянии здоровья и болезни. Основным требованием для такого понимания биологии человека является способность идентифицировать и характеризовать функциональные элементы, основанные на последовательностях, посредством экспериментов и компьютерного анализа. В сентябре 2003 года NHGRI представила проект ENCODE для облегчения идентификации и анализа полного набора функциональных элементов в последовательности человеческого генома.

Подпроекты

Ensembl

Ensembl является частью проекта GENCODE, и он сыграл важную роль в обеспечении автоматической аннотации к сборке эталонного генома человека и объединении этой аннотации с ручной аннотацией от команды HAVANA. Набор генов, предоставленный Ensembl для человека, представляет собой набор генов GENCODE

Дизайн микроматрицы экспрессии днРНК

Ключевой областью исследований проекта GENCODE было изучение биологической значимости длинных некодирующих РНК ( днРНК). Чтобы лучше понять экспрессию lncRNA у людей, GENCODE создал подпроект для разработки пользовательских платформ микрочипов, способных количественно определять транскрипты в аннотации lncRNA GENCODE. Ряд дизайнов был создан с использованием системы Agilent Technologies eArray, и эти дизайны доступны в стандартном пользовательском формате Agilent.

RGASP

Геном RNA-seq Проект Annotation Assessment Project (RGASP) предназначен для оценки эффективности различных вычислительных методов для высококачественного анализа данных о последовательности РНК. Основные цели RGASP - обеспечить беспристрастную оценку программного обеспечения для выравнивания РНК-seq, характеристики транскрипта (обнаружение, реконструкция и количественная оценка), а также определить возможность автоматизированного аннотации генома на основе секвенирования транскриптома.

RGASP - это были организованы в рамках консорциума, смоделированного по образцу семинара по прогнозированию генов EGASP (ENCODE Genome Annotation Assessment Project), и были проведены два раунда семинаров для рассмотрения различных аспектов анализа РНК-секвенирования, а также изменения технологий и форматов секвенирования. Одним из основных открытий первого и второго раундов проекта было то, что согласование считываемых данных влияет на качество прогнозов генов. Таким образом, в настоящее время проводится третий раунд семинара RGASP (в 2014 г.), в котором основное внимание уделяется картированию считывания в геном.

См. Также

Ссылки

^ Харроу Дж., Фрэнкиш А., Гонсалес Дж. М., Тапанари Э., Диханс М., Кокочински Ф. и др. (2012). «GENCODE: справочная аннотация человеческого генома для проекта ENCODE» (PDF). Genome Res. 22 (9): 1760–74. doi : 10.1101 / gr.135350.111. PMC 3431492. PMID 22955987.
^ Харроу Дж., Деноуд Ф., Фрэнкиш А., Реймонд А., Чен С.К., Краст Дж. И др. (2006). «GENCODE: создание справочной аннотации для ENCODE». Genome Biol. 7 Дополнение 1: S4.1–9. doi : 10.1186 / gb-2006-7-s1-s4. PMC 1810553. PMID 16925838.
^Франкиш, А; Mudge, JM; Thomas, M; Харроу, Дж (2012). «Важность выявления альтернативного сплайсинга в аннотации генома позвоночных». База данных. 2012 : bas014. doi : 10.1093 / database / bas014. PMC 3308168. PMID 22434846.
^Дерриен, Т. Джонсон, Р. Bussotti, G; Танзер, А; Джебали, S; Тилгнер, H; Гернек, G; Мартин, Д.; Меркель, А; Ноулз, Д.Г.; Лагард, Дж; Veeravalli, L; Руан, X; Руан, Y; Лассманн, Т; Carninci, P; Браун, JB; Липович, Л; Гонсалес, JM; Thomas, M; Дэвис, Калифорния; Шихаттар, Р. Gingeras, TR; Хаббард, Т.Дж.; Notredame, C; Харроу, Дж; Гуиго, Р. (сентябрь 2012 г.). "The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression". Genome Research. 22(9): 1775–89. doi :10.1101/gr.132159.111. PMC 3431493. PMID 22955988.
^Pei, B; Sisu, C; Frankish, A; Howald, C; Habegger, L; Mu, XJ; Harte, R; Balasubramanian, S; Tanzer, A; Diekhans, M; Reymond, A; Hubbard, TJ; Harrow, J; Gerstein, MB (Sep 5, 2012). "The GENCODE pseudogene resource". Геномная биология. 13(9): R51. doi :10.1186/gb-2012-13-9-r51. PMC 3491395. PMID 22951037.
^ "GENCODE – Goals". GENCODE. Wellcome Trust Sanger Institute. c. 2013. Retrieved 5 September 2014.
^ "GENCODE – Data". GENCODE. Wellcome Trust Sanger Institute. September 2019. Retrieved 14 October 2019.
^ The ENCODE Project Consortium (22 October 2004). "The ENCODE (ENCyclopedia of DNA Elements) Project" (PDF). Science. 306(5696): 636–640. doi :10.1126/science.1105136. PMID 15499007. S2CID 22837649.
^The ENCODE Project Consortium (14 June 2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project". Nature. 447(7146): 799–816. doi :10.1038/nature05874. PMC 2212820. PMID 17571346.
^ "Researchers Expand Efforts to Explore Functional Landscape of the Human Genome". Wellcome Trust Sanger Institute. Wellcome Trust Sanger Institute. 9 October 2007. Retrieved 8 September 2014.
^"GENCODE – Home page". GENCODE. Wellcome Trust Sanger Institute. c. 2013. Retrieved 8 September 2014.
^"Participants, all funded personnel". GENCODE. Wellcome Trust Sanger Institute. c. 2014. Retrieved 8 September 2014.
^"GENCODE Project Participants". Genome BioInformatics Research Lab. Genome BioInformatics Research Lab. c. 2005. Retrieved 8 September 2014.
^ "GENCODE – Statistics". GENCODE. Wellcome Trust Sanger Institute. c. 2014. Retrieved 8 September 2014.
^ Searle, S; Frankish, A; Bignell, A; Aken, B; Derrien, T; Diekhans, M; и другие. (2010). "The GENCODE human gene set". Геномная биология. 11(Suppl 1): 36. doi :10.1186/gb-2010-11-S1-P36. PMC 3026266.
^"Ensembl Gene Set". Ensembl. August 2014. Retrieved 6 September 2014.
^Kokocinski, F; Harrow, J; Hubbard, T (2010). "AnnoTrack - a tracking system for genome annotation". BMC Genomics. 11: 538. doi :10.1186/1471-2164-11-538. PMC 3091687. PMID 20923551.
^"A system for annotating alternative splice isoforms". APPRIS. July 2014. Retrieved 6 September 2014.
^Gerstein MB, Bruce C, Rozowsky JS, Zheng D, Du J, Korbel JO, et al. (2007). "What is a gene, post-ENCODE? History and updated definition". Genome Res. 17(6): 669–81. doi :10.1101/gr.6339607. PMID 17567988.
^"ENCODE: Encyclopedia of DNA Elements". ENCODE. c. 2014. Retrieved 7 September 2014.
^ "ENCODE: Pilot Project at UCSC". ENCODE. c. 2007. Retrieved 7 September 2014.
^"The Human Genome Project". Genetics Home Reference. U.S. National Library of Medicine (NLM). 1 September 2014. Retrieved 7 September 2014.
^"ENCODE data in Ensembl". Ensembl. August 2014. Retrieved 7 September 2014.
^Derrien T, Johnson R, Bussotti G, Tanzer A, Djebali S, Tilgner H, et al. (2012). "The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression". Genome Res. 22(9): 1775–89. doi :10.1101/gr.132159.111. PMC 3431493. PMID 22955988.
^"GENCODE - lncRNA microarray". GENCODE. c. 2013. Retrieved 10 September 2014.
^"GENCODE - RGASP 1/2 Guidelines". GENCODE. c. 2013. Retrieved 10 September 2014.
^"GENCODE - RGASP 1/2 Guidelines". GENCODE. c. 2013. Retrieved 10 September 2014.

External links

Official GENCODE pages