ENCODE

редактировать

Исследовательский консорциум, исследующий функциональные элементы в ДНК человека и модельного организма

ENCODE

Содержание
Описание	База данных полного генома
Связаться
Исследовательский центр	Стэнфордский университет
Лаборатория	Стэнфордский технологический центр генома: Cherry Lab; Ранее: Калифорнийский университет, Санта-Крус
Авторы	Cricket Alicia Sloan
Основное упоминание	PMID 26980513
Дата выпуска	2010 (2010)
Access
Веб-сайт	encodeproject.org

Энциклопедия элементов ДНК (ENCODE ) - это открытый исследовательский проект, цель которого определение функциональных элементов. в геноме человека.

Содержание

1 История
2 Мотивация и значение
3 Консорциум ENCODE
4 Проект ENCODE
- 4.1 Проект фазы I ENCODE: пилотный проект
  - 4.1. 1 Выбор цели
  - 4.1.2 Результаты пилотного этапа
- 4.2 Проект ENCODE, этап II: проект этапа производства
  - 4.2.1 Результаты этапа производства
- 4.3 Управление данными и анализ
5 Другие проекты
- 5.1 проект modENCODE
  - 5.1.1 MODERN
- 5.2 Геномика генной регуляции
- 5.3 Дорожная карта
- 5.4 Проект fruitENCODE
6 Критика проекта
7 FactorBook
8 См.
9 Ссылки
10 Внешние ссылки

История

Encode был запущен Национальным исследовательским институтом генома человека США (NHGRI) в сентябре 2003 года. Предполагается, что он является продолжением проекта Проект генома человека, ENCODE Проект направлен на определение всех функциональных элементов в геноме человека.

. В всемирном всемирном консорциуме исследовательских групп, данные, полученные в результате этого проекта, доступны через общедоступные базы данных. Четвертый этап проекта начался в феврале 2017 года.

Мотивация и значимость

По оценкам, у людей примерно 20000 кодирующих белки генов, что составляет около 1,5% ДНК в геноме человека. Основная цель проекта ENCODE - определить роль оставшегося компонента генома, большая часть которого традиционно считалась «мусором». Активность и экспрессия генов, кодирующих белок, могут модулироваться с помощью регулома - множества элементов ДНК, таких как промоторы, транскрипционные регуляторные последовательности и области. структуры хроматина и модификации гистона. Считается, что изменения в регуляции активности гена могут нарушить продукцию белка и клеток и привести к заболеванию. Определение местоположения этих регуляторных элементов и их влияния на транскрипцию гена может выявить связи между вариациями экспрессии определенных генов и возникновения заболеваний.

ENCODE - это также задуман как всеобъемлющий ресурс, позволяющий научному сообществу лучше понять, как геном может повлиять на здоровье человека, и «стимулировать новые методы лечения для предотвращения» и лечения этих заболеваний ».

Консорциум ENCODE

Консорциум ENCODE состоит в основном из ученых, финансируемых Национальным институтом исследования генома человека США (NHGRI). Другие участники вносят вклад в проект, включаются в Консорциум или аналитическую рабочую группу.

Пилотный этап состоял из восьми исследовательских групп и двенадцати групп, участвовавших в этапе разработки технологий ENCODE. После 2007 года количество участников расширилось до 440 ученых из 32 лабораторий по всему миру. На данный момент консорциум состоит из разных центров, которые выполняют разные задачи.

ENCODE является членом Международного консорциума человеческих эпигеномов (IHEC).

Проект ENCODE

ENCODE в настоящее время реализует четыре этапа: пилотный этап и этап разработки технологий, которые были начаты одновременно; и этап производства. Четвертая фаза является продолжением третьей и включает функциональную характеристику и дальнейший интегративный анализ для энциклопедии.

Целью пилотного этапа было определение набора, которое было в соответствии с преимуществами эффективного использования людей высокой производительности и всесторонней эффективности больших участков генома. Пилотный этап был выявлен пробелы в текущем наборе инструментов для обнаружения последовательностей, также были выявлены некоторые методы, использованные к времени, неэффективными или непригодными для крупномасштабного использования. Для достижения этой цели необходимо решить этап технологий ENCODE, чтобы улучшить полученные элементы. Результаты первых двух этапов определилилилилили лучший путь для анализа 99% человеческого генома на экономически эффективном и комплексном этапе производства.

Проект ENCODE, этап I: пилотный проект

На пилотном этапе были протестированы и сопоставлены методы для тщательного анализа части генома человека. Он организован как открытый консорциум и объединил исследователей с опытом и знаниями для оценки достоинств каждого из разнообразных методов набора, технологий и стратегий. Параллельная фаза разработки технологий проекта была направлена на приложение новых высокопроизводительных методов для определения функциональных элементов. Целью этих методов было определение подходов, которые могли бы всесторонне идентифицировать все функциональные элементы в геноме человека. В рамках пилотного проекта ENCODE Национальный исследовательский институт генома человека (NHGRI) оценил возможности различных подходов к расширению анализа всего генома человека и поиска пробелов в способности идентифицировать функциональные элементы. в геномной последовательности.

Процесс пилотного проекта ENCODE включает тесное взаимодействие между учеными, занимающимися вычислениями, и учеными-экспериментаторами для ряда методов аннотирования генома человека. Набор возможностей, представляющих примерно 1% (30 МБ) генома, выбранный в качестве проанализирован всеми исследователями пилотного проекта ENCODE. Все данные, сгенерированные участники ENCODE в этих регионах, были быстро опубликованы в общедоступных базах данных.

Выбор цели

Для использования в пилотном проекте ENCODE, крайние генома человека соответствующие 30 Мб, примерно 1% от генома человека - были отобраны. Эти регионы дейоны для тестирования и оценки эффективности и методы обнаружения функциональных элементов в ДНК человека.

Перед тем, как приступить к выбору цели, было решено, что 50% из 30 МБ будет выбрано вручную, оставшаяся последовательность будет выбираться случайным образом. Двумя критериями для вручную выбранных областей были: 1) наличие хорошо изученных генов или других элементов следовать и 2) наличие значительного количества сравнительных данных последовательностей. С помощью этого метода вручную было выбрано в общей сложности 14,82 МБ, состоящей из 14 целей, размер которых выбирается от 500 КБ до 2 МБ.

Оставшиеся 50% 30 Мб показали состояли из тридцати областей по 500 КБ, выбранных в соответствии со стратегией стратифицированной случайной выборки, основанной на плотности генов и уровне неэкзонной консервации. Решение использовать эти критерии было принято, чтобы хорошая выборку геномных областей, широко различающихся по содержанию генов и других функциональных элементов. Геном человека был разделен на три части - верхние 20%, средние 30% и нижние 50% - по каждой из двух осей: 1) плотность гена и 2) уровень не- экзонных по относительно к ортологической геномной придерживаться мыши (см. Ниже), всего девять слоев. Из каждой страты для пилотного проекта были выбраны три случайных региона. Для тех слоев, которые были недостаточно представлены при ручном выборе, выбран четвертый регион, в результате в общей сложности 30 регионов. Для всех слоев была выделена «резервная» область для использования на случай непредвиденных технических проблем.

Более подробно стратификации были использованы:

Плотность гена : Оценка плотности гена области представляет собой процент оснований, покрытых либо генами в База данных Ensembl, или путем выравнивания задней части мРНК лучший BLAT (BLAST -подобный инструмент выравнивания) в UCSC Genome Browser база данных.
не- экзонная консервация: область была разделена на неперекрывающиеся подокна по 125 оснований. Подокна, которые показали менее 75% выравнивания оснований с последовательностью мыши, были отброшены. Для остальных подокон - процент с минимум 80% идентичности оснований мыши, который не соответствует генам Ensembl, GenBank выравнивание мРНК BLASTZ, Fgenesh ++ предсказания генов, предсказания генов TwinScan, сплайсинговые выравнивания EST или повторяющиеся последовательности (ДНК ) использовались в качестве оценки неэкзонной консервации.

Вышеуказанные расчетные используются в пределах неперекрывающихся окон размером 500 кб.

Результаты пилотной фазы

Пилотная фаза была успешно завершена, и результаты были опубликованы в июне 2007 года в Природа и в специальном выпуске Исследование генома ; результаты опубликованные в первой упомянутой статье, расширили коллективные о функциях генома человека в нескольких областях, включая следующие основные моменты:

Генома человека широко транскрибируется, так что большая его часть оснований Связанные по крайней мере с одним первичным транскриптом, и многие транскрипты связывают дистальные области с установленными кодирующими белками локусами.
. Было идентифицировано много новых кодирующих белок транскриптов, которые ранее считались транскрипционно молчащими, используя эти перекрывающиеся белковые кодирующие локусов и других, связанных в областях генома.
Многочисленные ранее нераспознанные транскрипции <Идентифицировано 20>стартовых сайтов, многих из которых обрабатывают хроматина и свойства связывания с последовательностью специфичных белков, аналогичные хорошо изученным промоторам.
. Регуляторные последовательности, окружающие стартовые сайты транскрипции, распределены симметрично, без предубеждения в сторону апстремы области.
Доступность хроматина и паттерны модификации гистона позволяют предсказать как присутствие, так и активность сайтов начала транскрипции.
Дистальный DNaseI гиперчувствительные сайты имеют характерные паттерны модификации гистона, которые надежно отличают их от промоторов ; на некоторых из этих дистальных участков имеются отметки, соответствующие инсуляторной функции.
репликация ДНК время коррелирует со структурой хроматина.
Всего 5% оснований в геноме могут быть идентифицированы как находящиеся под эволюционными ограничениями у млекопитающих; для приблизительно 60% этих ограниченных основ есть функции на основе результатов экспериментальных анализов, выполненных на сегодняшний день.
Хотя есть общее совпадение между геномными областями идентифицированными как функциональные с аналитическими аналитическими, и теми же, в условиях эволюционного ограничения не все основания в этих экспериментальных областях доказательства доказательства ограничения.
Различные функциональные элементы сильно различаются по изменчивости их последовательностей в обратную последовательность. Это предполагает возможность наличия большого количества нейтральных элементов, биохимически активными, но не приносит особой пользы организму. Этот пул может служить «складом» для естественного отбора, как источник специфичных для клонов элементов и функционально консервативных, но неортологичных элементов между видами.

Проект фазы II ENCODE: проект фазы производства

Изображение данных ENCODE в обозревателе генома UCSC. Здесь показано несколько треков, специальную информацию о регуляции гена. Ген слева (ATP2B4 ) транскрибируется в большом количестве клеток (см. Также данные H3K4me1 ). Ген справа транскрибируется только в нескольких типах. клетки, включая эмбриональные стволовые клетки.

В сентябре 2007 года Национальный исследовательский институт генома человека (NHGRI) начал финансирование производственной фазы проекта ENCODE. На этом этапе состояла в том, чтобы проанализировать весь геном и провести «дополнительные пилотные исследования».

Как и в пилотном проекте, производственные усилия организованы в виде открытогоорциума. В октябре 2007 года NHGRI предоставила гранты на общую сумму более 80 миллионов долларов на четыре года. Этап производства также включает в себя центр средних данных, центр анализа данных и усилий по разработке технологий. В то время как проект превратился в поистинеальное предприятие, участвовали 440 ученых из 32 лабораторий по всему миру. После завершения пилотного этапа проект «расширился» в 2007 году, получив огромную прибыль от секвенсорных машин нового поколения. И действительно данных было много; исследователи создали около 15 терабайт необработанных данных.

К 2010 году в рамках проекта ENCODE было создано более 1000 наборов данных по всему геному. Взятые вместе, эти наборы показывают, какие области транскрибируются в РНК, какие области, вероятно, контролируют гены, которые используются в конкретном типе клеток, и связаны с широким спектром белков. Основными анализами, используемыми в ENCODE, являются ChIP-seq, ДНКаза I гиперчувствительность, RNA-seq и анализы метилирования ДНК.

Фаза продукции. Результаты

В сентябре 2012 года в рамках проекта был опубликован гораздо более обширный набор результатов - 30 статей, опубликованных в нескольких журналах, включая шесть Природа, шесть в Биология генома и специальный выпуск с 18 публикаций Исследования генома.

. Авторы описали создание и первоначальный анализ 1640 наборов данных, предназначенных для аннотирования функциональных элементов всего генома человека, объединяя результаты различных экспериментов в пределах типов., связанные эксперименты с участием 147 различных типов клеток и все данные, такие как кандидаты из ассоциативных исследований (GWAS ) и эволюционные ограниченные. Вместе эти усилия выявили важные особенности и функции человеческого генома, которые были резюмированы в обзорной статье следующим образом:

Подавляющее большинство (80,4%) человеческого генома участвует по крайней мере в одном биохимическом Событие, связанное с РНК и / или хроматином, по меньшей мере в одном типе клеток. Большая часть генома находится рядом с регуляторным событием: 95% генома находится в пределах 8 килобайт от взаимодействия ДНК - белок (по результатам анализа с помощью связанного ChIP-seq мотивы или DNaseI следы ), и 99% находится в пределах 1,7kb от по крайней мере одного из биохимических событий, измеренных с помощью ENCODE.
Элементы, специфичные для приматов, а также элементы, не поддающиеся обнаружению со стороны млекопитающих, демонстрируют в совокупности свидетельство отрицательного отбора; таким образом, ожидается, что некоторые из них будут функциональными.
Классификация генома на семь хроматина предполагает исходный набор из 399,124 областей с энхансером -подобные особенности и 70 292 области с промоторами -подобные особенности, а также тысячи областей. Анализ с помощью общих функций подразделяет геном на тысячи узких функций.
Можно количественно коррелировать производство и снабжение РНК с обоими хроматин марки и связывание фактора транскрипции (TF) на промоторах, что указывает на то, что функциональность промотора может объяснить часть вариаций экспрессии РНК.
Многие некодирующие вариантов в отдельных последовательностях генома лежат в функциональных областях, аннотированных ENCODE; это число, по крайней мере, не меньше тех, которые используются в генах, кодирующих белки.
SNP, ассоциированное с заболеванием GWAS, обогащенные некодирующими функциональными элементами, которые находятся за пределами белка, кодирующего гены. Во многих случаях заболевание фенотипы может быть связано с конкретным типом клеток или TF.

наиболее поразительным открытием, что доля биологической активности ДНК человека значительно выше, чем самые оптимистичные предыдущие оценки.. В обзорном документе Консорциум ENCODE сообщил, что его члены смогли назначить биохимические функции более чем 80% генома. Было обнаружено, что многое из этого участвует в контроле уровней кодирующей ДНК, что составляет менее 1% генома.

Важными новыми элементами «энциклопедии» класса:

Полная карта элементов гиперчувствительности к ДНКазе 1, которая является маркерами-регуляторной ДНК, обычно используемой с генами и позволяющими химическими факторами влиять на их выражение. Карта идентифицировала почти 3 миллиона этого типа, включая все, которые были ранее почти известны, и многие из них - новые.
Лексикон коротких последовательностей ДНК, образующих мотивы узнавания для ДНК-связывающих белков. Было обнаружено 8,4 миллиона таких последовательностей, составляющих часть общей ДНК, примерно в два раза превышающую размер экзома. Было обнаружено, что тысячи промоторов транскрипции используют один стереотипный отпечаток из 50 пар оснований.
Предварительный набросок сети факторов транскрипции человека, то есть факторов, которые связываются с ДНК для стимулирования экспрессии генов. Сеть оказалась, с факторами, которые довольно сложными на разных уровнях, а также с многочисленными петлями различных типов связи.
Измерение доли генома человека, которая может быть транскрибирована в РНК. По оценкам, эта фракция в сумме составляет более 75% от общей ДНК, что намного выше, чем предыдущие оценки. Проект также начал характеризовать типы транскриптов РНК, которые генерируются в различных местах.

Управление и анализ данных

Сбор, хранение, интеграция и отображение различных сгенерированных данных является сложной сложной процедурой. Центр малых данных ENCODE (DCC) организует и отображает данные, наша лабораториями консорциума соответствует данным определенным стандартам качества, когда они публикуются. Прежде чем лаборатория представит какие-либо данные, DCC и лаборатория объединяют данные, в которых находятся экспериментальные параметры и связанные с метаданными. DCC проверяет входящие данные, чтобы соглашаться. Это также гарантирует, что все данные аннотируются с использованием соответствующих онтологий. Затем он загружает данные на тестовый сервер для предварительной проверки и координирует работу с лабораториями, чтобы организовать данные в согласованный набор треков. Когда треки готовы, группа обеспечения качества DCC выполняет серию проверок целостности, проверяет, представляет ли данные в соответствии с другими данными, и, что, возможно, наиболее важно, проверяет, что метаданные и сопроводительный текст представлен в виде Это полезно для наших пользователей. Данные публикуются на общедоступном веб-сайте UCSC Genome Browser только после выполнения всех этих проверок. Параллельно данные анализируются Центром анализа данных ENCODE - консорциумом аналитических групп из различных лабораторий и других исследователей. Эти группы представляют собой стандартизированные протоколы для анализа данных новых анализов, определения передовых практик и последовательного набора аналитических методов, таких как стандартизованные совокупные значения и генерация сигналов из выравнивания Национальный институт исследования генома человека (NHGRI) определил ENCODE как «проект общественных ресурсов». Эта важная концепция была определена на встрече, проведенной в Ft. Лодердейлом в качестве исследовательского проекта 2003 года, специально разработанного и реализованного для создания набора, реагентов или других материалов, основная полезность будет заключаться в качестве ресурса для широкого научного сообщества. Согласно политике раскрытия ENCODE предусматривает, что данные после проверки помещены в общедоступные базы данных и доступны для всех без ограничений данных.

Другие проекты

С продолжением третьего этапа, Консорциум ENCODE стал участвовать в проектах, цели выполняются параллельно проекту ENCODE. Некоторые из этих проектов были частью второй фазы ENCODE.

проект modENCODE

Проект MODel Body ENCyclopedia Of DNA Elements (modENCODE) является продолжением оригинального проекта ENCODE, нацеленного на идентификацию функциональных элементов в выбранных модельных геномах организмов, а именно Drosophila melanogaster и Caenorhabditis elegans. Расширение модельных организмов позволяет проводить биологическую валидацию расчетных и экспериментальных результатов проекта ENCODE, что трудно или невозможно сделать на людях. Финансирование проекта modENCODE было объявлено Национальными институтами здравоохранения (NIH) в 2007 году и включало несколько различных исследовательских институтов в США. Проект завершил свою работу в 2012 году.

В конце 2010 года консорциум modENCODE представил свой первый набор результатов с публикациями по аннотации и интегративному анализу геномов червей и мух в Наука. Данные из этих публикаций доступны на веб-сайте modENCODE.

modENCODE был запущен как исследовательская сеть, и консорциум был сформирован из 11 основных проектов, разделенных на червей и мух. Проекты включаются следующие:

Структура гена
Профили экспрессии мРНК и нкРНК
Сайты связывания факторов транскрипции
Модификации и замена гистонов
Структура хроматина
Инициирование и время репликации ДНК
Вариация количества копий.

modERN

MODERN, сокращение от энциклопедии модельных организмов регуляторных сетей, ответвление от проекта modENCODE. Проект группы C. elegans и Drosophila и сфокусирован на идентификации сайтов связывания факторов транскрипции соответствующих объединов. Проект начался одновременно с Фазой III ENCODE и завершить в 2017 году. На сегодняшний день в рамках проекта было проведено 198 экспериментов, около 500 других экспериментов, представленных и в настоящее время обрабатываются DCC.

Геномика генной регуляции

В начале 2015 года NIH запустил программу «Геномика генной регуляции» (GGR). Целью программы, рассчитанной на три года, является изучение генных сетей и путей в различных системах организма с надеждой на дальнейшее понимание механизмов, контролирующих экспрессию генов. Несмотря на то, что проект ENCODE отделен от GGR, ENCODE DCC размещает данные GGR на портале ENCODE.

Дорожная карта

В 2008 году NIH начал Консорциум по картированию эпигеномики «Дорожная карта», цель которого состояла в том, чтобы создать «общедоступный ресурс эпигеномных данных исследований человека для стимулирования фундаментальных исследований в области биологии». и болезней ». В феврале 2015 года консорциум выпустил статью под названием «Интегративный анализ 111 эталонных эпигеномов человека», которая выполнила цель консорциума. Консорциум интегрированная информация и аннотированные регулирующие элементы по 127 эталонным эпигеномам, 16 из которых были частью проекта ENCODE. Данные для проекта Roadmap можно найти на портале Roadmap или на портале ENCODE.

Проект fruitENCODE

FruitENCODE: энциклопедия элементов ДНК для созревания плодов - это проект ENCODE для растений, который направлен на создание метилирования ДНК, модификаций гистонов, DHS, экспрессии генов, наборов данных факторов транскрипции для все виды мясистых плодов на разных стадиях развития. Предварительные данные можно найти на портале fruitENCODE.

Критика проекта

Хотя консорциум заявляет, что он еще далек от завершения проекта ENCODE, многие отзывы на опубликованные статьи и освещение в новостях, сопровождавших выпуск, были положительными. Редакторы Nature и авторы ENCODE «... сотрудничают в течение многих месяцев, чтобы самый большой всплеск внимания не только исследовательского сообщества, но и широкой публики». Сообщение проекта ENCODE о том, что 80% генома человека выполняет биохимическую функцию, которая описывает результаты проекта как ведущая часть Геном «функциональным» подвергался критике на том основании, что в этом проекте ENCODE использовалось либеральное определение «функционального», а именно все, что транскрибируется, должно быть функциональным. Этот вывод был сделан, несмотря на широко распространенное мнение, основанное на оценках консервации генома из сравнительной геномики, многие элементы ДНК, такие как псевдогены, которые транскрибируются, тем не менее, нефункциональны. Кроме того, в проекте ENCODE особое внимание уделяется чувствительности, а не специфичности, что, возможно, приводит к определению значений ложных срабатываний. Несколько произвольный выбор клеточных линий и факторов транскрипции, а также отсутствие соответствующих контрольных экспериментов были дополнительными серьезными критическими замечаниями в ENCODE, поскольку случайная ДНК имитирует «функциональное» поведение, подобное ENCODE.

В ответ на некоторые критические замечания, другие Ученые утверждали, широко распространенная транскрипция и сплайсинг, которые наблюдаются в геноме человека непосредственно при биохимическом тестировании, являются более точным индикатором генетической функции, чем оценки генома, поскольку все оценки сохранения относительны и их трудно согласовать из-за невероятных вариаций генома даже близкородственных видов, он частично тавтологичен, и эти оценки не основаны на прямом тестировании функциональности генома. Установки, введенные в действие, присвоение 1, 1, 1, 2, 1, 2, 2, 4, 5 (5). Кроме того, большая часть генома, которая оспаривается критиками, по-видимому, участвует в эпигенетической регуляции, такой как экспрессия генов, и, по-видимому, необходима для развития сложных организмов. Результаты ENCODE не обязательно были неожиданными, поскольку увеличение функциональных возможностей было предсказано предыдущими десятилетиями исследований. Кроме того, что проект ENCODE с самого начала масштабирования, основанный на поиске биомедицинских функциональных элементов в геноме, не эволюционных функциональных элементов, которые не являются и тем же, поскольку эволюционный отбор недостаточен и не необходимая функция. Это очень полезный прокси для соответствующих функций, но несовершенный и не единственный.

В ответ на жалобы по поводу определения слова «функция» некоторые отметили, что означает ENCODE определил, что оно означает и потому, что ENCODE был поиск биомедицинских функциональных элементов в геноме, то вывод проекта следует интерпретировать «как утверждение, что 80 »% генома влияет в соответствующих биохимических действиях, которые, скорее всего, имеют причинную роль в явлениях. Считается актуальным для биомедицинских исследований ". Проблема больше связана с различиями в определениях, чем с силой проекта, который заключен в предоставлении данных для дальнейших исследований биохимической активности небелковых кодовых частей ДНК. для своей цели, поскольку теперь существует больше исследовательских работ, использующих данные ENCODE, чем статьи, спорящих по определенным функциям, по состоянию на март 2013 г. Эван Бирни, один из исследователей ENCODE, пишет, что «функция» использовалась для обозначения «функция». специфической биохимической активности », которая включает различные классы анализов: РНК,« широкие »модификации гистонов,« узкие »модификации гистонов, сайты гиперчувствительности к ДНКазе I, Пики ChIP-seq фактор транскрипции, следы ДНКазы, мотивы, связанные с факторами транскрипции, и экзоны

В 2014 году исследователи ENCODE отмечают тили, что в литературе ф ункциональные части генома были идентифицированы по-разному в предыдущих исследованиях в зависимости от используемого подхода. Для идентификации функциональных частей генома человека использовались общие подходы: генетические (основанные на изменениях фенотипа), эволюционные (основанные на сохранении) и биохимические (основанные на биохимическом тестировании и используемом ENCODE).. Все три ограничения: генетические подходы могут упускать функциональные элементы, которые физически не проявляются в организме, эволюционные подходы сталкиваются с трудностями при использовании точного выравнивания многовидовых последовательностей, поскольку геномы даже близкородственных видов значительно различаются, а биохимические подходы, хотя и обладают высокой воспроизводимостью, биохимическими сигнатуры не всегда автоматически на функцию. Они пришли к выводу, что в отличие от эволюционных и генетических данных, биохимические данные предоставляются к разгадке как молекулярные функции, выполняемые ключами генетической основы ДНК, в конечном итоге, все три подхода Могут быть друг с другом. Более, отметили, что биохимические карты, предоставленные ENCODE, они являются наиболее ценными отправными точками для тестирования того, как эти сигнатуры связаны с молекулярными, клеточными и организменными функциями.

Проект также имеет критиковали за его высокую стоимость (в общей сложности ~ 400 миллионов долларов) и поддержку большой науки, которая отнимает деньги у высокопродуктивных исследований, инициированных исследователей. Стоимость пилотного проекта ENCODE оценивается в 55 миллионов долларов; Масштабирование составило около 130 миллионов долларов, и Национальный исследовательский институт генома человека США NHGRI может сократить до 123 миллионов долларов на следующий этап. Некоторые исследователи утверждают, что твердой окупаемости этих инвестиций еще предстоит добиться. Были попытки просмотреть литературу на предмет статей, в которых ENCODE играет значительную роль, и с 2012 года было опубликовано 300 статей, 110 из которых были получены из лабораторий, не финансируемых ENCODE. Дополнительная проблема заключается в том, что ENCODE не является уникальным названием, предназначенным исключительно для проекта ENCODE, поэтому слово «кодировать» встречается во многих публикациях по генетике и геномике.

Еще одна серьезная критика заключается в том, что результаты не оправдывают количество времени, потраченного на проект, и что сам проект по сути незавершенный. Хотя его часто сравнивают с Human Genome Project (HGP) и даже называют следующим шагом HGP, HGP имеет четкую конечную точку, которой в настоящее время не хватает ENCODE.

Авторы, кажется, сочувствуют научным проблемам и в то же время пытаются оправдать свои усилия, давая интервью и объясняя детали ENCODE не только научной общественности, но и средствам массовой информации. Они также утверждают, что прошло более полувека от осознания того, что ДНК является наследственным материалом жизни для последовательности человеческого генома, так что их план на следующее столетие будет заключаться в том, чтобы действительно понять саму последовательность..

FactorBook

Анализ данных о связывании факторов транскрипции, сгенерированных проектом ENCODE, в настоящее время доступен в доступном в Интернете репозитории FactorBook. По сути, Factorbook.org - это база данных на основе Wiki для данных о связывании факторов транскрипции, созданных консорциумом ENCODE. В первом выпуске Factorbook содержит:

457 наборов данных ChIP-seq по 119 TF в ряде линий клеток человека
Средние профили модификаций гистонов и расположение нуклеосом вокруг областей связывания TF
Мотивы последовательностей, обогащенные регионами, а также предпочтение расстояния и ориентации между сайтами мотивов.

См. Также

Ссылки

Внешние ссылки