Содержание | |
---|---|
Описание | База данных полного генома |
Связаться | |
Исследовательский центр | Стэнфордский университет |
Лаборатория | Стэнфордский технологический центр генома: Cherry Lab; Ранее: Калифорнийский университет, Санта-Крус |
Авторы | Cricket Alicia Sloan |
Основное упоминание | PMID 26980513 |
Дата выпуска | 2010 (2010) |
Access | |
Веб-сайт | encodeproject.org |
Энциклопедия элементов ДНК (ENCODE ) - это открытый исследовательский проект, цель которого определение функциональных элементов. в геноме человека.
Encode был запущен Национальным исследовательским институтом генома человека США (NHGRI) в сентябре 2003 года. Предполагается, что он является продолжением проекта Проект генома человека, ENCODE Проект направлен на определение всех функциональных элементов в геноме человека.
. В всемирном всемирном консорциуме исследовательских групп, данные, полученные в результате этого проекта, доступны через общедоступные базы данных. Четвертый этап проекта начался в феврале 2017 года.
По оценкам, у людей примерно 20000 кодирующих белки генов, что составляет около 1,5% ДНК в геноме человека. Основная цель проекта ENCODE - определить роль оставшегося компонента генома, большая часть которого традиционно считалась «мусором». Активность и экспрессия генов, кодирующих белок, могут модулироваться с помощью регулома - множества элементов ДНК, таких как промоторы, транскрипционные регуляторные последовательности и области. структуры хроматина и модификации гистона. Считается, что изменения в регуляции активности гена могут нарушить продукцию белка и клеток и привести к заболеванию. Определение местоположения этих регуляторных элементов и их влияния на транскрипцию гена может выявить связи между вариациями экспрессии определенных генов и возникновения заболеваний.
ENCODE - это также задуман как всеобъемлющий ресурс, позволяющий научному сообществу лучше понять, как геном может повлиять на здоровье человека, и «стимулировать новые методы лечения для предотвращения» и лечения этих заболеваний ».
Консорциум ENCODE состоит в основном из ученых, финансируемых Национальным институтом исследования генома человека США (NHGRI). Другие участники вносят вклад в проект, включаются в Консорциум или аналитическую рабочую группу.
Пилотный этап состоял из восьми исследовательских групп и двенадцати групп, участвовавших в этапе разработки технологий ENCODE. После 2007 года количество участников расширилось до 440 ученых из 32 лабораторий по всему миру. На данный момент консорциум состоит из разных центров, которые выполняют разные задачи.
ENCODE является членом Международного консорциума человеческих эпигеномов (IHEC).
ENCODE в настоящее время реализует четыре этапа: пилотный этап и этап разработки технологий, которые были начаты одновременно; и этап производства. Четвертая фаза является продолжением третьей и включает функциональную характеристику и дальнейший интегративный анализ для энциклопедии.
Целью пилотного этапа было определение набора, которое было в соответствии с преимуществами эффективного использования людей высокой производительности и всесторонней эффективности больших участков генома. Пилотный этап был выявлен пробелы в текущем наборе инструментов для обнаружения последовательностей, также были выявлены некоторые методы, использованные к времени, неэффективными или непригодными для крупномасштабного использования. Для достижения этой цели необходимо решить этап технологий ENCODE, чтобы улучшить полученные элементы. Результаты первых двух этапов определилилилилили лучший путь для анализа 99% человеческого генома на экономически эффективном и комплексном этапе производства.
На пилотном этапе были протестированы и сопоставлены методы для тщательного анализа части генома человека. Он организован как открытый консорциум и объединил исследователей с опытом и знаниями для оценки достоинств каждого из разнообразных методов набора, технологий и стратегий. Параллельная фаза разработки технологий проекта была направлена на приложение новых высокопроизводительных методов для определения функциональных элементов. Целью этих методов было определение подходов, которые могли бы всесторонне идентифицировать все функциональные элементы в геноме человека. В рамках пилотного проекта ENCODE Национальный исследовательский институт генома человека (NHGRI) оценил возможности различных подходов к расширению анализа всего генома человека и поиска пробелов в способности идентифицировать функциональные элементы. в геномной последовательности.
Процесс пилотного проекта ENCODE включает тесное взаимодействие между учеными, занимающимися вычислениями, и учеными-экспериментаторами для ряда методов аннотирования генома человека. Набор возможностей, представляющих примерно 1% (30 МБ) генома, выбранный в качестве проанализирован всеми исследователями пилотного проекта ENCODE. Все данные, сгенерированные участники ENCODE в этих регионах, были быстро опубликованы в общедоступных базах данных.
Для использования в пилотном проекте ENCODE, крайние генома человека соответствующие 30 Мб, примерно 1% от генома человека - были отобраны. Эти регионы дейоны для тестирования и оценки эффективности и методы обнаружения функциональных элементов в ДНК человека.
Перед тем, как приступить к выбору цели, было решено, что 50% из 30 МБ будет выбрано вручную, оставшаяся последовательность будет выбираться случайным образом. Двумя критериями для вручную выбранных областей были: 1) наличие хорошо изученных генов или других элементов следовать и 2) наличие значительного количества сравнительных данных последовательностей. С помощью этого метода вручную было выбрано в общей сложности 14,82 МБ, состоящей из 14 целей, размер которых выбирается от 500 КБ до 2 МБ.
Оставшиеся 50% 30 Мб показали состояли из тридцати областей по 500 КБ, выбранных в соответствии со стратегией стратифицированной случайной выборки, основанной на плотности генов и уровне неэкзонной консервации. Решение использовать эти критерии было принято, чтобы хорошая выборку геномных областей, широко различающихся по содержанию генов и других функциональных элементов. Геном человека был разделен на три части - верхние 20%, средние 30% и нижние 50% - по каждой из двух осей: 1) плотность гена и 2) уровень не- экзонных по относительно к ортологической геномной придерживаться мыши (см. Ниже), всего девять слоев. Из каждой страты для пилотного проекта были выбраны три случайных региона. Для тех слоев, которые были недостаточно представлены при ручном выборе, выбран четвертый регион, в результате в общей сложности 30 регионов. Для всех слоев была выделена «резервная» область для использования на случай непредвиденных технических проблем.
Более подробно стратификации были использованы:
Вышеуказанные расчетные используются в пределах неперекрывающихся окон размером 500 кб.
Пилотная фаза была успешно завершена, и результаты были опубликованы в июне 2007 года в Природа и в специальном выпуске Исследование генома ; результаты опубликованные в первой упомянутой статье, расширили коллективные о функциях генома человека в нескольких областях, включая следующие основные моменты:
В сентябре 2007 года Национальный исследовательский институт генома человека (NHGRI) начал финансирование производственной фазы проекта ENCODE. На этом этапе состояла в том, чтобы проанализировать весь геном и провести «дополнительные пилотные исследования».
Как и в пилотном проекте, производственные усилия организованы в виде открытогоорциума. В октябре 2007 года NHGRI предоставила гранты на общую сумму более 80 миллионов долларов на четыре года. Этап производства также включает в себя центр средних данных, центр анализа данных и усилий по разработке технологий. В то время как проект превратился в поистинеальное предприятие, участвовали 440 ученых из 32 лабораторий по всему миру. После завершения пилотного этапа проект «расширился» в 2007 году, получив огромную прибыль от секвенсорных машин нового поколения. И действительно данных было много; исследователи создали около 15 терабайт необработанных данных.
К 2010 году в рамках проекта ENCODE было создано более 1000 наборов данных по всему геному. Взятые вместе, эти наборы показывают, какие области транскрибируются в РНК, какие области, вероятно, контролируют гены, которые используются в конкретном типе клеток, и связаны с широким спектром белков. Основными анализами, используемыми в ENCODE, являются ChIP-seq, ДНКаза I гиперчувствительность, RNA-seq и анализы метилирования ДНК.
В сентябре 2012 года в рамках проекта был опубликован гораздо более обширный набор результатов - 30 статей, опубликованных в нескольких журналах, включая шесть Природа, шесть в Биология генома и специальный выпуск с 18 публикаций Исследования генома.
. Авторы описали создание и первоначальный анализ 1640 наборов данных, предназначенных для аннотирования функциональных элементов всего генома человека, объединяя результаты различных экспериментов в пределах типов., связанные эксперименты с участием 147 различных типов клеток и все данные, такие как кандидаты из ассоциативных исследований (GWAS ) и эволюционные ограниченные. Вместе эти усилия выявили важные особенности и функции человеческого генома, которые были резюмированы в обзорной статье следующим образом:
наиболее поразительным открытием, что доля биологической активности ДНК человека значительно выше, чем самые оптимистичные предыдущие оценки.. В обзорном документе Консорциум ENCODE сообщил, что его члены смогли назначить биохимические функции более чем 80% генома. Было обнаружено, что многое из этого участвует в контроле уровней кодирующей ДНК, что составляет менее 1% генома.
Важными новыми элементами «энциклопедии» класса:
Сбор, хранение, интеграция и отображение различных сгенерированных данных является сложной сложной процедурой. Центр малых данных ENCODE (DCC) организует и отображает данные, наша лабораториями консорциума соответствует данным определенным стандартам качества, когда они публикуются. Прежде чем лаборатория представит какие-либо данные, DCC и лаборатория объединяют данные, в которых находятся экспериментальные параметры и связанные с метаданными. DCC проверяет входящие данные, чтобы соглашаться. Это также гарантирует, что все данные аннотируются с использованием соответствующих онтологий. Затем он загружает данные на тестовый сервер для предварительной проверки и координирует работу с лабораториями, чтобы организовать данные в согласованный набор треков. Когда треки готовы, группа обеспечения качества DCC выполняет серию проверок целостности, проверяет, представляет ли данные в соответствии с другими данными, и, что, возможно, наиболее важно, проверяет, что метаданные и сопроводительный текст представлен в виде Это полезно для наших пользователей. Данные публикуются на общедоступном веб-сайте UCSC Genome Browser только после выполнения всех этих проверок. Параллельно данные анализируются Центром анализа данных ENCODE - консорциумом аналитических групп из различных лабораторий и других исследователей. Эти группы представляют собой стандартизированные протоколы для анализа данных новых анализов, определения передовых практик и последовательного набора аналитических методов, таких как стандартизованные совокупные значения и генерация сигналов из выравнивания Национальный институт исследования генома человека (NHGRI) определил ENCODE как «проект общественных ресурсов». Эта важная концепция была определена на встрече, проведенной в Ft. Лодердейлом в качестве исследовательского проекта 2003 года, специально разработанного и реализованного для создания набора, реагентов или других материалов, основная полезность будет заключаться в качестве ресурса для широкого научного сообщества. Согласно политике раскрытия ENCODE предусматривает, что данные после проверки помещены в общедоступные базы данных и доступны для всех без ограничений данных.
С продолжением третьего этапа, Консорциум ENCODE стал участвовать в проектах, цели выполняются параллельно проекту ENCODE. Некоторые из этих проектов были частью второй фазы ENCODE.
Проект MODel Body ENCyclopedia Of DNA Elements (modENCODE) является продолжением оригинального проекта ENCODE, нацеленного на идентификацию функциональных элементов в выбранных модельных геномах организмов, а именно Drosophila melanogaster и Caenorhabditis elegans. Расширение модельных организмов позволяет проводить биологическую валидацию расчетных и экспериментальных результатов проекта ENCODE, что трудно или невозможно сделать на людях. Финансирование проекта modENCODE было объявлено Национальными институтами здравоохранения (NIH) в 2007 году и включало несколько различных исследовательских институтов в США. Проект завершил свою работу в 2012 году.
В конце 2010 года консорциум modENCODE представил свой первый набор результатов с публикациями по аннотации и интегративному анализу геномов червей и мух в Наука. Данные из этих публикаций доступны на веб-сайте modENCODE.
modENCODE был запущен как исследовательская сеть, и консорциум был сформирован из 11 основных проектов, разделенных на червей и мух. Проекты включаются следующие:
MODERN, сокращение от энциклопедии модельных организмов регуляторных сетей, ответвление от проекта modENCODE. Проект группы C. elegans и Drosophila и сфокусирован на идентификации сайтов связывания факторов транскрипции соответствующих объединов. Проект начался одновременно с Фазой III ENCODE и завершить в 2017 году. На сегодняшний день в рамках проекта было проведено 198 экспериментов, около 500 других экспериментов, представленных и в настоящее время обрабатываются DCC.
В начале 2015 года NIH запустил программу «Геномика генной регуляции» (GGR). Целью программы, рассчитанной на три года, является изучение генных сетей и путей в различных системах организма с надеждой на дальнейшее понимание механизмов, контролирующих экспрессию генов. Несмотря на то, что проект ENCODE отделен от GGR, ENCODE DCC размещает данные GGR на портале ENCODE.
В 2008 году NIH начал Консорциум по картированию эпигеномики «Дорожная карта», цель которого состояла в том, чтобы создать «общедоступный ресурс эпигеномных данных исследований человека для стимулирования фундаментальных исследований в области биологии». и болезней ». В феврале 2015 года консорциум выпустил статью под названием «Интегративный анализ 111 эталонных эпигеномов человека», которая выполнила цель консорциума. Консорциум интегрированная информация и аннотированные регулирующие элементы по 127 эталонным эпигеномам, 16 из которых были частью проекта ENCODE. Данные для проекта Roadmap можно найти на портале Roadmap или на портале ENCODE.
FruitENCODE: энциклопедия элементов ДНК для созревания плодов - это проект ENCODE для растений, который направлен на создание метилирования ДНК, модификаций гистонов, DHS, экспрессии генов, наборов данных факторов транскрипции для все виды мясистых плодов на разных стадиях развития. Предварительные данные можно найти на портале fruitENCODE.
Хотя консорциум заявляет, что он еще далек от завершения проекта ENCODE, многие отзывы на опубликованные статьи и освещение в новостях, сопровождавших выпуск, были положительными. Редакторы Nature и авторы ENCODE «... сотрудничают в течение многих месяцев, чтобы самый большой всплеск внимания не только исследовательского сообщества, но и широкой публики». Сообщение проекта ENCODE о том, что 80% генома человека выполняет биохимическую функцию, которая описывает результаты проекта как ведущая часть Геном «функциональным» подвергался критике на том основании, что в этом проекте ENCODE использовалось либеральное определение «функционального», а именно все, что транскрибируется, должно быть функциональным. Этот вывод был сделан, несмотря на широко распространенное мнение, основанное на оценках консервации генома из сравнительной геномики, многие элементы ДНК, такие как псевдогены, которые транскрибируются, тем не менее, нефункциональны. Кроме того, в проекте ENCODE особое внимание уделяется чувствительности, а не специфичности, что, возможно, приводит к определению значений ложных срабатываний. Несколько произвольный выбор клеточных линий и факторов транскрипции, а также отсутствие соответствующих контрольных экспериментов были дополнительными серьезными критическими замечаниями в ENCODE, поскольку случайная ДНК имитирует «функциональное» поведение, подобное ENCODE.
В ответ на некоторые критические замечания, другие Ученые утверждали, широко распространенная транскрипция и сплайсинг, которые наблюдаются в геноме человека непосредственно при биохимическом тестировании, являются более точным индикатором генетической функции, чем оценки генома, поскольку все оценки сохранения относительны и их трудно согласовать из-за невероятных вариаций генома даже близкородственных видов, он частично тавтологичен, и эти оценки не основаны на прямом тестировании функциональности генома. Установки, введенные в действие, присвоение 1, 1, 1, 2, 1, 2, 2, 4, 5 (5). Кроме того, большая часть генома, которая оспаривается критиками, по-видимому, участвует в эпигенетической регуляции, такой как экспрессия генов, и, по-видимому, необходима для развития сложных организмов. Результаты ENCODE не обязательно были неожиданными, поскольку увеличение функциональных возможностей было предсказано предыдущими десятилетиями исследований. Кроме того, что проект ENCODE с самого начала масштабирования, основанный на поиске биомедицинских функциональных элементов в геноме, не эволюционных функциональных элементов, которые не являются и тем же, поскольку эволюционный отбор недостаточен и не необходимая функция. Это очень полезный прокси для соответствующих функций, но несовершенный и не единственный.
В ответ на жалобы по поводу определения слова «функция» некоторые отметили, что означает ENCODE определил, что оно означает и потому, что ENCODE был поиск биомедицинских функциональных элементов в геноме, то вывод проекта следует интерпретировать «как утверждение, что 80 »% генома влияет в соответствующих биохимических действиях, которые, скорее всего, имеют причинную роль в явлениях. Считается актуальным для биомедицинских исследований ". Проблема больше связана с различиями в определениях, чем с силой проекта, который заключен в предоставлении данных для дальнейших исследований биохимической активности небелковых кодовых частей ДНК. для своей цели, поскольку теперь существует больше исследовательских работ, использующих данные ENCODE, чем статьи, спорящих по определенным функциям, по состоянию на март 2013 г. Эван Бирни, один из исследователей ENCODE, пишет, что «функция» использовалась для обозначения «функция». специфической биохимической активности », которая включает различные классы анализов: РНК,« широкие »модификации гистонов,« узкие »модификации гистонов, сайты гиперчувствительности к ДНКазе I, Пики ChIP-seq фактор транскрипции, следы ДНКазы, мотивы, связанные с факторами транскрипции, и экзоны
В 2014 году исследователи ENCODE отмечают тили, что в литературе ф ункциональные части генома были идентифицированы по-разному в предыдущих исследованиях в зависимости от используемого подхода. Для идентификации функциональных частей генома человека использовались общие подходы: генетические (основанные на изменениях фенотипа), эволюционные (основанные на сохранении) и биохимические (основанные на биохимическом тестировании и используемом ENCODE).. Все три ограничения: генетические подходы могут упускать функциональные элементы, которые физически не проявляются в организме, эволюционные подходы сталкиваются с трудностями при использовании точного выравнивания многовидовых последовательностей, поскольку геномы даже близкородственных видов значительно различаются, а биохимические подходы, хотя и обладают высокой воспроизводимостью, биохимическими сигнатуры не всегда автоматически на функцию. Они пришли к выводу, что в отличие от эволюционных и генетических данных, биохимические данные предоставляются к разгадке как молекулярные функции, выполняемые ключами генетической основы ДНК, в конечном итоге, все три подхода Могут быть друг с другом. Более, отметили, что биохимические карты, предоставленные ENCODE, они являются наиболее ценными отправными точками для тестирования того, как эти сигнатуры связаны с молекулярными, клеточными и организменными функциями.
Проект также имеет критиковали за его высокую стоимость (в общей сложности ~ 400 миллионов долларов) и поддержку большой науки, которая отнимает деньги у высокопродуктивных исследований, инициированных исследователей. Стоимость пилотного проекта ENCODE оценивается в 55 миллионов долларов; Масштабирование составило около 130 миллионов долларов, и Национальный исследовательский институт генома человека США NHGRI может сократить до 123 миллионов долларов на следующий этап. Некоторые исследователи утверждают, что твердой окупаемости этих инвестиций еще предстоит добиться. Были попытки просмотреть литературу на предмет статей, в которых ENCODE играет значительную роль, и с 2012 года было опубликовано 300 статей, 110 из которых были получены из лабораторий, не финансируемых ENCODE. Дополнительная проблема заключается в том, что ENCODE не является уникальным названием, предназначенным исключительно для проекта ENCODE, поэтому слово «кодировать» встречается во многих публикациях по генетике и геномике.
Еще одна серьезная критика заключается в том, что результаты не оправдывают количество времени, потраченного на проект, и что сам проект по сути незавершенный. Хотя его часто сравнивают с Human Genome Project (HGP) и даже называют следующим шагом HGP, HGP имеет четкую конечную точку, которой в настоящее время не хватает ENCODE.
Авторы, кажется, сочувствуют научным проблемам и в то же время пытаются оправдать свои усилия, давая интервью и объясняя детали ENCODE не только научной общественности, но и средствам массовой информации. Они также утверждают, что прошло более полувека от осознания того, что ДНК является наследственным материалом жизни для последовательности человеческого генома, так что их план на следующее столетие будет заключаться в том, чтобы действительно понять саму последовательность..
Анализ данных о связывании факторов транскрипции, сгенерированных проектом ENCODE, в настоящее время доступен в доступном в Интернете репозитории FactorBook. По сути, Factorbook.org - это база данных на основе Wiki для данных о связывании факторов транскрипции, созданных консорциумом ENCODE. В первом выпуске Factorbook содержит: