Проекты генома научный стремится к тому, чтобы y стремятся определить полную последовательность генома организма (будь то животное, растение, гриб, бактерия, архея, протист или вирус ) и для аннотирования кодирующих белок генов и другие важные особенности, закодированные в геноме. Геномная последовательность организма включает в себя коллективные последовательности ДНК каждой хромосомы в организме. Для бактерии , содержащей одну хромосому, проект генома будет направлен на отображение последовательности этой хромосомы. Для человеческого вида, геном которого включает 22 пары аутосом и 2 половые хромосомы, полная последовательность генома будет включать 46 отдельных последовательностей хромосом.
Проект «Геном человека» был знаковым проектом в области генома, который уже оказывает большое влияние на исследования в области наук о жизни, с потенциалом стимулирования многочисленных медицинских и коммерческих разработок.
Сборка генома относится к процессу взятия большого количества коротких последовательностей ДНК и их объединения вместе, чтобы создать представление оригинала хромосомы, из которых произошла ДНК. В проекте секвенирования вся ДНК из источника (обычно от одного организма, от бактерии до млекопитающего ) сначала раскололся на миллионы маленьких кусочков. Затем эти фрагменты «считываются» автоматическими секвенаторами, которые могут считывать до 1000 нуклеотидов или оснований за раз. (Четыре основания - это аденин, гуанин, цитозин и тимин, представленные как AGCT.) Алгоритм сборки генома работает, беря все части и выравнивая их друг относительно друга, и обнаруживая все места, где две короткие последовательности или считывания перекрываются. Эти перекрывающиеся чтения могут быть объединены, и процесс продолжается.
Сборка генома - очень сложная вычислительная задача, которая усложняется тем, что многие геномы содержат большое количество идентичных последовательностей, известных как повторы. Эти повторы могут иметь длину в тысячи нуклеотидов, и некоторые из них встречаются в тысячах разных мест, особенно в больших геномах растений и животных.
. Результирующая (черновая) последовательность генома получается путем объединения информация упорядочена по контигам с последующим использованием связывающей информации для создания каркасов. Каркасы располагаются вдоль физической карты хромосом, образуя «золотой путь».
Первоначально большинство крупных центров секвенирования ДНК разрабатывали собственное программное обеспечение для сборки производимых ими последовательностей. Однако это изменилось по мере усложнения программного обеспечения и увеличения числа центров секвенирования. Пример такого ассемблерного пакета анализа коротких олигонуклеотидов, разработанного BGI для сборки de novo геномов человеческого размера, выравнивания, обнаружения SNP, повторного секвенирования, поиска в инсертах, и анализ структурных вариаций.
С 1980-х годов молекулярная биология и биоинформатика создали потребность в аннотации ДНК. Аннотации ДНК или аннотации генома - это процесс идентификации присоединения биологической информации к последовательностям, и, в частности, для определения местоположения генов и определения того, что эти гены делают.
При секвенировании генома обычно есть участки, последовательность которых сложно секвенировать (часто области с сильно повторяющейся ДНК ). Таким образом, «завершенные» последовательности генома редко когда-либо бывают полными, и такие термины, как «рабочий проект» или «по существу завершены», использовались для более точного описания статуса таких геномных проектов. Даже когда каждая пара оснований в последовательности генома была определена, все же вероятно наличие ошибок, потому что секвенирование ДНК не является полностью точным процессом. Можно также утверждать, что полный проект генома должен включать последовательности митохондрий и (для растений) хлоропластов, поскольку эти органеллы имеют свои собственные геномы.
Часто сообщается, что целью секвенирования генома является получение информации о полном наборе генов в этой конкретной последовательности генома. Доля генома, кодирующая гены, может быть очень маленькой (особенно у эукариот, таких как люди, где кодирующая ДНК может составлять лишь несколько процентов от всей последовательности). Однако не всегда возможно (или желательно) отдельно секвенировать только кодирующие области . Кроме того, по мере того, как ученые больше понимают роль этой некодирующей ДНК (часто называемой мусорной ДНК ), станет более важным иметь полную последовательность генома в качестве основы для понимания генетика и биология любого данного организма.
Во многих отношениях проекты генома не ограничиваются только определением последовательности ДНК организма. Такие проекты могут также включать прогнозирование генов, чтобы узнать, где эти гены находятся в геноме и что они делают. Также могут быть связанные проекты с последовательностью EST или мРНК, чтобы помочь выяснить, где на самом деле находятся гены.
Исторически сложилось так, что при секвенировании геномов эукариот (например, червя Caenorhabditis elegans ) обычно сначала отображали геном чтобы обеспечить серию ориентиров по геному. Вместо того, чтобы секвенировать хромосому за один раз, она будет секвенирована по частям (с предварительным знанием приблизительно того, где эта часть расположена на большей хромосоме). Изменения в технологии и, в частности, улучшение вычислительной мощности компьютеров означает, что теперь геномы могут быть «секвенированы » за один раз (хотя у этого подхода есть оговорки по сравнению с традиционным подходом).
Усовершенствования в технологии секвенирования ДНК привели к тому, что стоимость секвенирования новой последовательности генома неуклонно снижалась (с точки зрения затрат на пару оснований ), и появились новые технологии. также означало, что геномы можно секвенировать гораздо быстрее.
Когда исследовательские агентства решают, какие новые геномы секвенировать, упор делается на виды, которые либо имеют большое значение как модельный организм, либо имеют отношение к здоровью человека (например, патогенные бактерии или переносчики болезней, такие как комары ) или виды, имеющие коммерческое значение (например, домашний скот и культурные растения). Вторичный упор делается на виды, геномы которых помогут ответить на важные вопросы молекулярной эволюции (например, обыкновенный шимпанзе ).
В будущем секвенирование генома, вероятно, станет еще дешевле и быстрее. Это позволит определить полные последовательности генома у многих разных особей одного и того же вида. Для людей это позволит нам лучше понять аспекты генетического разнообразия человека.
Многие организмы имеют проекты генома, которые либо завершены, либо будут завершены в ближайшее время, в том числе:
В Wikibook Секвенирование следующего поколения (NGS) есть страница по темам: De_novo_assembly |
Викискладе есть медиафайлы, связанные с проектами генома. |