Секвенирование дробовиком

редактировать

В генетике секвенирование дробовика - это метод, используемый для секвенирования случайных ДНК цепей. Он назван по аналогии с быстро расширяющейся, квази-случайной схемой стрельбы из дробовика.

. Метод обрыва цепи в секвенировании ДНК («секвенирование по Сэнгеру») может может использоваться только для коротких цепей ДНК от 100 до 1000 пар оснований. Из-за этого ограничения по размеру более длинные последовательности подразделяются на более мелкие фрагменты, которые можно секвенировать отдельно, и эти последовательности собираются для получения общей последовательности.

Есть два основных метода этого процесса фрагментации и секвенирования. Прогулка по праймеру (или «хромосомная прогулка») проходит через всю цепочку по частям, тогда как секвенирование дробовиком - более быстрый, но более сложный процесс, в котором используются случайные фрагменты.

При секвенировании «дробовиком» ДНК случайным образом разбивается на множество небольших сегментов, которые секвенируются с использованием метода обрыва цепи для получения считываний. Множественные перекрывающиеся считывания для целевой ДНК получают путем выполнения нескольких раундов этой фрагментации и секвенирования. Затем компьютерные программы используют перекрывающиеся концы разных считываний, чтобы собрать их в непрерывную последовательность.

Секвенирование дробовиком было одной из технологий-предшественников, которая обеспечивала полное секвенирование генома.

Содержание
  • 1 Пример
  • 2 Полное геномное секвенирование
    • 2.1 История
    • 2.2 Парное секвенирование
    • 2.3 Подход
    • 2.4 Сборка
    • 2.5 Плюсы и минусы
    • 2.6 Охват
  • 3 Иерархический секвенирование дробовиком
  • 4 Новые технологии секвенирования
  • 5 Метагеномное секвенирование дробовика
  • 6 См. также
  • 7 Ссылки
    • 7.1 Дополнительная литература
  • 8 Внешние ссылки
Пример

Для Например, рассмотрим следующие два цикла чтения дробовика:

StrandSequence
OriginalAGCATGCTGCAGTCATGCTTAGGCTA
Первая последовательность дробовикаAGCATGCTGCAGTCATGCT -------. ------------------- TAGGCTA
Вторая последовательность дробовикаAGCATG --------------------. ------ CTGCAGTCATGCTTAGGCTA
РеконструкцияAGCATGCTGCAGTCATGCTTAGGC TA

В этом чрезвычайно упрощенном примере ни одно из считываний не покрывает полную длину исходной последовательности, но четыре считывания могут быть объединены в исходную последовательность, используя перекрытие их концов для выравнивания и упорядочивания. На самом деле в этом процессе используются огромные объемы информации, изобилующей двусмысленностями и ошибками в последовательности. Сборка сложных геномов дополнительно усложняется большим количеством повторяющихся последовательностей, что означает, что аналогичные короткие чтения могут происходить из совершенно разных частей последовательности.

Для преодоления этих трудностей и точной сборки последовательности необходимо много перекрывающихся считываний для каждого сегмента исходной ДНК. Например, для завершения проекта «Геном человека» большая часть генома человека была секвенирована с 12-кратным или большим охватом; то есть каждое основание в конечной последовательности присутствовало в среднем при 12 различных чтениях. Даже в этом случае существующие методы не смогли выделить или собрать надежную последовательность примерно для 1% (эухроматического ) генома человека по состоянию на 2004 год.

Полное геномное секвенирование

История

Полное геномное секвенирование небольших геномов (от 4000 до 7000 пар оснований) было впервые предложено в 1979 году. Первый геном, секвенированный с помощью дробовика, был геном вируса мозаики цветной капусты, опубликовано в 1981 году.

Парное секвенирование

Более широкое применение выиграло от парного концевого секвенирования, известного в просторечии как секвенирование двуствольного ружья. Поскольку проекты секвенирования начали включать более длинные и сложные последовательности ДНК, несколько групп начали понимать, что полезную информацию можно получить путем секвенирования обоих концов фрагмента ДНК. Хотя секвенирование обоих концов одного и того же фрагмента и отслеживание парных данных было более обременительным, чем секвенирование одного конца двух отдельных фрагментов, знание того, что две последовательности были ориентированы в противоположных направлениях и были длиной примерно с фрагмент отдельно от каждого другой был ценным при восстановлении последовательности исходного целевого фрагмента.

История . Первое опубликованное описание использования парных концов было в 1990 г. как часть секвенирования локуса человеческого HGPRT, хотя использование парных концов было ограничено закрытием пробелов после применения традиционного подхода к секвенированию дробовиком.. Первое теоретическое описание стратегии чистого попарного концевого секвенирования, предполагающей наличие фрагментов постоянной длины, было сделано в 1991 году. В то время в сообществе было единодушное мнение, что оптимальная длина фрагмента для парного концевого секвенирования будет в три раза больше длины чтения последовательности. В 1995 г. и др. представили нововведение в использовании фрагментов разного размера и продемонстрировали, что чистая стратегия попарного конечного секвенирования возможна на больших мишенях. Эта стратегия была впоследствии принята Институтом геномных исследований (TIGR) для секвенирования генома бактерии Haemophilus influenzae в 1995 г., а затем Celera Genomics для секвенировать геном Drosophila melanogaster (плодовая муха) в 2000 году, а затем геном человека.

Подход

Для применения стратегии высокомолекулярная цепь ДНК разрезается на случайные фрагменты, размер которых выбирается (обычно 2, 10, 50 и 150 т.п.н.) и клонировал в соответствующий вектор. Затем клоны секвенируют с обоих концов с использованием метода терминации цепи , получая две короткие последовательности. Каждая последовательность называется считыванием конца или считыванием 1 и считыванием 2, а два считывания из одного и того же клона называются парными парами. Так как метод завершения цепочки обычно может производить считывания длиной от 500 до 1000 оснований, во всех клонах, кроме самых маленьких, пары сопряжений редко перекрываются.

Сборка

Исходная последовательность реконструируется из считываний с использованием программного обеспечения сборки последовательности. Во-первых, перекрывающиеся чтения собираются в более длинные составные последовательности, известные как контиги. Контиги могут быть связаны вместе в каркасы, следуя связям между парами сопряжений. Расстояние между контигами можно определить по позициям пары сопряженных элементов , если известна средняя длина фрагмента библиотеки и имеется узкое окно отклонения. В зависимости от размера промежутка между контигами могут использоваться разные методы для поиска последовательности в промежутках. Если разрыв небольшой (5-20 кБ), то требуется использование полимеразной цепной реакции (ПЦР) для амплификации области с последующим секвенированием. Если разрыв большой (>20 КБ), то большой фрагмент клонируется в специальных векторах, таких как бактериальные искусственные хромосомы (ВАС), с последующим секвенированием вектора.

Плюсы и минусы

Сторонники этого подхода утверждают, что можно секвенировать весь геном за один раз, используя большие массивы секвенсоров, что значительно упрощает весь процесс эффективнее, чем более традиционные подходы. Противники утверждают, что, хотя этот метод позволяет быстро секвенировать большие области ДНК, ее способность правильно связывать эти области является подозрительной, особенно для геномов с повторяющимися областями. По мере того как программы сборки последовательности становятся более сложными, а вычислительная мощность становится дешевле, это ограничение может быть преодолено.

Покрытие

Покрытие (глубина чтения или глубина) - это среднее количество считываний, представляющих данный нуклеотид в реконструированной последовательности. Его можно рассчитать, исходя из длины исходного генома (G), количества чтений (N) и средней длины чтения (L) как N × L / G {\ displaystyle N \ times L / G}N \ times L / G . Например, гипотетический геном с 2000 пар оснований, реконструированный из 8 считываний со средней длиной 500 нуклеотидов, будет иметь двукратную избыточность. Этот параметр также позволяет оценить другие величины, такие как процент генома, покрытого чтениями (иногда также называемое покрытием). Желателен высокий охват в секвенировании дробовика, поскольку он может преодолеть ошибки в вызове базы и сборке. Тема теории секвенирования ДНК касается взаимосвязи таких величин.

Иногда различают покрытие последовательности и физическое покрытие. Покрытие последовательностей - это среднее количество считываний базы (как описано выше). Физический охват - это среднее количество раз, когда база считывается или охватывается парными считываниями партнеров.

Иерархическое секвенирование дробовика
При секвенировании целого генома (вверху) весь геном случайным образом разбивается на мелкие фрагменты ( подходящего размера для секвенирования), а затем снова собрали. При иерархическом секвенировании (внизу) геном сначала разбивается на более крупные сегменты. После того, как порядок этих сегментов определен, они далее разделяются на фрагменты соответствующего размера для секвенирования.

Хотя секвенирование с дробовиком теоретически может быть применено к геному любого размера, его прямое применение для секвенирования больших геномов (например,, геном человека ) был ограничен до конца 1990-х годов, когда технологические достижения сделали практическую обработку огромных объемов сложных данных, задействованных в этом процессе. Исторически считалось, что полногеномное секвенирование с дробовиком ограничено как самим размером больших геномов, так и сложностью, добавленной высоким процентом повторяющейся ДНК (более 50% для генома человека), присутствующей в больших геномах. Не было широко признано, что полногеномная последовательность большого генома может обеспечить надежные данные. По этим причинам другие стратегии, которые снижали вычислительную нагрузку на сборку последовательности, должны были быть использованы до выполнения секвенирования дробовика. При иерархическом секвенировании, также известном как секвенирование сверху вниз, перед фактическим секвенированием составляется физическая карта генома с низким разрешением. По этой карте для секвенирования выбирается минимальное количество фрагментов, покрывающих всю хромосому. Таким образом, требуется минимальный объем высокопроизводительного секвенирования и сборки.

Амплифицированный геном сначала разрезают на более крупные части (50-200kb) и клонируют в бактериального хозяина с использованием ВАС или искусственных хромосом, полученных из P1 (PAC). Поскольку несколько копий генома были разрезаны случайным образом, фрагменты, содержащиеся в этих клонах, имеют разные концы, и при достаточном охвате (см. Раздел выше) обнаруживается каркас из контигов BAC, который покрывает весь геном теоретически возможен. Этот каркас называется тайлинг-путем .

BAC-контиг, который охватывает всю интересующую геномную область, составляет тайлинг-путь.

После того, как тайлинг-путь был найден, BAC, образующие этот путь, срезаются на случайным образом на более мелкие фрагменты и может быть упорядочен с использованием метода дробовика в меньшем масштабе.

Хотя полные последовательности контигов ВАС неизвестны, известны их ориентации относительно друг друга. Существует несколько методов определения этого порядка и выбора BAC, составляющих траекторию листов. Общая стратегия включает идентификацию положений клонов относительно друг друга, а затем выбор наименьшего количества клонов, необходимых для формирования непрерывного каркаса, который покрывает всю интересующую область. Порядок клонов определяется путем определения способа их перекрытия. Перекрывающиеся клоны можно идентифицировать несколькими способами. Небольшой радиоактивно или химически меченый зонд, содержащий участок , помеченный последовательностью (STS), может быть гибридизирован на микроматрице, на которой печатаются клоны. Таким образом идентифицируются все клоны, содержащие определенную последовательность в геноме. Конец одного из этих клонов затем можно секвенировать, чтобы получить новый зонд, и процесс повторить в методе, называемом хромосомным хождением.

В качестве альтернативы, библиотека BAC может быть издана ограничением-дайджестом. Считается, что два клона, которые имеют несколько общих размеров фрагментов, перекрываются, потому что они содержат несколько общих сайтов рестрикции с одинаковым разнесением. Этот метод геномного картирования называется рестрикционным фингерпринтингом, потому что он идентифицирует набор рестрикционных сайтов, содержащихся в каждом клоне. После того, как совпадение между клонами было обнаружено и их порядок относительно генома известен, каркас минимального подмножества этих контигов, который покрывает весь геном, секвенируется с дробовиком.

Поскольку это включает в себя сначала создание низкого -Разрешение карты генома, иерархическое секвенирование с дробовиком выполняется медленнее, чем секвенирование с дробовиком всего генома, но в меньшей степени зависит от компьютерных алгоритмов, чем секвенирование с дробовиком всего генома. Однако процесс создания обширной библиотеки BAC и выбора траектории мозаики делает иерархическое упорядочение дробовика медленным и трудоемким. Теперь, когда технология доступна и надежность данных продемонстрирована, скорость и экономическая эффективность полногеномного секвенирования сделали его основным методом секвенирования генома.

Новые технологии секвенирования

Классическое секвенирование методом дробовика было основано на методе секвенирования по Сэнгеру: это был самый продвинутый метод секвенирования геномов примерно с 1995 по 2005 год. Стратегия дробовика все еще применяется сегодня, однако с использованием других технологий секвенирования, таких как секвенирование с коротким чтением и секвенирование с длинным чтением.

Секвенирование с коротким считыванием или секвенирование «следующего поколения» дает более короткие чтения (где-то от 25 до 500 б.п.), но многие сотни тысяч или миллионы операций чтения за относительно короткое время (порядка дня). Это приводит к большому охвату, но процесс сборки требует гораздо больших вычислительных ресурсов. Эти технологии значительно превосходят секвенирование по Сэнгеру из-за большого объема данных и относительно короткого времени, необходимого для секвенирования всего генома.

Метагеномное секвенирование с дробовиком

Считывание 400-500 оснований длины пар достаточно для определения вида / штамма организма, из которого происходит ДНК, при условии, что его геном уже известен, с использованием, например, программного обеспечения таксономического классификатора на основе k-мер. Благодаря миллионам считываний, полученных в результате секвенирования следующего поколения образца окружающей среды, можно получить полный обзор любого сложного микробиома с тысячами видов, например кишечной флоры. Преимущества перед 16S рРНК секвенирование ампликона : не ограничиваются бактериями; классификация на уровне штаммов, при которой при секвенировании ампликона определяется только род; и возможность извлекать целые гены и определять их функцию как часть метагенома. Чувствительность метагеномного секвенирования делает его привлекательным выбором для клинического использования. Однако это подчеркивает проблему загрязнения образца или конвейера секвенирования.

См. Также
Ссылки

Дополнительная литература

Внешние ссылки

Эта статья включает материалы, являющиеся общественным достоянием из документа Национального центра биотехнологической информации : «Руководство NCBI».

Последняя правка сделана 2021-06-08 06:49:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте