Дуплексное секвенирование

редактировать
Рисунок 2) Обзор дуплексного секвенирования: Дуплексные библиотеки с тегами, содержащие адаптеры секвенирования, амплифицируются и в результате получается два типа продуктов, каждый из которых происходит из одной цепи ДНК. После секвенирования продуктов ПЦР сгенерированные считывания делятся на семейства тегов в зависимости от положения в геноме, дуплексных тегов и соседнего адаптера секвенирования. Обратите внимание, что тег последовательности α является обратным дополнением тега последовательности β и наоборот.

Дуплексное секвенирование - это библиотечный метод подготовки и анализа для секвенирования следующего поколения (NGS), которые используют случайную маркировку двухцепочечной ДНК для обнаружения мутаций с более высокой точностью и меньшим количеством ошибок. Этот метод использует вырожденные молекулярные теги в дополнение к адаптерам секвенирования для распознавания считываний, исходящих от каждой цепи ДНК. Затем сгенерированные чтения секвенирования будут проанализированы с использованием двух методов: сборка однонитевых консенсусных последовательностей (SSCS) и дуплексных консенсусных последовательностей (DCS). Теоретически дуплексное секвенирование может обнаруживать мутации с частотами всего 5 x 10, что более чем в 10 000 раз выше по точности по сравнению с традиционными методами секвенирования следующего поколения.

Предполагаемая частота ошибок стандартных платформ секвенирования следующего поколения составляет 10–10 на базовый вызов. При такой частоте ошибок миллиарды базовых вызовов, производимые NGS, приведут к миллионам ошибок. Ошибки возникают во время подготовки образцов и секвенирования, такие как полимеразная цепная реакция, ошибки секвенирования и анализа изображений. Хотя частота ошибок платформ NGS допустима для некоторых приложений, таких как обнаружение клональных вариантов, это основной предел для приложений, требующих более высокой точности для обнаружения низкочастотных вариантов, таких как обнаружение внутриорганизменных мозаицизм, субклональные варианты в генетически гетерогенных раковых опухолях или циркулирующей опухолевой ДНК.

Было разработано несколько стратегий подготовки библиотек, которые повышают точность платформ NGS, таких как молекулярное штрих-кодирование и метод циклического консенсуса. Данные, полученные этими методами, так же как и платформы NGS, происходят из одной цепи ДНК и, следовательно, ошибки, которые вносятся во время ПЦР-амплификации, обработки ткани, экстракции ДНК, гибридизация-захват (если используется) или секвенирование ДНК само по себе все же можно выделить как истинный вариант. Метод дуплексного секвенирования решает эту проблему, используя преимущества комплементарной природы двух цепей ДНК и подтверждая только варианты, которые присутствуют в обеих цепях ДНК. Поскольку вероятность двух дополнительных ошибок, возникающих в одном и том же месте в обеих цепях, чрезвычайно мала, дуплексное секвенирование значительно повышает точность секвенирования.

Содержание
  • 1 Экспериментальный рабочий процесс
    • 1.1 Отжиг адаптера
    • 1.2 Синтез адаптера
    • 1.3 3'-dT-хвост
    • 1.4 Подготовка библиотеки
    • 1.5 Лигирование адаптера
    • 1.6 Вставка адаптеров секвенирования в тегированные библиотеки
    • 1.7 Соображения
      • 1.7.1 Эффективность лигирования адаптера
      • 1.7.2 Размер семейства тегов
  • 2 Вычислительный процесс
    • 2.1 Фильтрация и обрезка
    • 2.2 Сборка SSCS
    • 2.3 Сборка DCS
  • 3 Преимущества
    • 3.1 Уменьшение частоты ошибок при секвенировании
    • 3.2 Повышение точности вызова вариантов
    • 3.3 Применимо к большинству платформ NGS
  • 4 Ограничения
    • 4.1 Стоимость
    • 4.2 Практическое применение
  • 5 Приложения
    • 5.1 Обнаружение вариантов с низкими частотами
    • 5.2 Определение количества копий
  • 6 Анализ и программное обеспечение
  • 7 См. Также
  • 8 Ссылки
Экспериментальный рабочий процесс

Адаптеры с тегами дуплексного секвенирования могут использоваться в сочетании с большинством адаптеров NGS. На рисунках и в разделе рабочего процесса этой статьи адаптеры секвенирования Illumina используются в качестве примера в соответствии с исходным опубликованным протоколом.

Рисунок 1) Рабочий процесс подготовки библиотеки дуплексного секвенирования: Два адаптера-олигонуклеотида идут через несколько этапов (отжиг, синтез, dT-хвосты) для создания двухцепочечных уникальных тегов с 3'-dT-выступами. Затем адаптеры дуплексных меток лигируют с матрицами двухцепочечной ДНК. Наконец, адаптеры секвенирования Illumina вставляются во фрагменты меченой ДНК и образуют конечные библиотеки, содержащие адаптеры DS, адаптеры секвенирования Illumina и матричную ДНК.

Отжиг адаптера

На этом этапе используются два олигонуклеотида (рис. 1: Адаптер oligos). Один из олигонуклеотидов содержит 12-нуклеотидную одноцепочечную случайную последовательность метки, за которой следует фиксированная 5'-нуклеотидная последовательность (последовательность черного на фиг.1). На этом этапе олигонуклеотиды подвергаются отжигу в комплементарной области путем инкубации в необходимых временных условиях.

Синтез адаптера

Адаптеры, которые отожженные успешно расширяются и синтезируются ДНК-полимеразой для завершения двухцепочечного адаптера, содержащего комплементарные теги (рис. 1).

3'-dT-tailing

Удлиненные двухцепочечные адаптеры расщепляются HpyCH4III на конкретном сайте рестрикции, расположенном на 3'-стороне последовательности метки, и в результате образуется выступ 3'-dT, который будет лигирован к выступу 3'-dA на библиотеках ДНК на этапе лигирования адаптера (рис. 1).

Подготовка библиотеки

Двухцепочечная ДНК разрезана с использованием одного из методов: Обработка ультразвуком, ферментативное расщепление или распыление. Размер фрагментов подбирается с помощью бусинок Ampure XP. Выбор размера на основе геля не рекомендуется для этого метода, поскольку он может вызвать плавление двойных цепей ДНК и повреждение ДНК в результате УФ-облучения. Отобранные по размеру фрагменты ДНК подвергаются 3'-концевому dA-хвосту.

Лигирование адаптера

На этом этапе два помеченных адаптера лигируют от 3'-dT-хвостов к 3 ' -dA-хвосты на обеих сторонах фрагментов библиотеки двухцепочечной ДНК. В результате этого процесса получаются двухцепочечные фрагменты библиотеки, которые содержат два случайных тега (α и β) на каждой стороне, которые являются обратным дополнением друг друга (рис. 1 и 2). Отношение «ДНК: адаптер» имеет решающее значение для определения успеха лигирования.

Вставка адаптеров секвенирования в библиотеки с тегами

На последнем этапе подготовки библиотеки дуплексного секвенирования добавляются адаптеры секвенирования Illumina к меченым двухцепочечным библиотекам путем ПЦР-амплификации с использованием праймеров, содержащих адаптеры для секвенирования. Во время ПЦР амплификации обе комплементарные цепи ДНК амплифицируются и генерируют два типа продуктов ПЦР. Продукт 1 происходит из цепи 1, которая имеет уникальную последовательность тегов (обозначенную α на рисунке 2) рядом с адаптером Illumina 1 и продукт 2, у которого есть уникальный тег (называемый β на рисунке 2) рядом с адаптером Illumina 1. (Пожалуйста обратите внимание, что в каждой цепи тег α является обратным дополнением тега β и наоборот). Библиотеки, содержащие дуплексные теги и адаптеры Illumina, секвенируются с помощью системы Illumina TruSeq. Считывания, исходящие от каждой отдельной цепи ДНК, образуют группу считываний (семейств тегов), которые используют один и тот же тег. Обнаруженные семейства считываний будут использоваться на следующем этапе для анализа данных секвенирования.

Соображения

Эффективность лигирования адаптера

Эффективность лигирования адаптера очень важна для успешного дуплексного секвенирования. Избыточное количество библиотек или адаптеров может повлиять на баланс ДНК: адаптер и, следовательно, привести к неэффективному лигированию и избыточному количеству димеров праймеров соответственно. Следовательно, важно поддерживать молярную концентрацию ДНК: адаптер в оптимальном соотношении, равном 0,05.

Размер семейства тегов

Эффективность дуплексного секвенирования зависит от конечного количества DCS, которое непосредственно зависит от количества чтений в каждой семье (размер семьи). Если размер семейства слишком мал, то DCS не может быть собран, и если слишком много операций чтения используют один и тот же тег, объем данных будет низким. Размер семьи определяется количеством ДНК-матрицы для ПЦР-амплификации и выделенной фракции секвенирования. Оптимальный размер семейства тегов составляет от 6 до 12 членов. Для получения оптимального размера семьи необходимо отрегулировать количество ДНК-матрицы и выделенную фракцию секвенирования. Следующая формула учитывает наиболее важные переменные, которые могут повлиять на глубину покрытия (N = 40DG ÷ R), где «N» - количество считываний, «D» - желаемая глубина покрытия, «G» - размер ДНК-мишени в basepair, а «R» - окончательная длина чтения.

Вычислительный процесс

Фильтрация и обрезка

Каждое считывание дуплексного секвенирования содержит фиксированную 5-нуклеотидную последовательность (показанную на рисунках черным цветом), расположенную выше по течению 12-нуклеотидной последовательности метки. Считывания отфильтровываются, если они не имеют ожидаемой 5-нуклеотидной последовательности или имеют более девяти идентичных или неоднозначных оснований в каждом теге. Два 12-нуклеотидных тега на каждом конце чтения объединяются и перемещаются в заголовок чтения. Формируются два семейства считываний, которые происходят из двух цепей ДНК. Одно семейство содержит чтения с заголовком αβ, происходящим из цепи 1, а второе семейство содержит чтения с заголовком βα, происходящим из цепи 2 (рисунок 2). Затем считывания обрезаются путем удаления фиксированной последовательности из 5 п.н. и 4 нуклеотидов, подверженных ошибкам, расположенных в местах лигирования и репарации концов. Остальные считывания собираются в консенсусные последовательности с использованием сборки одноцепочечных консенсусных последовательностей (SSCS) и сборки дуплексных консенсусных последовательностей (DCS).

Сборка SSCS

Триммированные последовательности с предыдущего шага выравниваются с эталонным геномом с использованием выравнивателя Берроуза-Уиллера ( BWA) и несопоставленные чтения удаляются. Выровненные считывания, которые имеют одинаковую последовательность тега длиной 24 п.н. и геномную область, обнаруживаются и группируются вместе (семейства αβ и βα на рисунке 2). Каждая группа представляет собой «семейство тегов». Семейства тегов, содержащие менее трех членов, удаляются из анализа. Чтобы удалить ошибки, возникающие во время амплификации или секвенирования ПЦР, мутации, которые поддерживаются менее чем 70% членов (считываний), отфильтровываются из анализа. Затем для каждого семейства генерируется консенсусная последовательность с использованием идентичных последовательностей в каждой позиции оставшихся считываний. Консенсусная последовательность называется однонитевой консенсусной последовательностью (SSCS). Метод SSCS увеличивает точность NGS примерно в 20 раз, однако этот метод основан на информации о секвенировании отдельных цепей ДНК и, следовательно, чувствителен к ошибкам, вызванным в первом раунде или перед амплификацией ПЦР.

DCS Assembly

Считанные данные с последнего шага повторно сопоставляются с эталонным геномом. В этом методе пары семейств SSCS, которые имеют дополнительные теги, будут сгруппированы вместе (семейства αβ и βα на рисунке 2). Эти чтения происходят из двух комплементарных цепей ДНК. Последовательности с высокой степенью достоверности выбираются на основе идеально согласованных базовых требований каждой семьи. Последняя последовательность называется дуплексной консенсусной последовательностью (DCS). Истинные мутации - это те мутации, которые идеально соответствуют комплементарным SSCS. На этом этапе отфильтровываются оставшиеся ошибки, возникшие во время первого раунда амплификации ПЦР или во время подготовки образца.

Преимущества

Снижение частоты ошибок при секвенировании

Высокая частота ошибок (0,01-0,001) стандартных платформ NGS, введенных во время подготовки образцов или секвенирования, является основным ограничением для обнаружения вариантов, присутствующих в небольшой части клеток. Благодаря системе дуплексной маркировки и использованию информации в обеих цепях ДНК, дуплексное секвенирование значительно снизило частоту ошибок при секвенировании примерно в 10 миллионов раз с использованием как метода SSCS, так и метода DCS.

Повышение точности вызова вариантов

Трудно точно идентифицировать редкие варианты с использованием стандартных методов NGS с частотой мутаций (10–10). Ошибки, возникающие на ранних этапах подготовки проб, можно определить как редкие варианты. Примером таких ошибок является C>A / G>T трансверсия, которая обнаруживается на низких частотах с использованием данных глубокого секвенирования или целевого захвата и возникает в результате окисления ДНК во время подготовки образца. Эти типы ложноположительных вариантов отфильтровываются методом дуплексного секвенирования, поскольку мутации должны быть точно сопоставлены в обеих цепях ДНК, чтобы их можно было подтвердить как истинные мутации. Дуплексное секвенирование теоретически может обнаруживать мутации с частотой от 10 до 10 стандартных методов NGS.

Применимо к большинству платформ NGS

Еще одним преимуществом дуплексного секвенирования является то, что его можно использовать в сочетании с большинством платформ NGS без внесения существенных изменений в стандартные протоколы.

Ограничения

Стоимость

Поскольку дуплексное секвенирование обеспечивает значительно более высокую точность секвенирования и использует информацию в обеих цепях ДНК, этот метод требует гораздо большей глубины секвенирования и, следовательно, является дорогостоящий подход. Высокая стоимость дуплексного секвенирования ограничивает его применение в настоящее время для целевого секвенирования и секвенирования ампликона и не будет применяться для подходов к секвенированию всего генома. Однако с уменьшением стоимости NGS применение дуплексного секвенирования для более крупных ДНК-мишеней станет более осуществимым.

Практическое применение

Дуплексное секвенирование - это новый метод, и его эффективность изучалась в ограниченных приложениях, таких как обнаружение точечных мутаций с использованием целевого секвенирования захвата. Необходимо провести дополнительные исследования, чтобы расширить применение и возможность дуплексного секвенирования для более сложных образцов с большим количеством мутаций, отступов и вариаций числа копий.

Применения

Обнаружение вариантов с низкими частотами

Дуплексное секвенирование и значительное повышение точности секвенирования оказывают важное влияние на такие приложения, как обнаружение редких генетических вариантов человека, обнаружение субклональных мутаций, связанных с механизмами устойчивости к терапии при генетически гетерогенных раковых опухолях, скрининг вариантов в циркулирующей опухолевой ДНК, например неинвазивный биомаркер и пренатальный скрининг для выявления генетических аномалий у плода.

Обнаружение числа копий

Еще одно предлагаемое применение дуплексного секвенирования - определение числа копий ДНК / РНК путем оценки относительной частоты вариантов. Метод подсчета молекул-шаблонов ПЦР с применением для секвенирования следующего поколения.

Анализ и программное обеспечение

Список необходимых инструментов и пакетов для анализа SSCS и DCS можно найти в программном обеспечении пакет.

См. также
Ссылки
Последняя правка сделана 2021-05-18 06:34:05
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте