Цифровая транскриптом вычитание

редактировать
Рис. 1. Вычитание цифрового транскриптома

Вычитание цифрового транскриптома (DTS ) - это биоинформатика метод обнаружения присутствия новых транскриптов патогенов путем компьютерного удаления последовательностей хозяина. DTS - это прямой in silico аналог подхода wet-lab анализа различий представлений (RDA), который стал возможен благодаря беспристрастной высокой пропускной способности секвенирование и наличие высококачественного аннотированного эталонного генома хозяина. Этот метод специально исследует этиологический агент инфекционных заболеваний и наиболее известен обнаружением полимавируса клеток Меркеля, подозреваемого возбудителя карциномы из клеток Меркеля.

Содержание
  • 1 История
  • 2 Метод
    • 2.1 Создание библиотеки кДНК
    • 2.2 Секвенирование и контроль качества
    • 2.3 BLAST для генома хозяина
    • 2.4 Анализ «нехозяинских» кандидатов
      • 2.4.1 Выравнивание к базам данных патогенов
      • 2.4.2 Сборка de novo
      • 2.4.3 Проверка патогена
  • 3 Приложения
    • 3.1 Преимущества
    • 3.2 Недостатки
  • 4 Ссылки
История

Использование вычислительного вычитания для обнаружения новых патогенов было впервые предложено в 2002 году Мейерсоном и соавт. с использованием наборов данных тега экспрессируемой последовательности человека (EST). В эксперименте с подтверждением принципа Meyerson et al. продемонстрировали, что это осуществимый подход с использованием лимфоцитов, инфицированных вирусом Эпштейна-Барра, при посттрансплантационном лимфопролиферативном заболевании (PTLD).

. В 2007 году термин «цифровое вычитание транскриптома» был придуман Группа Чанг - Мур, и использовалась для обнаружения полимавируса клеток Меркеля в карциноме из клеток Меркеля.

Одновременно с открытием MCV этот подход использовался для причастности к новому аренавирус в качестве причины летального исхода в случае, когда три пациента умерли от аналогичных заболеваний вскоре после трансплантации органов от одного донора.

Метод
Рис. 2. Разрушение исходного транскрипта при секвенировании 20 000 клонов, полученных из инфицированных вирусом тканей человека. Вирусные транскрипты присутствовали в 0,03% от общего числа считываний последовательностей.

Создание библиотеки кДНК

После обработки ДНКазой I для удаления геномной ДНК человека, общая РНК извлекается из первично инфицированной ткани. Информационная РНК затем очищается с использованием колонки олиго-dT, которая связывается с хвостом поли-А, сигналом, специфически обнаруживаемым на транскрибируемых генах. Используя случайный прайминг гексамеров, обратная транскриптаза (RT) преобразует всю мРНК в кДНК и клонирует в бактериальные векторы. Бактерии, обычно E. coli, затем трансформируют с использованием векторов кДНК и отбирают с помощью маркера, коллекция трансформированных клонов представляет собой библиотеку кДНК. Это генерирует мгновенный снимок мРНК ткани, которая является стабильной и может быть секвенирована на более позднем этапе.

Секвенирование и контроль качества

Библиотека кДНК должна быть секвенирована на большую глубину (т.е. количество секвенированных клонов), чтобы обнаружить теоретическую последовательность редкого патогена (Таблица 1), особенно если чужеродный последовательность нова. Chang-Moore рекомендует глубину секвенирования не менее 200000 транскриптов с использованием нескольких платформ для секвенирования.

Таблица 1. Вероятность захвата>1 вирусного транскрипта (ов) в библиотеках, полученных из тканей человека.
% вирусных5000 клонов10000 клонов20000 клонов50 000 клонов
0.001%4.9%9,5%18,1%39,3%
0.01%39.3%32.2%86.5%99,3 %
0.02%63.2%86.5%98.2%>99.995%
0.03%77,7%95,5%99,8%>99,995%
0,04%86,5%98,2%>99.995%>99.995%
0.1%99.3%>99.995%>99.995%>99,995%

Затем к необработанным последовательностям применяется строгий контроль качества для минимизации ложноположительных результатов. На начальном экране качества используются несколько общих параметров, чтобы исключить неоднозначные последовательности, оставив после себя набор данных с высокой точностью чтения (Hi-Fi).

  • Низкий Показатель Phred отсечка используется для удаления конечных последовательностей низкого качества. Как правило, пороговое значение 20 или 30 баллов по Phred используется для обеспечения точности 99% -99,9% при каждом вызове базы.
  • Удаление вектора и адаптера.
  • Низкая сложность - оценка сложности последовательность отражает количество идентичных оснований в серии (гомополимеры), такие как поли-dT или поли-dA.
  • Человеческая повторяющаяся ДНК.
  • Длина - параметр зависит от оптимизированной длины чтения, специфичной к использованной технологии секвенирования .
  • BLAST и исключить E. coli геномных последовательностей.

BLAST для генома-хозяина

Затем с помощью MEGABLAST считывания Hi-Fi сопоставляются с последовательностями в аннотированных базах данных, и любые положительные совпадения затем вычитаются из набора данных. Минимальная длина совпадения для положительного совпадения человеческой последовательности обычно составляет 30 последовательных идентичных оснований, что соответствует оценке BLAST 60; как правило, оставшаяся последовательность снова является BLAST с менее строгими параметрами, чтобы учесть незначительные несоответствия (1 нуклеотид из 20). Подавляющее большинство последовательностей (>99%) следует удалить из набора данных на этом этапе.

Вычтенные последовательности обычно включают:

  • Эталонный человеческий транскриптом - исключает любые известные человеческие транскрипты из наборов экспрессионных библиотек.
  • Эталонный человеческий геном - исключает гены, которые были пропущены аннотацией процесса и любых загрязняющих геномных последовательностей во время создания библиотеки кДНК.
  • Митохондриальная ДНК - митохондриальная ДНК в большом количестве и полиморфна из-за высокой скорости мутаций.
  • Область иммуноглобулина - Локусы иммуноглобулина очень полиморфны и могут в противном случае дают ложноположительные результаты из-за плохого выравнивания с эталонным геномом.
  • Другие позвоночные последовательности
  • Неаннотированные последовательности

Анализ кандидатов, не являющихся хозяевами

Согласование с базами данных патогенов

После строгих циклов вычитания оставшиеся последовательности группируются в неизбыточные контиги и выравниваются с известными последовательностями патогенов с использованием параметров низкой строгости. Поскольку геномы патогенов быстро мутируют, выравнивание нуклеотидов и нуклеотидов, или blastn, обычно неинформативно, поскольку возможны мутации в определенных основаниях без изменения аминокислотного остатка из-за вырожденности кодонов. Сопоставление транслированных in silico белковых последовательностей всех 6 открытых рамок считывания с аминокислотной последовательностью аннотированных белков или blastx является предпочтительным методом сопоставления, поскольку он увеличивает вероятность идентификации нового патогена путем сопоставления с родственным штаммом / видом. На этом этапе можно также использовать экспериментальное расширение последовательностей-кандидатов, чтобы максимизировать шансы на положительное совпадение.

Сборка de novo

В случаях, когда сопоставление с известными патогенами неинформативно или неоднозначно, контиги кандидатов последовательность может использоваться в качестве матрицы для прогулки праймера в первичной инфицированной ткани для создания полной последовательности генома патогена. Поскольку вирусные транскрипты представляют собой чрезвычайно редкое соотношение тканевых мРНК (10 транскриптов на 1 миллион), маловероятно создание транскриптома на основе только исходных последовательностей-кандидатов из-за низкого охвата.

Проверка патогена

После того, как предполагаемый патоген был идентифицирован в данных высокопроизводительного секвенирования, необходимо подтвердить наличие патогена у инфицированных пациентов, используя более чувствительные методы, такие как:

Области применения

Основное применение DTS - идентификация патогенных вирусов при раке. Его также можно использовать для идентификации вирусных патогенов при заболеваниях, не связанных с раком. Будущие клинические применения могут включать использование DTS на регулярной основе у людей. DTS может также применяться к сельскому хозяйству, выявляя патогены, влияющие на объем производства. Вычисление вычитания уже использовалось в исследовании метагеномики, которое связывало вирусную инфекцию IAPV с расстройством коллапса колонии у медоносных пчел.

Преимущества

  • Не требует предварительных знаний о последовательности патогена.
  • Может идентифицировать ранее несвязанные, потенциально поддающиеся лечению патогены.
  • Использует уже доступные молекулярные методы и ресурсы.

Недостатки

  • Определяет наличие патогена, но не устанавливает причинно-следственную связь с заболеванием. См. постулат Коха и критерии Брэдфорд-Хилла.
  • Должен иметь высоконадежный, полный эталонный транскриптом для изучаемого организма.
  • Отсутствие идентификации чужеродных последовательностей не может полностью исключить патогенное инородное тело.
Ссылки
Последняя правка сделана 2021-05-17 06:00:46
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте