Вычитание цифрового транскриптома (DTS ) - это биоинформатика метод обнаружения присутствия новых транскриптов патогенов путем компьютерного удаления последовательностей хозяина. DTS - это прямой in silico аналог подхода wet-lab анализа различий представлений (RDA), который стал возможен благодаря беспристрастной высокой пропускной способности секвенирование и наличие высококачественного аннотированного эталонного генома хозяина. Этот метод специально исследует этиологический агент инфекционных заболеваний и наиболее известен обнаружением полимавируса клеток Меркеля, подозреваемого возбудителя карциномы из клеток Меркеля.
Использование вычислительного вычитания для обнаружения новых патогенов было впервые предложено в 2002 году Мейерсоном и соавт. с использованием наборов данных тега экспрессируемой последовательности человека (EST). В эксперименте с подтверждением принципа Meyerson et al. продемонстрировали, что это осуществимый подход с использованием лимфоцитов, инфицированных вирусом Эпштейна-Барра, при посттрансплантационном лимфопролиферативном заболевании (PTLD).
. В 2007 году термин «цифровое вычитание транскриптома» был придуман Группа Чанг - Мур, и использовалась для обнаружения полимавируса клеток Меркеля в карциноме из клеток Меркеля.
Одновременно с открытием MCV этот подход использовался для причастности к новому аренавирус в качестве причины летального исхода в случае, когда три пациента умерли от аналогичных заболеваний вскоре после трансплантации органов от одного донора.
После обработки ДНКазой I для удаления геномной ДНК человека, общая РНК извлекается из первично инфицированной ткани. Информационная РНК затем очищается с использованием колонки олиго-dT, которая связывается с хвостом поли-А, сигналом, специфически обнаруживаемым на транскрибируемых генах. Используя случайный прайминг гексамеров, обратная транскриптаза (RT) преобразует всю мРНК в кДНК и клонирует в бактериальные векторы. Бактерии, обычно E. coli, затем трансформируют с использованием векторов кДНК и отбирают с помощью маркера, коллекция трансформированных клонов представляет собой библиотеку кДНК. Это генерирует мгновенный снимок мРНК ткани, которая является стабильной и может быть секвенирована на более позднем этапе.
Библиотека кДНК должна быть секвенирована на большую глубину (т.е. количество секвенированных клонов), чтобы обнаружить теоретическую последовательность редкого патогена (Таблица 1), особенно если чужеродный последовательность нова. Chang-Moore рекомендует глубину секвенирования не менее 200000 транскриптов с использованием нескольких платформ для секвенирования.
% вирусных | 5000 клонов | 10000 клонов | 20000 клонов | 50 000 клонов |
---|---|---|---|---|
0.001% | 4.9% | 9,5% | 18,1% | 39,3% |
0.01% | 39.3% | 32.2% | 86.5% | 99,3 % |
0.02% | 63.2% | 86.5% | 98.2% | >99.995% |
0.03% | 77,7% | 95,5% | 99,8% | >99,995% |
0,04% | 86,5% | 98,2% | >99.995% | >99.995% |
0.1% | 99.3% | >99.995% | >99.995% | >99,995% |
Затем к необработанным последовательностям применяется строгий контроль качества для минимизации ложноположительных результатов. На начальном экране качества используются несколько общих параметров, чтобы исключить неоднозначные последовательности, оставив после себя набор данных с высокой точностью чтения (Hi-Fi).
Затем с помощью MEGABLAST считывания Hi-Fi сопоставляются с последовательностями в аннотированных базах данных, и любые положительные совпадения затем вычитаются из набора данных. Минимальная длина совпадения для положительного совпадения человеческой последовательности обычно составляет 30 последовательных идентичных оснований, что соответствует оценке BLAST 60; как правило, оставшаяся последовательность снова является BLAST с менее строгими параметрами, чтобы учесть незначительные несоответствия (1 нуклеотид из 20). Подавляющее большинство последовательностей (>99%) следует удалить из набора данных на этом этапе.
Вычтенные последовательности обычно включают:
После строгих циклов вычитания оставшиеся последовательности группируются в неизбыточные контиги и выравниваются с известными последовательностями патогенов с использованием параметров низкой строгости. Поскольку геномы патогенов быстро мутируют, выравнивание нуклеотидов и нуклеотидов, или blastn, обычно неинформативно, поскольку возможны мутации в определенных основаниях без изменения аминокислотного остатка из-за вырожденности кодонов. Сопоставление транслированных in silico белковых последовательностей всех 6 открытых рамок считывания с аминокислотной последовательностью аннотированных белков или blastx является предпочтительным методом сопоставления, поскольку он увеличивает вероятность идентификации нового патогена путем сопоставления с родственным штаммом / видом. На этом этапе можно также использовать экспериментальное расширение последовательностей-кандидатов, чтобы максимизировать шансы на положительное совпадение.
В случаях, когда сопоставление с известными патогенами неинформативно или неоднозначно, контиги кандидатов последовательность может использоваться в качестве матрицы для прогулки праймера в первичной инфицированной ткани для создания полной последовательности генома патогена. Поскольку вирусные транскрипты представляют собой чрезвычайно редкое соотношение тканевых мРНК (10 транскриптов на 1 миллион), маловероятно создание транскриптома на основе только исходных последовательностей-кандидатов из-за низкого охвата.
После того, как предполагаемый патоген был идентифицирован в данных высокопроизводительного секвенирования, необходимо подтвердить наличие патогена у инфицированных пациентов, используя более чувствительные методы, такие как:
Основное применение DTS - идентификация патогенных вирусов при раке. Его также можно использовать для идентификации вирусных патогенов при заболеваниях, не связанных с раком. Будущие клинические применения могут включать использование DTS на регулярной основе у людей. DTS может также применяться к сельскому хозяйству, выявляя патогены, влияющие на объем производства. Вычисление вычитания уже использовалось в исследовании метагеномики, которое связывало вирусную инфекцию IAPV с расстройством коллапса колонии у медоносных пчел.