Вызов SNV из данных NGS

редактировать

Вызов SNV из данных NGS - это любой из ряда методов для определения существования одиночного нуклеотидные варианты (SNV) из результатов экспериментов секвенирования следующего поколения (NGS). Это вычислительные методы, которые отличаются от специальных экспериментальных методов, основанных на известных популяционных однонуклеотидных полиморфизмах (см. SNP-генотипирование ). В связи с растущим обилием данных NGS эти методы становятся все более популярными для выполнения генотипирования SNP с большим разнообразием алгоритмов, разработанных для конкретных экспериментальных планов и приложений. В дополнение к обычной области применения генотипирования SNP, эти методы были успешно адаптированы для выявления редких SNP в популяции, а также для обнаружения соматических SNV у человека с использованием нескольких образцов тканей.

Содержание

  • 1 Методы обнаружения вариантов зародышевой линии
    • 1.1 Вероятностные методы
      • 1.1.1 Оценка вероятности предшествующего генотипа
      • 1.1.2 Модели ошибок для наблюдений данных
      • 1.1.3 Разделение генотипа
    • 1.2 Эвристика алгоритмы на основе
    • 1.3 Контрольный геном, используемый для выравнивания
    • 1.4 Предварительная обработка и фильтрация результатов
  • 2 Методы обнаружения соматических вариантов
    • 2.1 Последние разработки
  • 3 Список доступного программного обеспечения
  • 4 Ссылки

Методы обнаружения вариантов зародышевой линии

Большинство основанных на NGS методов обнаружения SNV предназначены для обнаружения вариаций зародышевой линии в геноме индивидуума. Это мутации, которые индивидуум биологически наследует от своих родителей, и представляют собой обычный тип вариантов, которые ищут при выполнении такого анализа (за исключением некоторых конкретных приложений, где ищутся соматические мутации). Очень часто изучаемые варианты встречаются с некоторой (возможно, редкой) частотой в популяции, и в этом случае они могут быть обозначены как однонуклеотидные полиморфизмы (SNP). Технически термин SNP относится только к этим видам вариаций, однако на практике они часто используются как синонимы SNV в литературе по вызову вариантов. Кроме того, поскольку обнаружение SNV зародышевой линии требует определения индивидуального генотипа в каждом локусе, фраза «генотипирование SNP» также может использоваться для обозначения этого процесса. Однако эта фраза может также относиться к экспериментальным процедурам влажной лаборатории для классификации генотипов в наборе известных мест расположения SNP.

Обычный процесс таких методов основан на следующем:

  1. Фильтрация набора чтений NGS для удаления источников ошибок / смещения
  2. Выравнивание чтений с эталонным геномом
  3. Использование алгоритма, основанного либо на статистической модели, либо на некоторой эвристике, для прогнозирования вероятности вариации в каждом локусе на основе показателей качества и количества аллелей выровненных считываний в этом локусе
  4. Фильтрация предсказанных результатов, часто на основе показателей, относящихся к приложению
  5. SNP-аннотация для прогнозирования функционального эффекта каждого варианта.

Обычным результатом этих процедур является файл VCF.

Вероятностные методы

Показан набор гипотетических чтений NGS, выровненных по эталонной последовательности. В аннотированном локусе считанные данные содержат смесь нуклеотидов A / G против эталонного аллеля A. В зависимости от вероятностей предшествующего генотипа и выбранной модели ошибки, это может быть названо гетерозиготным SNV (предсказанный генотип AG), нуклеотиды G могут быть классифицированы как ошибки, и вариант не может быть назван (предсказанный генотип AA) или, альтернативно, нуклеотиды A. могут быть классифицированы как ошибки, и гомозиготный SNV вызван (предсказанный генотип GG).

В идеальном мире без ошибок с высоким охватом чтения задача вызова варианта по результатам выравнивания данных NGS будет будь простым; в каждом локусе (положение в геноме) можно подсчитать количество появлений каждого отдельного нуклеотида среди считываний, выровненных в этом положении, и истинный генотип будет очевиден; либо AA, если все нуклеотиды соответствуют аллелю A, BB, если они соответствуют аллелю B, либо AB, если существует смесь. Однако при работе с реальными данными NGS этот наивный подход не используется, поскольку он не может учитывать шум во входных данных. Подсчет нуклеотидов, используемый для вызова базы, содержит ошибки и смещения, как из-за самих секвенированных чтений, так и из-за процесса выравнивания. Эту проблему можно до некоторой степени смягчить путем секвенирования с большей глубиной охвата чтения, однако это часто бывает дорогостоящим, и многие практические исследования требуют заключения на основе данных с низким охватом.

Вероятностные методы направлены на преодоление вышеуказанной проблемы., путем получения надежных оценок вероятностей каждого из возможных генотипов с учетом шума, а также другой доступной априорной информации, которая может использоваться для улучшения оценок. Затем на основе этих вероятностей можно предсказать генотип, часто в соответствии с оценкой MAP.

Вероятностные методы для вызова вариантов основаны на теореме Байеса. В контексте вызова вариантов теорема Байеса определяет вероятность того, что каждый генотип является истинным генотипом с учетом наблюдаемых данных, с точки зрения априорных вероятностей каждого возможного генотипа и распределения вероятностей данных с учетом каждого возможного генотипа. Формула:

P (G ∣ D) = P (D ∣ G) P (G) P (D) = P (D ∣ G) P (G) ∑ i = 1 n P (D ∣ G i) П (G я) {\ Displaystyle {\ begin {выровнено} P (G \ mid D) = {\ frac {P (D \ mid G) P (G)} {P (D)}} \\ [ 8pt] = {\ frac {P (D \ mid G) \, P (G)} {\ sum \ limits _ {i = 1} ^ {n} P (D \ mid G_ {i}) \, P (G_ {i})}} \ end {align}}}{\ displaystyle {\ begin {align} P (G \ mid D) = {\ frac {P (D \ mid G) P (G)} {P (D)}} \\ [8pt] = {\ frac { P (D \ mid G) \, P (G)} {\ sum \ limits _ {i = 1} ^ {n} P (D \ mid G_ {i}) \, P (G_ {i})}} \ end {align}}}

В приведенном выше уравнении:

  • D {\ displaystyle D}D относится к наблюдаемым данным; то есть выровненные чтения
  • G {\ displaystyle G}G - это генотип, вероятность которого вычисляется
  • G i {\ displaystyle G_ {i}}G_i относится к i-й возможный генотип из n возможностей

Учитывая вышеупомянутую схему, различные программные решения для обнаружения SNV различаются в зависимости от того, как они вычисляют априорные вероятности P (G) {\ displaystyle P (G)}P (G) , модель ошибок, используемая для моделирования вероятностей P (D ∣ G) {\ displaystyle P (D \ mid G)}{\ displaystyle P (D \ mid G)} , и разделения полных генотипов на отдельные подгруппы генотипы, чьи вероятности могут быть индивидуально оценены в этой структуре.

Предварительная оценка вероятности генотипа

Расчет априорных вероятностей зависит от доступных данных из исследуемого генома и типа выполняемого анализа. Для исследований, в которых доступны хорошие справочные данные, содержащие частоты известных мутаций (например, при изучении данных генома человека), эти известные частоты генотипов в популяции могут использоваться для оценки априорных значений. Учитывая частоту аллелей в масштабах всей популяции, вероятности предшествующих генотипов могут быть рассчитаны в каждом локусе в соответствии с равновесием Харди – Вайнберга. В отсутствие таких данных можно использовать постоянные априорные точки, независимо от локуса. Они могут быть установлены с использованием эвристически выбранных значений, возможно, с учетом того, какие вариации будут искать в исследовании. В качестве альтернативы были исследованы контролируемые процедуры машинного обучения, которые стремятся узнать оптимальные априорные значения для отдельных лиц в выборке, используя предоставленные данные NGS от этих лиц.

Модели ошибок для наблюдений за данными

Ошибка Модель, используемая при создании вероятностного метода для вызова вариантов, является основой для вычисления термина P (D ∣ G) {\ displaystyle P (D \ mid G)}{\ displaystyle P (D \ mid G)} , используемого в теореме Байеса. Если предполагалось, что данные не содержат ошибок, то распределение наблюдаемых количеств нуклеотидов в каждом локусе будет соответствовать биномиальному распределению, при этом 100% нуклеотидов соответствуют аллелю A или B соответственно в AA. и BB и 50% вероятность того, что каждый нуклеотид соответствует либо A, либо B в случае AB . Однако при наличии шума в считываемых данных это предположение нарушается, и значения P (D ∣ G) {\ displaystyle P (D \ mid G)}{\ displaystyle P (D \ mid G)} должны учитывать возможность что ошибочные нуклеотиды присутствуют в выровненных считываниях в каждом локусе.

Простая модель ошибки состоит в том, чтобы внести небольшую ошибку в термин вероятности данных в гомозиготных случаях, допуская небольшую постоянную вероятность того, что нуклеотиды, которые не соответствуют аллелю A, наблюдаются в случай AA и, соответственно, небольшая постоянная вероятность того, что нуклеотиды, не соответствующие аллелю B, наблюдаются в случае BB . Однако доступны более сложные процедуры, которые пытаются более реалистично воспроизвести фактические шаблоны ошибок, наблюдаемые в реальных данных при вычислении условных вероятностей данных. Например, оценки качества чтения (измеряемые как Phred баллы качества) были включены в эти вычисления, принимая во внимание ожидаемую частоту ошибок в каждом отдельном чтении в локусе. Другой метод, который был успешно включен в модели ошибок, - это повторная калибровка базового качества, при которой рассчитываются отдельные коэффициенты ошибок - на основе ранее известной информации о шаблонах ошибок - для каждой возможной замены нуклеотидов. Исследования показывают, что каждая возможная нуклеотидная замена не с одинаковой вероятностью будет отображаться как ошибка в данных секвенирования, поэтому была применена перекалибровка базового качества для улучшения оценок вероятности ошибки.

Разделение генотипа

В приведенном выше обсуждении предполагалось, что вероятности генотипа в каждом локусе рассчитываются независимо; то есть весь генотип делится на независимые генотипы в каждом локусе, вероятности которых вычисляются независимо. Однако из-за неравновесия по сцеплению генотипы соседних локусов, как правило, не являются независимыми. В результате разделение общего генотипа вместо этого на последовательность перекрывающихся гаплотипов позволяет моделировать эти корреляции, что приводит к более точным оценкам вероятности за счет включения частот общопопуляционных гаплотипов в предыдущие. Использование гаплотипов для повышения точности определения вариантов было успешно применено, например, в 1000 Genomes Project.

алгоритмах на основе эвристики

В качестве альтернативы вероятностным методам эвристика существуют методы для выполнения вызова вариантов для данных NGS. Вместо моделирования распределения наблюдаемых данных и использования байесовской статистики для расчета вероятностей генотипов, вызовы вариантов выполняются на основе множества эвристических факторов, таких как минимальное количество аллелей, пороговые значения качества считывания, границы глубины считывания и т. Д. они были относительно непопулярны на практике по сравнению с вероятностными методами, на практике из-за использования границ и отсечений они могут быть устойчивыми к отдаленным данным, которые нарушают предположения вероятностных моделей.

Контрольный геном, используемый для Выравнивание

Важной частью разработки методов вызова вариантов с использованием данных NGS является последовательность ДНК, используемая в качестве ссылки, с которой выравниваются чтения NGS. В исследованиях генетики человека доступны высококачественные справочные материалы из таких источников, как проект HapMap, который может существенно повысить точность вызовов вариантов, выполняемых алгоритмами вызова вариантов. В качестве бонуса такие ссылки могут быть источником априорных вероятностей генотипа для байесовского анализа. Однако при отсутствии эталона такого высокого качества экспериментально полученные считывания можно сначала собрать, чтобы создать эталонную последовательность для выравнивания.

Предварительная обработка и фильтрация результатов

Существуют различные методы фильтрации данных в экспериментах по вызову вариантов, чтобы удалить источники ошибок / смещения. Это может включать удаление подозрительных чтений перед выполнением выравнивания и / или фильтрации списка вариантов, возвращаемого алгоритмом вызова вариантов.

В зависимости от используемой платформы секвенирования в наборе секвенированных считываний могут существовать различные смещения. Например, может произойти смещение цепочки, когда существует очень неравное распределение прямого и обратного направлений в считываниях, выровненных в некоторой окрестности. Кроме того, может произойти необычно высокое дублирование некоторых считываний (например, из-за смещения в PCR ). Такие смещения могут привести к сомнительным вызовам вариантов - например, если фрагмент, содержащий ошибку ПЦР в каком-либо локусе, чрезмерно амплифицирован из-за смещения ПЦР, этот локус будет иметь большое количество ложных аллелей и может называться SNV - и поэтому конвейеры анализа часто фильтруют вызовы на основе этих предубеждений.

Методы обнаружения соматических вариантов

В дополнение к методам, которые сопоставляют считывание отдельных образцов с эталонным геномом для обнаружения зародышевой линии генетические варианты, считанные из нескольких образцов ткани в пределах одного человека, могут быть сопоставлены и сравнены для обнаружения соматических вариантов. Эти варианты соответствуют мутациям, которые произошли de novo в группах соматических клеток внутри индивидуума (то есть они не присутствуют в клетках зародышевой линии индивидуума). Эта форма анализа часто применялась к изучению рака, где многие исследования были разработаны для изучения профиля соматических мутаций в раковых тканях. Результатом таких исследований стали диагностические инструменты, которые нашли клиническое применение и используются для улучшения научного понимания болезни, например, путем открытия новых генов, связанных с раком, выявления вовлеченных генных регуляторных сетей и метаболических путей, а также путем информирования моделей о том, как опухоли растут и развиваются.

Последние разработки

До недавнего времени программные инструменты для проведения этой формы анализа были сильно недоработаны, и были основаны на тех же алгоритмах, которые использовались для обнаружения вариаций зародышевой линии. Такие процедуры не оптимизированы для этой задачи, потому что они неадекватно моделируют статистическую корреляцию между генотипами, присутствующими в нескольких образцах тканей одного и того же человека.

Более поздние исследования привели к разработке программных инструментов, специально оптимизированных для обнаружения соматических мутаций в нескольких образцах тканей. Были разработаны вероятностные методы, позволяющие объединить подсчеты аллелей из всех образцов ткани в каждом локусе, и с использованием статистических моделей вероятностей совместных генотипов для всех тканей и распределения количества аллелей с учетом генотипа можно рассчитать относительно надежные вероятности. соматических мутаций в каждом локусе, используя все доступные данные. Кроме того, недавно было проведено исследование методов на основе машинного обучения для выполнения этого анализа.

Список доступного программного обеспечения

Ссылки

Последняя правка сделана 2021-06-06 03:59:22
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте