Показатель качества Phred

редактировать
Показатель качества Phred, отображаемый на трассе последовательности ДНК

A Показатель качества Phred - это мера качества идентификация азотистых оснований, полученных с помощью автоматического секвенирования ДНК. Первоначально он был разработан для базы Phred, вызывающей, чтобы помочь в автоматизации секвенирования ДНК в рамках Проекта генома человека. Оценка качества Phred присваивается каждому вызову основания нуклеотида в трассировках автоматического секвенсора. Формат FASTQ кодирует оценки phred как символы ASCII вместе с последовательностями чтения. Показатели качества Phred стали широко использоваться для характеристики качества последовательностей ДНК и могут использоваться для сравнения эффективности различных методов секвенирования. Возможно, наиболее важным применением показателей качества Phred является автоматическое определение точных, основанных на качестве согласованных последовательностей.

Содержание
  • 1 Определение
  • 2 История
  • 3 Методы
  • 4 Приложения
  • 5 Сжатие
  • 6 Ссылки
  • 7 Внешние ссылки
Определение

Показатели качества Phred Q {\ displaystyle Q}Qопределяются как свойство, которое является логарифмическим связанные с вероятностями ошибок при вызове базы P {\ displaystyle P}P.

Q = - 10 log 10 ⁡ P {\ displaystyle Q = -10 \ \ log _ {10} P}Q = -10 \ \ log _ {{10}} P

или

P = 10 - Q 10 {\ displaystyle P = 10 ^ {\ frac {-Q} {10}}}P = 10 ^ {{{\ frac {-Q} {10}}}}

Например, если Фред присваивает базовый показатель качества 30, вероятность того, что эта база неправильно вызванные - 1 из 1000.

Показатели качества Phred логарифмически связаны с вероятностями ошибок
Показатель качества PhredВероятность неправильного вызова базыТочность вызова базы
101 из 1090%
201 из 10099%
301 из 100099,9 %
401 из 10 00099,99%
501 из 100 00099,999%
601 из 100000099,9999%

Оценка качества phred - это отрицательное отношение вероятности ошибки к эталонному уровню P = 1 {\ displaystyle P = 1}P=1выражается в децибелах (дБ).

История

Идея оценки качества последовательности восходит к первоначальному описанию формата файла SCF, сделанному группой Стадена в 1992 году. Бонфилд и Стаден предложили метод использования показателей качества для конкретных оснований для повышения точности согласованных последовательностей в проектах секвенирования ДНК.

Однако ранние попытки разработать показатели качества для конкретных оснований имели лишь ограниченный успех.

Первой программой, разработавшей точные и мощные базовые показатели качества, была программа Phred. Фред смог вычислить очень точные показатели качества, которые были логарифмически связаны с вероятностями ошибок. Phred был быстро принят во всех крупных центрах секвенирования генома, а также во многих других лабораториях; подавляющее большинство последовательностей ДНК, полученных в ходе проекта «Геном человека», было обработано с помощью Phred.

После того, как оценка качества Phred стала обязательным стандартом при секвенировании ДНК, другие производители инструментов для секвенирования ДНК, включая Li-Cor и ABI, разработали аналогичные показатели качества для их базовое программное обеспечение вызова.

Методы

Подход Фреда к базовому вызову и подсчету показателей качества был описан Юингом и др. Для определения показателей качества Фред сначала вычисляет несколько параметров, связанных с формой пика и пиковое разрешение на каждой базе. Затем Phred использует эти параметры для поиска соответствующего показателя качества в огромных справочных таблицах. Эти справочные таблицы были сгенерированы из трассировок последовательностей, где была известна правильная последовательность, и жестко запрограммированы в Phred; разные таблицы поиска используются для разных химикатов и машин секвенирования. Оценка точности показателей качества Phred для ряда вариаций химии секвенирования и инструментовки показала, что показатели качества Phred являются очень точными.

Phred изначально был разработан для машин секвенирования «пластинчатого геля», таких как ABI373. При первоначальной разработке Phred имел меньшую частоту ошибок при вызове, чем программное обеспечение для базовых вызовов от производителя, которое также не давало оценок качества. Однако Фред был лишь частично адаптирован к секвенаторам капиллярной ДНК, которые стали популярными позже. Напротив, производители инструментов, такие как ABI, продолжали адаптировать свои базовые изменения программного обеспечения для вызова в химии секвенирования и добавили возможность создавать оценки качества, подобные Phred. Таким образом, потребность в использовании Phred для определения оснований следов секвенирования ДНК уменьшилась, и использование текущих версий программного обеспечения производителя часто может дать более точные результаты.

Приложения

Показатели качества Phred используются для оценки качества последовательности, распознавания и удаления низкокачественной последовательности (отсечение концов) и определения точных согласованных последовательностей.

Первоначально оценки качества Phred в основном использовались программой сборки последовательностей Phrap. Phrap обычно использовался в некоторых из крупнейших проектов секвенирования в рамках проекта по секвенированию генома человека и в настоящее время является одной из наиболее широко используемых программ сборки последовательности ДНК в биотехнологической промышленности. Phrap использует показатели качества Phred для определения высокоточных согласованных последовательностей и оценки качества согласованных последовательностей. Phrap также использует показатели качества Phred, чтобы оценить, возникает ли расхождение между двумя перекрывающимися последовательностями с большей вероятностью из-за случайных ошибок или из-за разных копий повторяющейся последовательности.

В рамках проекта «Геном человека» наиболее важным применением показателей качества Phred было автоматическое определение согласованных последовательностей. До Фреда и Фрапа ученым приходилось внимательно изучать расхождения между перекрывающимися фрагментами ДНК; часто это связано с ручным определением высококачественной последовательности и ручным редактированием любых ошибок. Использование Phrap показателей качества эффективно автоматизирует поиск согласованной последовательности высочайшего качества; в большинстве случаев это полностью исключает необходимость любого ручного редактирования. В результате предполагаемая частота ошибок в сборках, которые были созданы автоматически с помощью Phred и Phrap, обычно существенно ниже, чем частота ошибок для последовательности, редактируемой вручную.

В 2009 г. многие широко используемые программные пакеты используют показатели качества Phred, хотя и в разной степени. Такие программы, как Sequencher, используют показатели качества для отображения, обрезки концов и определения консенсуса; другие программы, такие как CodonCode Aligner, также реализуют методы консенсуса на основе качества.

Сжатие

Показатели качества обычно хранятся вместе с нуклеотидной последовательностью в широко распространенном формате FASTQ. На них приходится около половины необходимого дискового пространства в формате FASTQ (до сжатия), поэтому сжатие значений качества может значительно снизить требования к хранению и ускорить анализ и передачу данных секвенирования. В последнее время в литературе рассматриваются как сжатие без потерь, так и сжатие с потерями. Например, алгоритм QualComp выполняет сжатие с потерями со скоростью (количество бит на значение качества), указанной пользователем. Основываясь на результатах теории искажения скорости, он распределяет количество битов так, чтобы минимизировать MSE (среднеквадратичную ошибку) между исходным (несжатым) и восстановленным (после сжатия) значениями качества. Другие алгоритмы сжатия значений качества включают SCALCE, Fastqz, а в последнее время - QVZ, AQUa и стандарт MPEG-G, который в настоящее время разрабатывается рабочей группой по стандартизации MPEG. Оба являются алгоритмами сжатия без потерь, которые обеспечивают дополнительный подход к управляемому преобразованию с потерями. Например, SCALCE уменьшает размер алфавита на основании наблюдения, что «соседние» значения качества в целом похожи.

Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-02 04:19:15
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте