A Штраф за пропуск - это метод оценки выравнивания двух или более последовательностей. При выравнивании последовательностей введение пробелов в последовательности может позволить алгоритму выравнивания соответствовать большему количеству терминов, чем выравнивание без пробелов. Однако минимизация зазоров в трассе важна для создания полезной трассы. Слишком много пробелов может сделать выравнивание бессмысленным. Штрафы за пропуски используются для корректировки оценок выравнивания в зависимости от количества и длины пропусков. Пять основных типов штрафов за пробелы: постоянные, линейные, аффинные, выпуклые и на основе профиля.
Глобальное выравнивание завершается -концевое выравнивание запрашиваемой последовательности с эталонной последовательностью. В идеале, этот метод выравнивания наиболее подходит для близкородственных последовательностей одинаковой длины. Алгоритм Нидлмана-Вунша - это метод динамического программирования, используемый для глобального выравнивания. По сути, алгоритм делит проблему на набор подзадач, а затем использует результаты подзадач для восстановления решения исходного запроса.
использование полуглобального выравнивания существует для поиска конкретного совпадения в большой последовательности. Пример включает поиск промоторов в последовательности ДНК. В отличие от глобального выравнивания, при этом отсутствуют концевые пробелы в одной или обеих последовательностях. Если концевые пробелы штрафуются в одной последовательности 1, но не в последовательности 2, это дает выравнивание, которое содержит последовательность 1 внутри последовательности 2.
Локальная последовательность выравнивание сопоставляет непрерывную часть одной последовательности с непрерывной частью другой. Алгоритм Смита-Уотермана основан на оценке совпадений и несоответствий. Совпадения увеличивают общую оценку выравнивания, тогда как несоответствия уменьшают оценку. Тогда хорошее выравнивание дает положительный результат, а плохое выравнивание - отрицательное. Локальный алгоритм находит выравнивание с наивысшей оценкой, рассматривая только те выравнивания, которые имеют положительный результат, и выбирая из них лучшее. Это алгоритм динамического программирования. При сравнении белков используется матрица сходства, в которой каждому возможному остатку присваивается оценка. Оценка должна быть положительной для одинаковых остатков и отрицательной для разнородной пары остатков. За пропуски обычно накладываются штрафные санкции с использованием линейной функции зазора, которая назначает начальный штраф за открытие зазора и дополнительный штраф за расширение зазора, увеличивая длину зазора.
Матрицы замещения, такие как BLOSUM, используются для выравнивания последовательностей белков. Матрица замещения присваивает оценку выравниванию любой возможной пары остатков. В общем, разные матрицы замен предназначены для обнаружения сходства между последовательностями, которые отличаются в разной степени. Единая матрица может быть достаточно эффективной в относительно широком диапазоне эволюционных изменений. Матрица BLOSUM-62 - одна из лучших матриц замещения для обнаружения слабого сходства белков. Матрицы BLOSUM с большими числами предназначены для сравнения близкородственных последовательностей, а матрицы с низкими числами предназначены для сравнения отдаленных связанных последовательностей. Например, BLOSUM-80 используется для выравнивания, которые более похожи по последовательности, а BLOSUM-45 используется для выравниваний, которые расходятся друг от друга. Для особенно длинных и слабых выравниваний матрица BLOSUM-45 может обеспечить наилучшие результаты. Короткие выравнивания легче обнаружить с помощью матрицы с более высокой «относительной энтропией», чем у BLOSUM-62. Серия BLOSUM не включает никаких матриц с относительной энтропией, подходящей для кратчайших запросов.
Во время репликации ДНК механизм репликации склонен к созданию двух типов ошибки при дублировании ДНК. Эти две ошибки репликации представляют собой вставки и удаления отдельных оснований ДНК из цепи ДНК (инделки). Индели могут иметь серьезные биологические последствия, вызывая мутации в цепи ДНК, которые могут привести к инактивации или чрезмерной активации целевой белок. Например, если в кодирующей последовательности встречается один или два нуклеотида, результатом будет сдвиг рамки считывания или мутация сдвига рамки, которая может сделать белок неактивным. Биологические последствия инделек часто вредны и часто связаны с такими человеческими патологиями, как рак. Однако не все индели являются мутациями сдвига рамки считывания. Если в тринуклеотидах встречаются инделения, результатом является расширение белковой последовательности, которое также может иметь последствия для функции белка.
Это простейший тип штрафа за пропуск: фиксированная отрицательная оценка присваивается каждому пропуску, независимо от его длина. Это побуждает алгоритм делать меньшее количество больших промежутков, оставляя более крупные смежные участки.
ATTGACCTGA || ||||| AT --- CCTGA
Выравнивание двух коротких последовательностей ДНК, где "-" обозначает разрыв в одну пару оснований. Если каждое совпадение приносило 1 очко, а весь разрыв равен -1, то общий балл: 7-1 = 6.
По сравнению со штрафом за постоянный разрыв, штраф за линейный разрыв учитывается учитывать длину (L) каждой вставки / удаления в промежутке. Следовательно, если штраф за каждый вставленный / удаленный элемент равен B и длина промежутка L; общий штраф за разрыв будет произведением двух BL. Этот метод способствует более коротким пропускам, при этом общий балл уменьшается с каждым дополнительным пропуском.
ATTGACCTGA || ||||| AT --- CCTGA
В отличие от постоянного штрафа за пропуск, учитывается размер зазора. При матче со счетом 1 и каждым разрывом -1, здесь счет будет (7 - 3 = 4).
Самая широко используемая функция штрафа за пропуск - это штраф за аффинный разрыв. Штраф за аффинный разрыв объединяет компоненты как постоянного, так и линейного штрафа за разрыв, принимая форму . Это вводит новые термины: A известен как штраф за открытие промежутка, B штраф за удлинение промежутка и L длина промежутка. Открытие зазора относится к затратам, необходимым для открытия зазора любой длины, а расширение зазора - к стоимости увеличения длины существующего зазора на 1. Часто неясно, какими должны быть значения A и B, поскольку они различаются в зависимости от цель. В общем, если интерес заключается в поиске близких совпадений (например, удаление последовательности вектора во время секвенирования генома), следует использовать более высокий штраф за пропуски для уменьшения открытий пропусков. С другой стороны, штраф за разрыв следует уменьшить, если вы заинтересованы в поиске более отдаленного матча. Отношения между A и B также влияют на размер зазора. Если размер зазора важен, используются маленькие A и большие B (более дорогостоящие для увеличения зазора), и наоборот. Важно только соотношение A / B, так как умножение обоих на одну и ту же положительную константу k увеличит все штрафы на k: kA + kBL = k (A + BL), что не меняет относительный штраф между различными выравниваниями.
Использование аффинного штрафа за разрыв требует назначения фиксированных значений штрафа как для открытия, так и для расширения промежутка. Это может быть слишком жестким для использования в биологическом контексте.
Логарифмический пробел принимает форму и был предложен, поскольку исследования показали, что распределение размеров отступов подчиняется степенному закону. Другой предлагаемой проблемой с использованием аффинных пробелов является предпочтение выравнивания последовательностей с более короткими пробелами. Штраф за логарифмический пробел был изобретен для изменения аффинного пробела так, что желательны длинные пробелы. Однако, в отличие от этого, было обнаружено, что использование логарифматических моделей привело к плохому выравниванию по сравнению с аффинными моделями.
Алгоритмы выравнивания профиля-профиля являются мощными инструментами для обнаружения отношения гомологии белков с повышенной точностью выравнивания. Выравнивания профилей и профилей основаны на статистических профилях частоты отступов из множественных выравниваний последовательностей, полученных с помощью поиска PSI-BLAST. Вместо использования матриц замещения для измерения сходства пар аминокислот, методы выравнивания профиль-профиль требуют функции оценки на основе профиля для измерения сходства пар векторов профиля. При выравнивании профиля по профилю используются функции компенсации зазора. Информация о пропусках обычно используется в форме частотных профилей indel, которые более специфичны для выравниваемых последовательностей. ClustalW и MAFFT применили этот вид определения штрафа за разрыв для своих множественных выравниваний последовательностей. С помощью этой модели можно повысить точность выравнивания, особенно для белков с низкой идентичностью последовательностей. Некоторые алгоритмы выравнивания профиля и профиля также используют информацию о вторичной структуре в качестве одного члена в своих оценочных функциях, что повышает точность выравнивания.
Использование выравнивания в вычислительной биологии часто включает последовательности разной длины. Важно выбрать модель, которая будет эффективно работать при известном входном размере. Время, необходимое для выполнения алгоритма, называется временной сложностью.
Тип | Время |
---|---|
Штраф за постоянный зазор | O (мин) |
Штраф за аффинный зазор | O (mn) |
Штраф за выпуклый зазор | O (mn lg (m + n)) |
Когда дело доходит до работы с зазором, возникает несколько проблем. При работе с популярными алгоритмами, похоже, мало теоретических оснований для вида функций штрафа за пропуски. Следовательно, для любой ситуации выравнивания размещение зазора должно быть определено эмпирически. Кроме того, штрафы за пробелы в парном выравнивании, такие как штраф за аффинные пробелы, часто реализуются независимо от типов аминокислот во вставленном или удаленном фрагменте или на разорванных концах, несмотря на доказательства того, что определенные типы остатков предпочтительны в областях пробела. Наконец, выравнивание последовательностей подразумевает выравнивание соответствующих структур, но взаимосвязь между структурными особенностями разрывов в белках и их соответствующими последовательностями известна лишь частично. Из-за этого сложно включить структурную информацию в штрафы за пробелы. Некоторые алгоритмы используют прогнозируемую или фактическую структурную информацию, чтобы смещать размещение зазоров. Однако лишь небольшая часть последовательностей имеет известные структуры, и большинство проблем с выравниванием связано с последовательностями с неизвестной вторичной и третичной структурой.
| accessdate =
()| accessdate =
() CS1 maint: несколько имен: список авторов (ссылка )| access-date =
( )| accessdate =
()| date =
()| date =
()