В генетике, a мотив последовательности представляет собой шаблон нуклеотидной или амино-кислоты последовательности, который широко распространен и имеет или предположительно имеет биологическое значение. Для белков мотив последовательности отличается от структурного мотива, мотива, образованного трехмерным расположением аминокислот, которые могут быть или не быть смежными.
Примером является мотив сайта N-гликозилирования :
, где Трехбуквенные сокращения являются общепринятыми обозначениями для аминокислот (см. генетический код ).
Когда мотив последовательности появляется в экзоне ген , он может кодировать «структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отличительной вторичной структурой. «Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не обязательно должны отклоняться от типичной формы (например, «B-форма» двойная спираль ДНК ).
Вне экзонов генов существуют регуляторные последовательности мотивы и мотивы в «мусоре », такие как сателлитная ДНК. Некоторые из них, как полагают, влияют на форму нуклеиновых кислот (см., Например, самосплайсинг РНК ), но это только иногда. Например, многие ДНК-связывающие белки, которые обладают сродством к конкретным участкам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы через контакт с большой или малой бороздкой двойной спирали.
Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их как фосфорилирование.
В пределах последовательности или базы данных последовательностей исследователи ищут и находят мотивы с использованием компьютерных методов анализа последовательности, таких как BLAST. Такие методы относятся к дисциплине биоинформатики. См. Также консенсусная последовательность.
Рассмотрим мотив сайта N-гликозилирования, упомянутый выше:
Этот шаблон можно записать как N{P}[STght{P}
, где N
= Asn, P
= Pro, S
= Ser, T
= Thr; {X}
означает любую аминокислоту, кроме X
; и [XY]
означает либо X
, либо Y
.
Обозначение [XY]
не дает никакого указания на вероятность X
или Y
в шаблоне. Наблюдаемые вероятности могут быть графически представлены с использованием логотипов последовательности. Иногда шаблоны определяются в терминах вероятностной модели, такой как скрытая марковская модель.
Обозначение [XYZ]
означает X
или Y
или Z
, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узора часто связаны с одним мотивом: определяющий узор и различные типичные узоры.
Например, определяющая последовательность для мотива IQ может быть принята как:
[FILV] Qxxx [RK] Gxxx [RK] xx [FILVWY]
где x
обозначает любую аминокислоту, а квадратные скобки указывают на альтернативу (см. Ниже для получения дополнительной информации об обозначениях).
Однако обычно первая буква - I
, и оба варианта [RK]
сводятся к R
. Поскольку последний выбор настолько широк, образец IQxxxRGxxxR
иногда приравнивается к самому мотиву IQ, но более точным описанием будет консенсусная последовательность для мотива IQ.
Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений для регулярных выражений и используют следующие условные обозначения:
[abc]
соответствует любой из аминокислот, представленных a
или b
или c
.. Фундаментальной идеей всех этих обозначений является принцип соответствия, который присваивает значение последовательности элементов нотации шаблона:
Таким образом, образец [AB] [CDE] F
соответствует шести аминокислотным последовательностям, соответствующим ACF
, ADF
, AEF
, BCF
, BDF
и BEF
.
Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одним из таких обозначений является обозначение PROSITE, описанное в следующем подразделе.
В нотации PROSITE используются однобуквенные коды IUPAC и соответствуют вышеприведенному описанию за исключением символа конкатенации '-
' используется между элементами шаблона, но часто опускается между буквами алфавита шаблона.
PROSITE позволяет использовать следующие элементы шаблона в дополнение к описанным ранее:
x
» может использоваться как элемент шаблона для обозначения любой аминокислоты.{ST}
обозначает любую аминокислоту, кроме S
или T
.<
'.>
'.>
'также может встречаться внутри шаблона завершающих квадратных скобок, так что S [T>]
соответствует как «ST
», так и «S>
".e
является элементом шаблона, а m
и n
- два десятичных целых числа с m
<= n
, тогда: e (m)
эквивалентно повторению e
ровно m
раз;e (m, n)
эквивалентно повторению e
ровно k
раз для любого целого k
, удовлетворяющего: m
<= k
<= n
.Некоторые примеры:
x (3)
эквивалентно xxx
.x (2,4)
соответствует любой последовательности, которая соответствует xx
или xxx
или xxxx
.Сигнатура домена типа C2H2 цинковый палец :
Cx (2,4) -Cx (3) - [LIVMFYWC] -x (8) -Hx (3,5) -H
Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждой позиции мотива фиксированной длины. Есть два типа весовых матриц.
Пример PFM из базы данных TRANSFAC для фактора транскрипции AP-1:
Pos | A | C | G | T | IUPAC |
---|---|---|---|---|---|
01 | 6 | 2 | 8 | 1 | R |
02 | 3 | 5 | 9 | 0 | S |
03 | 0 | 0 | 0 | 17 | T |
04 | 0 | 0 | 17 | 0 | G |
05 | 17 | 0 | 0 | 0 | A |
06 | 0 | 16 | 0 | 1 | C |
07 | 3 | 2 | 3 | 9 | T |
08 | 4 | 7 | 2 | 4 | N |
09 | 9 | 6 | 1 | 1 | M |
10 | 4 | 3 | 7 | 3 | N |
11 | 6 | 3 | 1 | 7 | W |
В первом столбце указывается позиция, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений of T в этой позиции, а последний столбец содержит нотацию IUPAC для этой позиции. Обратите внимание, что суммы вхождений A, C, G и T для каждой строки должны быть равны, потому что PFM получается путем агрегирования нескольких согласованных последовательностей.
Обнаружение мотивов последовательности было хорошо развито с 1990-х годов. В частности, большинство существующих исследований по открытию мотивов сосредоточено на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов сталкиваются как с проблемами вырожденности паттернов последовательности, так и с проблемами масштабируемости вычислений, требующих больших объемов данных.
Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM for Motif Elicitation (MEME), который генерирует статистическую информацию для каждого кандидата. Есть более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch et al. оценил многие связанные алгоритмы в тесте 2013 года. Поиск мотивов - это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.
Мотивы также были обнаружены с помощью филогенетического подхода и изучения похожих генов у разных видов. Например, сравнивая аминокислотные последовательности, указанные в гене GCM (отсутствие глиальных клеток) у человека, мыши и D. melanogaster, Акияма и другие обнаружили паттерн, который они назвали мотивом GCM в 1996 году. охватывает около 150 аминокислотных остатков и начинается следующим образом:
WDIND *. * P.. *... DF * W ***. **. IYS **... A. * H * S * WAMRNTNNHN
Здесь каждая .
обозначает одну аминокислоту или пробел, а каждый *
указывает один член близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.
Подобный подход обычно используется в современных базах данных белковых доменов, таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для выровняйте их и создайте профиль мотива, который можно использовать для идентификации других родственных белков. Филогенетический подход также может быть использован для улучшения алгоритма цМема de novo, на примере PhyloGibbs.
В 2017 году MotifHyades был разработан как инструмент обнаружения мотивов которые могут быть непосредственно применены к парным последовательностям.
В 2018 году был предложен подход Марковского случайного поля для вывода мотивов ДНК из ДНК-связывающие домены белков.
E. coli лактозный оперон репрессор LacI (PDB : 1lcc цепь A) и активатор гена катаболита E. coli (PDB : 3gap цепи A) обе имеют мотив спираль-поворот-спираль, но их аминокислотные последовательности не имеют большого сходства, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо более четко, чем аминокислотная последовательность (пример из статьи): код кодирует торсионные углы между альфа-атомами углерода остова белка. «W» всегда соответствует альфа-спирали.
Трехмерный код цепи | Аминокислотная последовательность | |
---|---|---|
1lccA | TWWWWWWWKCLKWWWWWWG | LYDVAEYAGVSYQTVSRVV |
3gapA | KWWWWWIGWGKCFKWSRET2GWW>RWWWWWIGGKCFKWETWWWW>RWWWWWIGGKCFKWW2WWW>Примеры структура петли |