Мотив последовательности

редактировать

Образец нуклеотидной или аминокислотной последовательности, который широко распространен и имеет или предположительно имеет биологическое значение. Для белков мотив последовательности отличается от структурного мотива

Мотив последовательности ДНК, представленный как логотип последовательности для LexA-связывающего мотива.

В генетике, a мотив последовательности представляет собой шаблон нуклеотидной или амино-кислоты последовательности, который широко распространен и имеет или предположительно имеет биологическое значение. Для белков мотив последовательности отличается от структурного мотива, мотива, образованного трехмерным расположением аминокислот, которые могут быть или не быть смежными.

Примером является мотив сайта N-гликозилирования :

Asn, за которым следует все, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует все, кроме Pro

, где Трехбуквенные сокращения являются общепринятыми обозначениями для аминокислот (см. генетический код ).

Содержание

1 Обзор
2 Представление мотивов
- 2.1 Мотивы и согласованные последовательности
- 2.2 Обозначения описания паттернов
  - 2.2.1 Обозначение паттернов PROSITE
  - 2.2.2 Матрицы
3 Открытие мотивов
- 3.1 Обзор
  - 3.1.1 Обнаружение мотивов De novo
  - 3.1.2 Обнаружение филогенетических мотивов
  - 3.1.3 Обнаружение пар мотивов De novo
  - 3.1.4 Распознавание мотивов De novo из белка
4 Случаи мотива
- 4.1 Трехмерные цепные коды
5 Примеры нуклеотидных мотивов
6 Пример белковых мотивов
7 См. Также
8 Ссылки
- 8.1 Вторичные и третичные источники
- 8.2 Первичные источники
9 Дополнительная литература
- 9.1 Вторичные и третичные источники
- 9.2 Первичные источники

Обзор

Когда мотив последовательности появляется в экзоне ген , он может кодировать «структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отличительной вторичной структурой. «Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не обязательно должны отклоняться от типичной формы (например, «B-форма» двойная спираль ДНК ).

Вне экзонов генов существуют регуляторные последовательности мотивы и мотивы в «мусоре », такие как сателлитная ДНК. Некоторые из них, как полагают, влияют на форму нуклеиновых кислот (см., Например, самосплайсинг РНК ), но это только иногда. Например, многие ДНК-связывающие белки, которые обладают сродством к конкретным участкам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы через контакт с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их как фосфорилирование.

В пределах последовательности или базы данных последовательностей исследователи ищут и находят мотивы с использованием компьютерных методов анализа последовательности, таких как BLAST. Такие методы относятся к дисциплине биоинформатики. См. Также консенсусная последовательность.

Представление мотива

Рассмотрим мотив сайта N-гликозилирования, упомянутый выше:

Asn, за которым следует все, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует все, кроме Pro

Этот шаблон можно записать как N{P}[STght{P}, где N= Asn, P= Pro, S= Ser, T= Thr; {X}означает любую аминокислоту, кроме X; и [XY]означает либо X, либо Y.

Обозначение [XY]не дает никакого указания на вероятность Xили Yв шаблоне. Наблюдаемые вероятности могут быть графически представлены с использованием логотипов последовательности. Иногда шаблоны определяются в терминах вероятностной модели, такой как скрытая марковская модель.

Мотивы и согласованные последовательности

Обозначение [XYZ]означает Xили Yили Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узора часто связаны с одним мотивом: определяющий узор и различные типичные узоры.

Например, определяющая последовательность для мотива IQ может быть принята как:

[FILV] Qxxx [RK] Gxxx [RK] xx [FILVWY]

где xобозначает любую аминокислоту, а квадратные скобки указывают на альтернативу (см. Ниже для получения дополнительной информации об обозначениях).

Однако обычно первая буква - I, и оба варианта [RK]сводятся к R. Поскольку последний выбор настолько широк, образец IQxxxRGxxxRиногда приравнивается к самому мотиву IQ, но более точным описанием будет консенсусная последовательность для мотива IQ.

Обозначения описания паттернов

Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений для регулярных выражений и используют следующие условные обозначения:

там представляет собой алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
строка символов, взятая из алфавита, обозначает последовательность соответствующих аминокислот;
любая строка символов, взятых из алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например [abc]соответствует любой из аминокислот, представленных aили bили c.

. Фундаментальной идеей всех этих обозначений является принцип соответствия, который присваивает значение последовательности элементов нотации шаблона:

последовательность элементов нотации шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона соответствует соответствующая подпоследовательность, в свою очередь.

Таким образом, образец [AB] [CDE] Fсоответствует шести аминокислотным последовательностям, соответствующим ACF, ADF, AEF, BCF, BDFи BEF.

Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одним из таких обозначений является обозначение PROSITE, описанное в следующем подразделе.

Нотация шаблона PROSITE

В нотации PROSITE используются однобуквенные коды IUPAC и соответствуют вышеприведенному описанию за исключением символа конкатенации '-' используется между элементами шаблона, но часто опускается между буквами алфавита шаблона.

PROSITE позволяет использовать следующие элементы шаблона в дополнение к описанным ранее:

Строчная буква «x» может использоваться как элемент шаблона для обозначения любой аминокислоты.
Строка символов, взятых из алфавита и заключенная в фигурные скобки (фигурные скобки), обозначает любую аминокислоту, кроме тех, что находятся в строке. Например, {ST}обозначает любую аминокислоту, кроме Sили T.
. Если шаблон ограничен N-концом последовательности, шаблон имеет префикс '<'.
Если шаблон ограничен C-концом последовательности, шаблон дополняется суффиксом '>'.
Символ' >'также может встречаться внутри шаблона завершающих квадратных скобок, так что S [T>]соответствует как «ST», так и «S>".
. Если eявляется элементом шаблона, а mи n- два десятичных целых числа с m<= n, тогда:
- e (m)эквивалентно повторению eровно mраз;
- e (m, n)эквивалентно повторению eровно kраз для любого целого k, удовлетворяющего: m<= k<= n.

Некоторые примеры:

x (3)эквивалентно xxx.
x (2,4)соответствует любой последовательности, которая соответствует xx или xxxили xxxx.

Сигнатура домена типа C2H2 цинковый палец :

Cx (2,4) -Cx (3) - [LIVMFYWC] -x (8) -Hx (3,5) -H

Матр. ices

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждой позиции мотива фиксированной длины. Есть два типа весовых матриц.

Матрица частот положения (PFM) записывает частоту, зависящую от положения каждого остатка или нуклеотида. PFM могут быть экспериментально определены из экспериментов SELEX или обнаружены с помощью вычислений с помощью таких инструментов, как MEME, с использованием скрытых марковских моделей.
A матрица весов позиций (PWM) содержит логарифмические веса шансов для вычисления оценки совпадения. Обрезка необходима, чтобы указать, соответствует ли входная последовательность мотиву или нет. ШИМ вычисляются из ЧИМ.

Пример PFM из базы данных TRANSFAC для фактора транскрипции AP-1:

Pos	A	C	G	T	IUPAC
01	6	2	8	1	R
02	3	5	9	0	S
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W

В первом столбце указывается позиция, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений of T в этой позиции, а последний столбец содержит нотацию IUPAC для этой позиции. Обратите внимание, что суммы вхождений A, C, G и T для каждой строки должны быть равны, потому что PFM получается путем агрегирования нескольких согласованных последовательностей.

Обнаружение мотивов

Обзор

Обнаружение мотивов последовательности было хорошо развито с 1990-х годов. В частности, большинство существующих исследований по открытию мотивов сосредоточено на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов сталкиваются как с проблемами вырожденности паттернов последовательности, так и с проблемами масштабируемости вычислений, требующих больших объемов данных.

Обнаружение мотивов De novo

Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM for Motif Elicitation (MEME), который генерирует статистическую информацию для каждого кандидата. Есть более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch et al. оценил многие связанные алгоритмы в тесте 2013 года. Поиск мотивов - это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.

Открытие филогенетических мотивов

Мотивы также были обнаружены с помощью филогенетического подхода и изучения похожих генов у разных видов. Например, сравнивая аминокислотные последовательности, указанные в гене GCM (отсутствие глиальных клеток) у человека, мыши и D. melanogaster, Акияма и другие обнаружили паттерн, который они назвали мотивом GCM в 1996 году. охватывает около 150 аминокислотных остатков и начинается следующим образом:

WDIND *. * P.. *... DF * W ***. **. IYS **... A. * H * S * WAMRNTNNHN

Здесь каждая .обозначает одну аминокислоту или пробел, а каждый *указывает один член близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.

Подобный подход обычно используется в современных базах данных белковых доменов, таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для выровняйте их и создайте профиль мотива, который можно использовать для идентификации других родственных белков. Филогенетический подход также может быть использован для улучшения алгоритма цМема de novo, на примере PhyloGibbs.

Обнаружение пары мотивов de novo

В 2017 году MotifHyades был разработан как инструмент обнаружения мотивов которые могут быть непосредственно применены к парным последовательностям.

Распознавание мотивов De novo из белка

В 2018 году был предложен подход Марковского случайного поля для вывода мотивов ДНК из ДНК-связывающие домены белков.

Случаи мотивов

Трехмерные цепные коды

E. coli лактозный оперон репрессор LacI (PDB : 1lcc цепь A) и активатор гена катаболита E. coli (PDB : 3gap цепи A) обе имеют мотив спираль-поворот-спираль, но их аминокислотные последовательности не имеют большого сходства, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо более четко, чем аминокислотная последовательность (пример из статьи): код кодирует торсионные углы между альфа-атомами углерода остова белка. «W» всегда соответствует альфа-спирали.

	Трехмерный код цепи	Аминокислотная последовательность
1lccA	`TWWWWWWWKCLKWWWWWWG`	`LYDVAEYAGVSYQTVSRVV`
3gapA	KWWWWWIGWGKCFKWSRET2GWW>RWWWWWIGGKCFKWETWWWW>RWWWWWIGGKCFKWW2WWW>Примеры структура петли крестообразная ДНК D-петля G-квадруплекс Пример белковых мотивов мотив греческого ключа спираль-петля-спираль Спираль-поворот-спираль См. Также Биологический портал Биомолекулярная структура Поиск мотивов млекопитающих Множественная ЭМ для выявления мотива Последовательность нуклеиновой кислоты Первичная структура белка Белок I-сайты Логотип последовательности Анализ последовательности Структурный мотив Короткий линейный мотив Ссылки Вторичные и третичные источники Первичные источники Дополнительная литература Вторичные и третичные источники Первичные источники Последняя правка сделана 2021-06-07 10:45:36 Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное). Обратная связь: support@alphapedia.ru Соглашение О проекте

Pos	A	C	G	T	IUPAC
01	6	2	8	1	R
02	3	5	9	0	S
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W

Pos	A	C	G	T	IUPAC
01	6	2	8	1	R
02	3	5	9	0	S
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W

Мотив последовательности

Содержание

Обзор

Представление мотива

Мотивы и согласованные последовательности

Обозначения описания паттернов

Нотация шаблона PROSITE

Матр. ices

Обнаружение мотивов

Обзор

Обнаружение мотивов De novo

Открытие филогенетических мотивов

Обнаружение пары мотивов de novo

Распознавание мотивов De novo из белка

Случаи мотивов

Трехмерные цепные коды

Пример белковых мотивов

См. Также

Ссылки

Вторичные и третичные источники

Первичные источники

Дополнительная литература

Вторичные и третичные источники

Первичные источники

Pos	A	C	G	T	IUPAC
01	6	2	8	1	R
02	3	5	9	0	S
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W