Белковые I-сайты

редактировать

I-сайты - это короткие мотивы структуры последовательности, которые получены из банка данных белков ( PDB), которые сильно коррелируют с трехмерными структурными элементами. Эти мотивы структуры последовательности используются для предсказания локальной структуры белков. Локальная структура может быть выражена фрагментами или углами позвоночника. Места в последовательности белка, которые имеют высокую достоверность предсказаний I-сайтов, могут быть сайтами инициации сворачивания. I-сайты также были идентифицированы как дискретные модели путей сворачивания. I-сайты состоят из около 250 мотивов. Каждый мотив имеет аминокислотный профиль, структуру фрагмента (представленную «парадигмальным» фрагментом, выбранным из белка в PDB) и, необязательно, 4-мерный тензор попарной ковариации последовательностей.

Создание библиотеки I-сайтов

База данных последовательностей и структур

База данных изначально состояла из 471 семейства последовательностей белков из базы данных HSSP, в среднем 47 выровненных последовательностей на семейство. Каждое семейство содержало одну известную структуру (родительскую) из Брукхейвенского банка данных белков. Это была часть списка PDBSelect-25, имеющая не более 25% идентичности последовательностей между любыми двумя выравниваниями. Неупорядоченные петли опущены. Пробелы и вставки в последовательности игнорировались.

Кластеризация сегментов последовательности

Каждая позиция в базе данных описывается взвешенной аминокислотной частотой. мера сходства в пространстве последовательности между сегментом (p) и кластером сегментов (q) определяется как:

$D pq = ∑ ijlog [P ij (p) + α F i (1 + α) F я] журнал [∑ К ϵ Q P ij (K) + α ′ F я (N q + α ′) F я] {\ Displaystyle D_ {pq} = \ sum _ {ij} журнал \ left [ {\ dfrac {P_ {ij} (p) + \ alpha F_ {i}} {(1+ \ alpha) F_ {i}}} \ right] log \ left [{\ dfrac {\ sum _ {k \ epsilon q} P_ {ij} (k) + \ alpha 'F_ {i}} {(N_ {q} + \ alpha') F_ {i}}} \ right]}$ $D_{pq}=\sum _{ij}log\left[{\dfrac {P_{ij}(p)+\alpha F_{i}}{(1+\alpha)F_{i}}}\right]log\left[{\dfrac {\sum _{k\epsilon q}P_{ij}(k)+\alpha 'F_{i}}{(N_{q}+\alpha ')F_{i}}}\right]$

где Pij (p) - частота аминокислоты i в положении j в сегменте p. Nq - количество сегментов последовательности k в кластере q. Fi - частота встречаемости аминокислот типа i в базе данных в целом. Оптимальные значения a и a0 были определены эмпирически равными 0,5 и 15 соответственно. Используя эту меру сходства, сегменты заданной длины (от 3 до 15) были кластеризованы с помощью алгоритма k-средних.

Оценка структуры в кластере; выбор парадигмы

Структурное сходство между любыми двумя пептидными сегментами оценивалось с использованием комбинации ошибки матрицы расстояний RMS (dme):

$dme = ∑ i = 1 L ∑ j = i - 5 i + 5 (α я → js 1 - α я → js 2) 2 N {\ displaystyle dme = {\ sqrt {\ dfrac {\ sum \ limits _ {i = 1} ^ {L} \ sum \ limits _ {j = i-5 } ^ {i + 5} (\ alpha _ {i \ rightarrow j} ^ {s1} - \ alpha _ {i \ rightarrow j} ^ {s2}) ^ {2}} {N}}}}$ ${\ displaystyle dme = {\ sqrt {\ dfrac {\ sum \ limits _ {i = 1} ^ {L} \ sum \ limits _ {j = i-5} ^ {i + 5} (\ alpha _ {i \ rightarrow j} ^ {s1} - \ alpha _ {i \ rightarrow j} ^ {s2}) ^ {2}} {N} }}}$

где ai->j - расстояние между α-атомами углерода i и j в сегменте s1 длины L, а максимальное отклонение углов скручивания основной цепи (mda) по длине сегмента определяется выражением:

$mda ( L) знак равно макси знак равно 1, L - 1 (Δ Φ я + 1, Δ Ψ я) {\ displaystyle mda (L) = max_ {я = 1, L-1} (\ Delta \ Phi _ {я + 1}, \ Delta \ Psi _ {i})}$ ${\ displaystyle mda (L) = max_ {i = 1, L-1} (\ Delta \ Phi _ {i + 1}, \ Delta \ Psi _ {i})}$

Структура парадигмы для кластера была выбрана из 20 сегментов, получивших наибольшее количество баллов в базе данных, как сегментов с наименьшей суммой значений mda по сравнению с остальными 19 сегментами. прежде чем остановиться на этих двух: среднеквадратичное отклонение атомов углерода (rmsd), только dme, d структурный фильтр, который искал конкретные консервативные контакты. Последний лучше всего работал при различении истинных и ложных срабатываний, но его нелегко было автоматизировать. Было обнаружено, что rmsd и dme являются плохими дискриминаторами двух типов спиральной крышки. Комбинированный фильтр mda-dme лучше всего имитирует фильтр сохраненных контактов и быстро вычисляется.

Ссылки

Bystroff, C; Бейкер, Д. (1998). «Прогнозирование локальной структуры белков с использованием библиотеки мотивов структуры последовательности» (PDF). Журнал молекулярной биологии. 281 (3): 565–77. CiteSeerX 10.1.1.125.3690. doi : 10.1006 / jmbi.1998.1943. PMID 9698570.

Внешние ссылки