I-сайты - это короткие мотивы структуры последовательности, которые получены из банка данных белков ( PDB), которые сильно коррелируют с трехмерными структурными элементами. Эти мотивы структуры последовательности используются для предсказания локальной структуры белков. Локальная структура может быть выражена фрагментами или углами позвоночника. Места в последовательности белка, которые имеют высокую достоверность предсказаний I-сайтов, могут быть сайтами инициации сворачивания. I-сайты также были идентифицированы как дискретные модели путей сворачивания. I-сайты состоят из около 250 мотивов. Каждый мотив имеет аминокислотный профиль, структуру фрагмента (представленную «парадигмальным» фрагментом, выбранным из белка в PDB) и, необязательно, 4-мерный тензор попарной ковариации последовательностей.
База данных последовательностей и структур
База данных изначально состояла из 471 семейства последовательностей белков из базы данных HSSP, в среднем 47 выровненных последовательностей на семейство. Каждое семейство содержало одну известную структуру (родительскую) из Брукхейвенского банка данных белков. Это была часть списка PDBSelect-25, имеющая не более 25% идентичности последовательностей между любыми двумя выравниваниями. Неупорядоченные петли опущены. Пробелы и вставки в последовательности игнорировались.
Кластеризация сегментов последовательности
Каждая позиция в базе данных описывается взвешенной аминокислотной частотой. мера сходства в пространстве последовательности между сегментом (p) и кластером сегментов (q) определяется как:
где Pij (p) - частота аминокислоты i в положении j в сегменте p. Nq - количество сегментов последовательности k в кластере q. Fi - частота встречаемости аминокислот типа i в базе данных в целом. Оптимальные значения a и a0 были определены эмпирически равными 0,5 и 15 соответственно. Используя эту меру сходства, сегменты заданной длины (от 3 до 15) были кластеризованы с помощью алгоритма k-средних.
Оценка структуры в кластере; выбор парадигмы
Структурное сходство между любыми двумя пептидными сегментами оценивалось с использованием комбинации ошибки матрицы расстояний RMS (dme):
где ai->j - расстояние между α-атомами углерода i и j в сегменте s1 длины L, а максимальное отклонение углов скручивания основной цепи (mda) по длине сегмента определяется выражением:
Структура парадигмы для кластера была выбрана из 20 сегментов, получивших наибольшее количество баллов в базе данных, как сегментов с наименьшей суммой значений mda по сравнению с остальными 19 сегментами. прежде чем остановиться на этих двух: среднеквадратичное отклонение атомов углерода (rmsd), только dme, d структурный фильтр, который искал конкретные консервативные контакты. Последний лучше всего работал при различении истинных и ложных срабатываний, но его нелегко было автоматизировать. Было обнаружено, что rmsd и dme являются плохими дискриминаторами двух типов спиральной крышки. Комбинированный фильтр mda-dme лучше всего имитирует фильтр сохраненных контактов и быстро вычисляется.
Bystroff, C; Бейкер, Д. (1998). «Прогнозирование локальной структуры белков с использованием библиотеки мотивов структуры последовательности» (PDF). Журнал молекулярной биологии. 281 (3): 565–77. CiteSeerX 10.1.1.125.3690. doi : 10.1006 / jmbi.1998.1943. PMID 9698570.