Threading (последовательность белков)

редактировать

Распределение белков, также известное как кратное распознавание, представляет собой метод моделирования белков, который используется для моделирования тех белков, которые имеют одинаковую кратность как белки известной структуры, но не имеют гомологичных белков с известной структурой. Он отличается от метода предсказания структуры моделирования гомологии, поскольку он (протяжка белков) используется для белков, у которых нет своих гомологичных белковых структур, хранящихся в банке данных белков (PDB), тогда как моделирование гомологии используется для тех белков, которые это делают. Распределение потоков работает с использованием статистических данных о взаимосвязи между структурами, депонированными в PDB, и последовательностью белка, который требуется моделировать.

Прогноз делается путем «последовательного включения» (т. Е. Размещения, выравнивания) каждой аминокислоты в целевой последовательности в положение в структуре шаблона и оценки того, насколько хорошо цель соответствует шаблону.. После выбора наиболее подходящего шаблона строится структурная модель последовательности на основе совмещения с выбранным шаблоном. Протеиновая нить основана на двух основных наблюдениях: количество различных складок в природе довольно мало (примерно 1300); и что 90% новых структур, представленных в PDB за последние три года, имеют структурные складки, аналогичные тем, которые уже есть в PDB.

Содержание
  • 1 Классификация структуры белка
    • 1.1 Метод
    • 1.2 Сравнение с моделированием гомологии
    • 1.3 Подробнее о нити
  • 2 Программное обеспечение протеиновой нити
  • 3 См. Также
  • 4 Ссылки
  • 5 Дополнительная литература
Классификация структуры белков

База данных Структурная классификация белков (SCOP) предоставляет подробное и всестороннее описание структурных и эволюционных взаимосвязей известной структуры. Белки классифицируются для отражения как структурного, так и эволюционного родства. В иерархии существует много уровней, но основными уровнями являются семейство, суперсемейство и свёртка, как описано ниже.

Семья (четкое эволюционное родство): Белки, сгруппированные вместе в семьи, явно эволюционно связаны. Как правило, это означает, что идентичность попарных остатков между белками составляет 30% и выше. Однако в некоторых случаях сходные функции и структуры обеспечивают окончательное свидетельство общего происхождения в отсутствие высокой идентичности последовательностей; например, многие глобины образуют семейство, хотя некоторые члены имеют идентичность последовательностей только 15%.

Суперсемейство (вероятное общее эволюционное происхождение): Белки, которые имеют низкую идентичность последовательностей, но чьи структурные и функциональные особенности предполагают, что общее эволюционное происхождение вероятно, объединяются в суперсемейства. Например, актин, домен АТФазы белка теплового шока и гексакиназа вместе образуют суперсемейство.

Складка (основное структурное сходство): белки определяются как имеющие общую складку, если они имеют одинаковые основные вторичные структуры в одном расположении и с одинаковыми топологическими связями. Различные белки с одинаковой складкой часто имеют периферические элементы вторичной структуры и участки поворота, которые различаются по размеру и конформации. В некоторых случаях эти отличающиеся периферийные области могут составлять половину структуры. Белки, помещенные вместе в одну и ту же категорию складок, могут не иметь общего эволюционного происхождения: структурные сходства могут возникать только из-за физики и химии белков, благоприятствующих определенному расположению упаковки и топологии цепей.

Метод

Общая парадигма потоковой передачи белков состоит из следующих четырех шагов:

Построение базы данных шаблонов структур: выбор структур белков из баз данных структур белков в качестве структурных шаблоны. Обычно это включает выбор белковых структур из таких баз данных, как PDB, FSSP, SCOP или CATH, после удаления белковых структур с высокой последовательностью. сходства.

Дизайн функции оценки: Разработайте хорошую функцию оценки для измерения соответствия между целевыми последовательностями и шаблонами на основе знания известных взаимосвязей между структурами и последовательностями. Хорошая оценочная функция должна включать в себя потенциал мутации, потенциал соответствия окружающей среде, попарный потенциал, совместимость вторичных структур и штрафы за пробелы. Качество функции энергии тесно связано с точностью прогноза, особенно точностью совмещения.

Выравнивание резьбы: выровняйте целевую последовательность с каждым из шаблонов структуры, оптимизируя разработанную функцию оценки. Этот шаг является одной из основных задач всех программ прогнозирования структуры на основе потоков, которые учитывают потенциал парного контакта; в противном случае это может выполнить алгоритм динамического программирования.

Прогноз нарезки резьбы: выберите наиболее вероятное статистическое выравнивание резьбы в качестве прогноза нарезания резьбы. Затем постройте структурную модель для мишени, разместив атомы основной цепи целевой последовательности в их выровненных позициях основной цепи выбранного структурного шаблона.

Сравнение с моделированием гомологии

Моделирование гомологии и распределение белков - это методы, основанные на шаблонах, и между ними нет строгой границы с точки зрения методов прогнозирования. Но белковые структуры их мишеней различны. Моделирование гомологии предназначено для тех мишеней, которые имеют гомологичные белки с известной структурой (обычно / может быть одного и того же семейства), в то время как потоки белков предназначены для тех мишеней, у которых обнаружена гомология только на уровне свертки. Другими словами, моделирование гомологии предназначено для «более легких» целей, а распределение белков - для «более сложных» целей.

Моделирование гомологии рассматривает шаблон в выравнивании как последовательность, и для прогнозирования используется только гомология последовательности. Распределение белков обрабатывает шаблон в выравнивании как структуру, и информация о последовательности и структуре, извлеченная из выравнивания, используется для прогнозирования. Когда не обнаружено значительной гомологии, протеиновый поток может сделать прогноз на основе информации о структуре. Это также объясняет, почему во многих случаях распределение белков может быть более эффективным, чем моделирование гомологии.

На практике, когда идентичность последовательностей при выравнивании последовательностей низкая (т.е. <25%), homology modeling may not produce a significant prediction. In this case, if there is distant homology found for the target, protein threading can generate a good prediction.

Подробнее о многопоточности

Методы распознавания сгиба можно в общих чертах разделить на два типа: 1, те, которые получают 1-D профиль для каждой структуры в библиотеке складок и выровнять целевую последовательность с этими профилями; и 2, те, которые учитывают полную 3-D структуру белковой матрицы. Простым примером представления профиля было бы взять каждый аминокислоты в структуре и просто маркируйте ее в зависимости от того, находится ли она в ядре белка или выставлена ​​на поверхность. Более сложные профили могут учитывать локальную вторичную структуру (например, является ли аминокислота является частью альфа-спирали ) или даже эволюционной информации (насколько консервативна аминокислота). В трехмерном представлении структура моделируется как набор межатомных расстояний, т.е. рассчитывается между некоторыми или всеми парами атомов в структуре. Это очень более подробное и более гибкое описание конструкции, но его гораздо сложнее использовать при расчете выравнивания. Подход к распознаванию складок на основе профиля был впервые описан Боуи, Люти и Дэвидом Айзенбергом в 1991 году. Термин «резьба» впервые был придуман Дэвидом Джонсом, Уильямом Р. Тейлором и Джанет Торнтон в 1992 г., и первоначально она конкретно упоминала использование полного трехмерного атомного представления структуры белка-матрицы при распознавании складок. Сегодня термины нарезание нитей и распознавание складок часто (хотя и несколько неправильно) используются как синонимы.

Методы распознавания складок широко используются и эффективны, поскольку считается, что в природе существует строго ограниченное количество различных белковых складок, в основном в результате эволюции, но также из-за ограничений, налагаемых фундаментальной физикой и химией. полипептидных цепей. Таким образом, существует большая вероятность (в настоящее время 70-80%), что белок, который имеет подобную укладку по сравнению с целевым белком, уже был изучен с помощью рентгеновской кристаллографии или ядерного магнитного резонанса ( ЯМР) спектроскопии и может быть найден в PDB. В настоящее время известно около 1300 различных складок белков, но каждый год все еще обнаруживаются новые складки, в значительной степени благодаря текущим проектам структурной геномики.

Было предложено множество различных алгоритмов для поиска правильного распределения последовательности в структуре, хотя многие из них в той или иной форме используют динамическое программирование. Для полной трехмерной потоковой передачи проблема определения наилучшего выравнивания очень сложна (это NP-трудная проблема для некоторых моделей потоковой передачи). Исследователи использовали многие комбинаторные методы оптимизации, такие как Условные случайные поля, моделирование отжига, переход и граница и линейное программирование, поиск чтобы прийти к эвристическим решениям. Интересно сравнить методы многопоточности с методами, которые пытаются выровнять две белковые структуры (структурное выравнивание белка ), и действительно, многие из одних и тех же алгоритмов были применены к обеим задачам.

Программное обеспечение для потоковой передачи белков
  • HHpred - это популярный сервер потоковой передачи, который запускает HHsearch, широко используемое программное обеспечение для удаленного обнаружения гомологии на основе попарного сравнения скрытых марковских моделей..
  • RAPTOR (программное обеспечение) - это программное обеспечение для потоковой передачи белков, основанное на целочисленном программировании. Она была заменена новой программой потоковой передачи белков RaptorX / программным обеспечением для моделирования и анализа белков, в которой используются вероятностные графические модели и статистический вывод как для потоковой передачи белков на основе одного шаблона, так и для нескольких шаблонов. RaptorX значительно превосходит RAPTOR и особенно хорош для выравнивания белков с разреженным профилем последовательностей. Сервер RaptorX является общедоступным.
  • Phyre - популярный потоковый сервер, сочетающий HHsearch с ab initio и моделированием с несколькими шаблонами.
  • MUSTER - это стандартный алгоритм потоковой передачи, основанный на по динамическому программированию и выравниванию профиля последовательности. Он также объединяет несколько структурных ресурсов для облегчения выравнивания профиля последовательности.
  • SPARKS X - это вероятностное сопоставление последовательности и структуры между предсказанными одномерными структурными свойствами запроса и соответствующими собственными свойствами шаблонов.
  • BioShell - это поточный алгоритм, использующий оптимизированный алгоритм динамического программирования профиля-профиля в сочетании с предсказанной вторичной структурой.
См. Также
Ссылки
Дополнительная литература
Последняя правка сделана 2021-06-11 10:48:58
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте