Прогноз структуры белка

редактировать
Составляющие аминокислоты можно анализировать для прогнозирования вторичной, третичной и четвертичной структуры белка.

Прогнозирование структуры белка является выводом о трехмерной структуре белка из его аминокислотной последовательности, то есть предсказанием его сворачивания и его вторичного и третичная структура из его первичной структуры. Предсказание структуры принципиально отличается от обратной задачи дизайна белка. Прогнозирование структуры белка - одна из важнейших целей, преследуемых биоинформатикой и теоретической химией ; это очень важно в медицине (например, в разработке лекарств ) и биотехнологии (например, в разработке новых ферментов ). Каждые два года эффективность существующих методов оценивается в эксперименте CASP (Критическая оценка методов прогнозирования структуры белка). Постоянная оценка веб-серверов прогнозирования структуры белка выполняется проектом сообщества CAMEO3D.

Содержание

  • 1 Структура белка и терминология
    • 1.1 α Helix
    • 1.2 β sheet
    • 1.3 Loop
    • 1.4 Спирали
  • 2 Классификация белков
    • 2.1 Термины, используемые для классификации структур и последовательностей белков
  • 3 Вторичная структура
    • 3.1 Предпосылки
    • 3.2 Историческая перспектива
    • 3.3 Другие улучшения
  • 4 Третичная структура
    • 4.1 Перед моделированием
    • 4.2 Моделирование белков Ab initio
      • 4.2.1 Энергетические и фрагментарные методы
      • 4.2.2 Эволюционная ковариация для прогнозирования трехмерных контактов
    • 4.3 Сравнительное моделирование белков
    • 4.4 Прогнозирование геометрии боковой цепи
    • 4.5 Прогнозирование структурных классов
  • 5 Четвертичная структура
  • 6 Программное обеспечение
    • 6.1 Оценка серверов автоматического прогнозирования структуры
  • 7 См. Также
  • 8 Ссылки
    • 8.1 Далее чтение
  • 9 Внешние ссылки

Структура белка и терминология

Белки представляют собой цепочки аминокислот j соединены пептидными связями. Многие конформации этой цепи возможны из-за вращения цепочки вокруг каждого атома Cα. Именно эти конформационные изменения ответственны за различия в трехмерной структуре белков. Каждая аминокислота в цепи полярна, то есть она имеет разделенные положительно и отрицательно заряженные области со свободной карбонильной группой, которая может действовать как акцептор водородной связи, и группой NH, которая может действовать как донор водородной связи. Следовательно, эти группы могут взаимодействовать в структуре белка. 20 аминокислот можно классифицировать по химическому составу боковой цепи, которая также играет важную структурную роль. Глицин занимает особое положение, поскольку он имеет наименьшую боковую цепь, только один атом водорода, и, следовательно, может увеличивать локальную гибкость в структуре белка. Цистеин, с другой стороны, может реагировать с другим остатком цистеина и, таким образом, образовывать поперечную связь, стабилизирующую всю структуру.

Белковая структура может рассматриваться как последовательность элементов вторичной структуры, таких как α-спирали и β-листы, которые вместе составляют общую трехмерную конфигурацию белковой цепи. В этих вторичных структурах между соседними аминокислотами образуются регулярные структуры Н-связей, и аминокислоты имеют одинаковые углы Φ и.

Углы связи для Φ и ψ

Образование этих структур нейтрализует полярные группы каждой аминокислоты. Вторичные структуры плотно упакованы в ядро ​​белка в гидрофобной среде. Каждая боковая группа аминокислоты имеет ограниченный объем для занятия и ограниченное количество возможных взаимодействий с другими близлежащими боковыми цепями, что необходимо учитывать при молекулярном моделировании и выравнивании.

α Helix

? -Спираль - это самый распространенный тип вторичной структуры белков. Спираль α содержит 3,6 аминокислоты на виток с образованием Н-связи между каждым четвертым остатком; средняя длина составляет 10 аминокислот (3 витка) или 10 Å, но варьируется от 5 до 40 (от 1,5 до 11 витков). Выравнивание Н-связей создает дипольный момент для спирали, что приводит к частичному положительному заряду на амино-конце спирали. Поскольку в этой области есть свободные группы NH232>2, она будет взаимодействовать с отрицательно заряженными группами, такими как фосфаты. Чаще всего α-спирали расположены на поверхности ядер белков, где они обеспечивают интерфейс с водной средой. Обращенная к внутренней стороне спираль имеет тенденцию содержать гидрофобные аминокислоты, а обращенная к внешней стороне сторона - гидрофильные аминокислоты. Таким образом, каждая третья из четырех аминокислот в цепи будет иметь тенденцию быть гидрофобной, и эту закономерность можно довольно легко обнаружить. В мотиве лейциновой застежки-молнии повторяющийся узор лейцинов на обращенных сторонах двух соседних спиралей очень хорошо предсказывает мотив. Чтобы показать этот повторяющийся узор, можно использовать график со спиральным колесом. Другие α-спирали, скрытые в ядре белка или в клеточных мембранах, имеют более высокое и более регулярное распределение гидрофобных аминокислот и очень предсказуемы для таких структур. Выступающие на поверхности спирали содержат меньшее количество гидрофобных аминокислот. Содержание аминокислот может указывать на наличие α-спиральной области. Области, более богатые аланином (A), глутаминовой кислотой (E), лейцином (L) и метионином (M) и более бедные в пролине (P), глицине (G), тирозине (Y) и серине (S), как правило, образуются α спираль. Пролин дестабилизирует или разрывает α-спираль, но может присутствовать в более длинных спиралях, образуя изгиб.

Альфа-спираль с водородными связями (желтые точки)

β-лист

β-листы образованы Н-связями между 5–10 последовательными аминокислотами в одной части цепи с другой. На 5–10 дальше по цепочке. Взаимодействующие области могут быть смежными, с короткой петлей между ними или далеко друг от друга, с другими структурами между ними. Каждая цепь может идти в одном направлении, чтобы образовать параллельный лист, каждая другая цепь может идти в обратном химическом направлении, чтобы образовывать антипараллельный лист, или цепи могут быть параллельными и антипараллельными, чтобы образовывать смешанный лист. Рисунок H-соединения отличается в параллельной и антипараллельной конфигурациях. Каждая аминокислота во внутренних цепях листа образует две Н-связи с соседними аминокислотами, тогда как каждая аминокислота на внешних цепях образует только одну связь с внутренней цепью. Если смотреть поперек листа под прямым углом к ​​прядям, более дальние пряди слегка поворачиваются против часовой стрелки, чтобы образовать левый поворот. Атомы Cα чередуются над и под листом в складчатой ​​структуре, а боковые группы R аминокислот чередуются над и под складками. Углы Φ и аминокислот в листах значительно различаются в одной области графика Рамачандрана. Расположение β-листов сложнее предсказать, чем α-спиралей. Ситуация несколько улучшается, если принимать во внимание вариацию аминокислот при множественном выравнивании последовательностей.

Петля

Петли - это участки белковой цепи, которые 1) находятся между α-спиралями и β-листами, 2) разной длины и трехмерной конфигурации и 3) на поверхности структура.

Петли шпильки, которые представляют собой полный виток полипептидной цепи, соединяющей две антипараллельные β-цепи, могут иметь длину до двух аминокислот. Петли взаимодействуют с окружающей водной средой и другими белками. Поскольку аминокислоты в петлях не ограничены пространством и окружающей средой, как аминокислоты в области ядра, и не влияют на расположение вторичных структур в ядре, может произойти больше замен, вставок и делеций. Таким образом, при выравнивании последовательностей наличие этих признаков может указывать на наличие петли. Положения интронов в геномной ДНК иногда соответствуют положениям петель в кодируемом белке. Петли также, как правило, содержат заряженные и полярные аминокислоты и часто являются компонентом активных центров. Детальное изучение петлевых структур показало, что они делятся на отдельные семейства.

Спирали

Область вторичной структуры, которая не является α-спиралью, β-листом или узнаваемым витком, обычно называется спиралью.

Классификация белков

Белки можно классифицировать как по структурному сходству, так и по сходству последовательностей. Для структурной классификации размеры и пространственное расположение вторичных структур, описанных в предыдущем абзаце, сравниваются с известными трехмерными структурами. Исторически первой использовалась классификация, основанная на сходстве последовательностей. Первоначально сходство было выполнено на основе выравнивания целых последовательностей. Позже белки были классифицированы на основе наличия консервативных аминокислотных паттернов. Доступны базы данных, которые классифицируют белки по одной или нескольким из этих схем. Рассматривая схемы классификации белков, важно помнить о нескольких наблюдениях. Во-первых, две совершенно разные белковые последовательности из разного эволюционного происхождения могут складываться в похожую структуру. И наоборот, последовательность древнего гена данной структуры могла значительно отличаться у разных видов, в то же время сохраняя те же основные структурные особенности. Распознать любое остающееся сходство последовательностей в таких случаях может быть очень сложной задачей. Во-вторых, два белка, которые имеют значительную степень сходства последовательностей либо друг с другом, либо с третьей последовательностью, также имеют эволюционное происхождение и должны иметь общие структурные особенности. Однако дупликация генов и генетические перестройки в ходе эволюции могут привести к появлению новых копий генов, которые затем могут эволюционировать в белки с новой функцией и структурой.

Термины, используемые для классификации структур и последовательностей белков

Наиболее часто используемые термины для обозначения эволюционных и структурных отношений между белками перечислены ниже. Многие дополнительные термины используются для обозначения различных структурных особенностей белков. Описания таких терминов можно найти на веб-сайте CATH, на веб-сайте Структурная классификация белков (SCOP) и в учебном пособии по Glaxo Wellcome на швейцарском веб-сайте по биоинформатике Expasy.

Активный сайт
локализованная комбинация боковых аминокислотных групп в третичной (трехмерной) или четвертичной (субъединица белка) структуре, которая может взаимодействовать с химически специфическим субстратом и придает белку биологическую активность. Белки с очень разными аминокислотными последовательностями могут складываться в структуру, продуцирующую один и тот же активный сайт.
Архитектура
- это относительная ориентация вторичных структур в трехмерной структуре независимо от того, они не имеют схожую структуру цикла.
Fold (топология)
тип архитектуры, который также имеет консервативную структуру цикла.
Blocks
is консервативный образец аминокислотной последовательности в семействе белков. Шаблон включает серию возможных совпадений в каждой позиции в представленных последовательностях, но нет никаких вставленных или удаленных позиций в шаблоне или в последовательностях. Напротив, профили последовательностей представляют собой тип оценочной матрицы, которая представляет аналогичный набор шаблонов, который включает в себя вставки и удаления.
Класс
термин, используемый для классификации белковых доменов в соответствии с их вторичным структурным содержанием и организацией. Четыре класса были первоначально признаны Левиттом и Чотиа (1976), а несколько других были добавлены в базу данных SCOP. В базе данных CATH представлены три класса: в основном-α, в основном-β и α – β, причем класс α – β включает как чередующиеся структуры α / β, так и α + β.
Ядро
часть свернутой белковой молекулы, которая включает гидрофобную внутреннюю часть α-спиралей и β-листов. Компактная структура объединяет боковые группы аминокислот на достаточно близком расстоянии, так что они могут взаимодействовать. При сравнении белковых структур, как в базе данных SCOP, ядро ​​- это область, общая для большинства структур, имеющих общую складку или находящихся в одном суперсемействе. При прогнозировании структуры ядро ​​иногда определяют как расположение вторичных структур, которое, вероятно, будет сохранено во время эволюционного изменения.
Домен (контекст последовательности)
сегмент полипептидной цепи, который может складываться в трехмерную структуру независимо от наличия других сегментов цепи. Отдельные домены данного белка могут широко взаимодействовать или могут быть соединены только по длине полипептидной цепи. Белок с несколькими доменами может использовать эти домены для функционального взаимодействия с разными молекулами.
Семейство (контекст последовательности)
группа белков схожей биохимической функции, которые идентичны более чем на 50% при выравнивании. Этот же порог по-прежнему используется Информационным ресурсом белка (PIR). Семейство белков включает белки с одинаковой функцией в разных организмах (ортологичные последовательности), но может также включать белки в том же организме (паралогичные последовательности), полученные в результате дупликации и перестройки генов. Если множественное выравнивание последовательностей семейства белков выявляет общий уровень сходства по всей длине белков, PIR относится к семейству как гомеоморфному семейству. Выровненная область называется гомеоморфным доменом, и эта область может включать несколько меньших гомологических доменов, которые являются общими с другими семействами. Семейства могут быть дополнительно подразделены на подсемейства или сгруппированы в суперсемейства на основе соответствующих более высоких или более низких уровней сходства последовательностей. В базе данных SCOP указано 1296 семейств, а в базе данных CATH (версия 1.7 бета) - 1846 семейств.
Когда последовательности белков с одинаковой функцией исследуются более подробно, обнаруживается, что некоторые из них обладают высоким сходством последовательностей. Очевидно, что они являются членами одной семьи по указанным выше критериям. Однако обнаружены другие, которые имеют очень небольшое или даже незначительное сходство последовательностей с другими членами семейства. В таких случаях семейные отношения между двумя дальними членами семьи A и C часто можно продемонстрировать, найдя дополнительного члена семьи B, который имеет значительное сходство как с A, так и с C. Таким образом, B обеспечивает связующее звено между A и C. Другой подход заключается в изучении отдаленных выравниваний на предмет высококонсервативных совпадений.
При уровне идентичности 50% белки, вероятно, будут иметь одинаковую трехмерную структуру, и идентичные атомы в выравнивании последовательностей также будут накладываться друг на друга примерно в пределах 1 Å в структурной модели. Таким образом, если структура одного члена семьи известна, надежный прогноз может быть сделан для второго члена семьи, и чем выше уровень идентичности, тем надежнее прогноз. Структурное моделирование белка может быть выполнено путем изучения того, насколько хорошо аминокислотные замены вписываются в ядро ​​трехмерной структуры.
Семейство (структурный контекст)
, используемое в базе данных FSSP (Семейства структурно схожих белков ) и веб-сайт DALI / FSSP, две структуры, которые имеют значительный уровень структурного сходства, но не обязательно значительное сходство последовательностей.
Fold
аналогично к структурному мотиву, включает в себя более крупную комбинацию вторичных структурных единиц в той же конфигурации. Таким образом, белки, имеющие одну и ту же складку, имеют одинаковую комбинацию вторичных структур, которые связаны подобными петлями. Примером может служить складка Россмана, состоящая из нескольких чередующихся α-спиралей и параллельных β-тяжей. В базах данных SCOP, CATH и FSSP известные белковые структуры классифицированы по иерархическим уровням структурной сложности, причем кратность является основным уровнем классификации.
Гомологичный домен (контекст последовательности)
расширенный паттерн последовательностей, обычно обнаруживаемый методами выравнивания последовательностей, который указывает на общее эволюционное происхождение среди выровненных последовательностей. Домен гомологии обычно длиннее, чем мотивы. Домен может включать в себя всю заданную последовательность белка или только часть последовательности. Некоторые домены сложны и состоят из нескольких более мелких гомологических доменов, которые соединились, чтобы сформировать более крупный в ходе эволюции. Домен, который охватывает всю последовательность, называется гомеоморфным доменом с помощью PIR (Protein Information Resource ).
Module
область консервативных аминокислотных паттернов, включающая один или несколько мотивов и рассматриваемая как фундаментальная единица. структуры или функции. Наличие модуля также использовалось для классификации белков по семействам.
Мотив (контекст последовательности)
консервативный набор аминокислот, который встречается в двух или более белки. В каталоге Prosite мотив представляет собой аминокислотный образец, который обнаруживается в группе белков, которые имеют аналогичную биохимическую активность, и который часто находится рядом с активным сайтом белка. Примеры последовательности базы данных мотивов - это каталог Prosite и база данных Stanford Motifs.
Мотив (структурный контекст)
комбинация нескольких вторичных структурных элементов, образующихся путем сворачивания соседних участков полипептидной цепи в определенные трехмерная конфигурация. Примером является мотив спираль-петля-спираль. Структурные мотивы также называются супервторичными структурами и складками.
Позиционно-зависимая оценочная матрица (контекст последовательности, также известная как весовая или оценочная матрица)
представляет собой консервативную область при множественном выравнивании последовательностей без зазоров. Каждый столбец матрицы представляет собой вариацию, обнаруженную в одном столбце множественного выравнивания последовательностей.
Матрица балльной оценки, зависящая от положения - 3D (структурный контекст)
представляет собой вариацию аминокислот, обнаруженную при выравнивании белков. которые попадают в один и тот же структурный класс. Столбцы матрицы представляют собой аминокислотную вариацию, обнаруженную в одном положении аминокислоты в выровненных структурах.
Первичная структура
линейная аминокислотная последовательность белка, который химически представляет собой полипептидную цепь, состоящую из аминокислот, соединенных пептидными связями.
Профиль (контекст последовательности)
матрица оценок, которая представляет множественное выравнивание последовательностей семейства белков. Профиль обычно получают из хорошо консервативной области при множественном выравнивании последовательностей. Профиль представляет собой матрицу, в которой каждый столбец представляет позицию в выравнивании, а каждая строка - одна из аминокислот. Значения матрицы дают вероятность каждой аминокислоты в соответствующем положении в выравнивании. Профиль перемещается по целевой последовательности, чтобы найти регионы с лучшими оценками с помощью алгоритма динамического программирования. Во время сопоставления допускаются пробелы, и в этом случае в качестве отрицательной оценки включается штраф за пробелы, если ни одна аминокислота не сопоставлена. Профиль последовательности также может быть представлен скрытой марковской моделью, называемой профилем HMM.
Профиль (структурный контекст)
оценочной матрицей, которая представляет, какие аминокислоты кислоты должны хорошо подходить и плохо подходить в последовательных положениях в известной структуре белка. Столбцы профиля представляют собой последовательные положения в структуре, а ряды профиля представляют 20 аминокислот. Как и в случае профиля последовательности, структурный профиль перемещается вдоль целевой последовательности, чтобы найти максимально возможную оценку выравнивания с помощью алгоритма динамического программирования. Пробелы могут быть включены и получить штраф. Полученная оценка позволяет определить, может ли целевой белок иметь такую ​​структуру.
Четвертичная структура
трехмерная конфигурация белковой молекулы, содержащей несколько независимых полипептидных цепей.
Вторичная структура
взаимодействия, которые происходят между группами C, O и NH на аминокислотах в полипептидной цепи с образованием α-спиралей, β-листов, витков, петель и других форм, и которые способствуют складыванию в трехмерную структуру.
Суперсемейство
группа семейств белков одинаковой или разной длины, которые связаны отдаленным, но обнаруживаемым сходством последовательностей. Таким образом, члены данного суперсемейства имеют общее эволюционное происхождение. Первоначально Дайхофф определил границу для статуса суперсемейства как вероятность того, что последовательности не связаны между собой 10 6, на основании оценки выравнивания (Dayhoff et al. 1978). Белки с небольшим количеством идентичностей при выравнивании последовательностей, но с убедительно общим числом структурных и функциональных особенностей помещаются в одно и то же суперсемейство. На уровне трехмерной структуры белки суперсемейства будут иметь общие структурные особенности, такие как общая складка, но также могут быть различия в количестве и расположении вторичных структур. Ресурс PIR использует термин гомеоморфные суперсемейства для обозначения суперсемейств, которые состоят из последовательностей, которые могут быть выровнены от конца до конца, что представляет собой общий домен гомологии одной последовательности, область сходства, которая распространяется на протяжении всего выравнивания. Этот домен может также включать более мелкие гомологические домены, которые являются общими с другими семействами белков и суперсемействами. Хотя данная белковая последовательность может содержать домены, обнаруженные в нескольких суперсемействах, что указывает на сложную эволюционную историю, последовательности будут отнесены только к одному гомеоморфному суперсемейству на основании наличия сходства на протяжении множественного выравнивания последовательностей. Выравнивание суперсемейства может также включать области, которые не выравниваются ни внутри, ни на концах выравнивания. Напротив, последовательности в одном семействе хорошо выравниваются на протяжении всего выравнивания.
Супервторичная структура
термин со значением, аналогичным структурному мотиву. Третичная структура - это трехмерная или глобулярная структура, образованная объединением или складыванием вторичных структур полипептидной цепи.

Вторичная структура

Прогнозирование вторичной структуры - это набор методов в биоинформатике, которые стремятся предсказать локальные вторичные структуры белков, основываясь только на знании их аминокислотной последовательности. Для белков прогноз состоит в отнесении участков аминокислотной последовательности к вероятным альфа-спиралям, бета-цепям (часто обозначаемым как «расширенные» конформации) или виткам. Успех прогноза определяется путем сравнения его с результатами алгоритма DSSP (или аналогичного, например, STRIDE ), примененного к кристаллической структуре белка. Были разработаны специализированные алгоритмы для обнаружения в белках конкретных четко определенных структур, таких как трансмембранные спирали и спиральные спирали.

Лучшие современные методы предсказания вторичной структуры в белках достигают точности около 80%; такая высокая точность позволяет использовать прогнозы в качестве признаков, улучшающих кратное распознавание и ab initio предсказание структуры белка, классификацию структурных мотивов и уточнение выравнивания последовательностей. Точность текущих методов прогнозирования вторичной структуры белков оценивается в еженедельных тестах, таких как LiveBench и EVA.

Предпосылки

Ранние методы прогнозирования вторичной структуры, представленные в 1960-х и начале 1970-х годов, были сосредоточены на идентификации вероятных альфа-спиралей и основывались в основном на моделях перехода спираль-клубок. Значительно более точные прогнозы, включающие бета-листы, были введены в 1970-х годах и основывались на статистических оценках, основанных на параметрах вероятности, полученных из известных решенных структур. Эти методы, применяемые к одной последовательности, обычно имеют точность не более 60-65% и часто недооценивают бета-листы. эволюционная консервация вторичных структур может быть использована путем одновременной оценки множества гомологичных последовательностей в множественном выравнивании последовательностей, вычисляя чистую вторичную структурная предрасположенность выровненного столбца аминокислот. В сочетании с более крупными базами данных известных белковых структур и современными методами машинного обучения, такими как нейронные сети и , поддерживающие векторные машины, эти методы могут обеспечить до 80% общего точность в глобулярных белках. Теоретический верхний предел точности составляет около 90%, отчасти из-за идиосинкразии в назначении DSSP около концов вторичных структур, где локальные конформации меняются в естественных условиях, но могут быть вынуждены принять единую конформацию в кристаллах из-за ограничений упаковки. Ограничения также накладываются неспособностью предсказания вторичной структуры учесть третичную структуру ; например, последовательность, предсказанная как вероятная спираль, может все еще быть способной принять конформацию бета-цепи, если она расположена в области бета-слоя белка и ее боковые цепи хорошо упаковываются со своими соседями. Резкие конформационные изменения, связанные с функцией белка или окружающей средой, также могут изменить локальную вторичную структуру.

Историческая перспектива

На сегодняшний день разработано более 20 различных методов прогнозирования вторичной структуры. Одним из первых алгоритмов был метод Чоу-Фасмана, который основывается преимущественно на параметрах вероятности, определенных на основе относительных частот появления каждой аминокислоты в каждом типе вторичной структуры. Исходные параметры Чоу-Фасмана, определенные на небольшой выборке структур, решенных в середине 1970-х годов, дают плохие результаты по сравнению с современными методами, хотя параметризация была обновлена ​​с момента ее первой публикации. Метод Чоу-Фасмана дает примерно 50-60% точности в предсказании вторичных структур.

Следующей известной программой был метод газового фактора, названный в честь трех ученых, которые разработали его - Гарнье, Осгуторп., а Робсон - метод, основанный на теории информации. Он использует более мощный вероятностный метод байесовского вывода. Метод GOR учитывает не только вероятность того, что каждая аминокислота имеет конкретную вторичную структуру, но также условную вероятность аминокислоты, предполагая, что каждая структура зависит от вкладов ее соседей (он не предполагает, что у соседей такая же структура). Подход и более чувствительный, и более точный, чем подход Чоу и Фасмана, потому что структурные склонности аминокислот сильны только для небольшого числа аминокислот, таких как пролин и глицин. Слабый вклад каждого из множества соседей может привести к сильным эффектам в целом. Первоначальный метод газового фактора был примерно на 65% точен и значительно более успешен в предсказании альфа-спиралей, чем бета-листы, которые он часто ошибочно предсказывал как петли или неорганизованные области.

Еще одним большим шагом вперед стало использование машинного обучения методы. Были использованы первые методы искусственных нейронных сетей. В качестве обучающих наборов они используют решенные структуры для определения общих мотивов последовательностей, связанных с конкретными расположениями вторичных структур. Эти методы имеют точность более 70% в своих прогнозах, хотя бета-цепи по-прежнему часто недооцениваются из-за отсутствия трехмерной структурной информации, которая позволила бы оценить паттерны водородных связей, которые могут способствовать формированию расширенной конформации. требуется для наличия полной бета-версии. PSIPRED и JPRED - одни из наиболее известных программ, основанных на нейронных сетях для предсказания вторичной структуры белков. Далее, машины опорных векторов оказались особенно полезными для прогнозирования местоположений поворотов, которые трудно идентифицировать с помощью статистических методов.

Расширения методов машинного обучения пытаются предсказывать более мелкие локальные свойства белков, такие как позвоночник двугранные углы в неназначенных областях. Для решения этой проблемы были применены как SVM, так и нейронные сети. В последнее время реальные значения торсионных углов можно точно предсказать с помощью SPINE-X и успешно использовать для предсказания структуры ab initio.

Другие улучшения

Сообщается, что в дополнение к последовательности белка, формирование вторичной структуры зависит от других факторов. Например, сообщается, что тенденции вторичной структуры зависят также от местной окружающей среды, доступности остатков для растворителя, структурного класса белков и даже от организма, из которого эти белки получены. На основании таких наблюдений некоторые исследования показали, что прогнозирование вторичной структуры может быть улучшено путем добавления информации о структурном классе белка, доступной для остатка площади поверхности, а также информации о контактном номере.

Третичная структура

Практическая роль предсказания структуры белка сейчас важна как никогда. Огромные объемы данных о последовательности белков получают с помощью современных крупномасштабных усилий по секвенированию ДНК, таких как Human Genome Project. Несмотря на усилия всего сообщества в структурной геномике, получение экспериментально определенных белковых структур - обычно с помощью трудоемких и относительно дорогостоящих рентгеновской кристаллографии или ЯМР-спектроскопии - сильно отстает от выхода белковых последовательностей.

Прогнозирование структуры белка остается чрезвычайно сложной и нерешенной задачей. Двумя основными проблемами являются вычисление свободной энергии белка и определение глобального минимума этой энергии. Метод предсказания структуры белка должен исследовать пространство возможных структур белка, которое астрономически велико. Эти проблемы можно частично обойти с помощью методов «сравнительного» или гомологического моделирования и кратного распознавания, в которых пространство поиска сокращается за счет предположения, что рассматриваемый белок принимает структуру, которая является близка к экспериментально определенной структуре другого гомологичного белка. С другой стороны, методы предсказания структуры белка de novo или ab initio должны явно решать эти проблемы. Прогресс и проблемы в предсказании структуры белка были рассмотрены в Zhang 2008.

До моделирования

Большинство методов моделирования третичной структуры, такие как Rosetta, оптимизированы для моделирования третичной структуры отдельных доменов белка.. Шаг, называемый анализом домена или предсказанием границы домена, обычно выполняется первым, чтобы разделить белок на потенциальные структурные домены. Как и в случае остального предсказания третичной структуры, это можно сделать сравнительно на основе известных структур или ab initio только с последовательностью (обычно с помощью машинного обучения с помощью ковариации). Структуры отдельных доменов состыковываются вместе в процессе, называемом сборка домена, чтобы сформировать окончательную третичную структуру.

Моделирование белков Ab initio

Методы на основе энергии и фрагментов

Ab initio- или de novo-методы моделирования белков стремятся построить трехмерные модели белка «с нуля», то есть основанные на физических принципах, а не (непосредственно) на ранее решенных структурах. Существует множество возможных процедур, которые либо пытаются имитировать сворачивание белка, либо применяют какой-либо метод стохастического для поиска возможных решений (например, глобальная оптимизация подходящей энергетической функции). Эти процедуры обычно требуют огромных вычислительных ресурсов и, таким образом, выполнялись только для крошечных белков. Для прогнозирования структуры белка de novo для более крупных белков потребуются более совершенные алгоритмы и большие вычислительные ресурсы, подобные тем, которые предоставляются мощными суперкомпьютерами (такими как Blue Gene или MDGRAPE-3 ) или распределенными вычислениями ( такие как Folding @ home, Human Proteome Folding Project и Rosetta @ Home ). Хотя эти вычислительные барьеры огромны, потенциальные преимущества структурной геномики (с помощью предсказанных или экспериментальных методов) делают предсказание структуры ab initio активной областью исследований.

По состоянию на 2009 год, белок из 50 остатков можно моделировать атомно-атомным методом. атомарно на суперкомпьютере за 1 миллисекунду. С 2012 года сопоставимая выборка в стабильном состоянии могла быть сделана на стандартном настольном компьютере с новой видеокартой и более сложными алгоритмами. Значительно большие временные рамки моделирования могут быть достигнуты с использованием крупномасштабного моделирования.

эволюционной ковариации для прогнозирования трехмерных контактов

Поскольку секвенирование стало более обычным явлением в 1990-х годах, несколько групп использовали выравнивание последовательностей белков для прогнозирования коррелированных мутации, и можно было надеяться, что эти коэволюционирующие остатки можно использовать для предсказания третичной структуры (с использованием аналогии с ограничениями расстояния из экспериментальных процедур, таких как ЯМР ). Предполагается, что когда одинарные остаточные мутации являются немного вредными, могут возникать компенсаторные мутации, чтобы повторно стабилизировать остаточные взаимодействия. В этой ранней работе использовались так называемые локальные методы для расчета коррелированных мутаций из белковых последовательностей, но при этом наблюдались косвенные ложные корреляции, возникающие в результате рассмотрения каждой пары остатков как независимой от всех остальных пар.

В 2011 году другой, и на этот раз глобальный статистический подход продемонстрировал, что предсказанных коэволюционирующих остатков было достаточно для предсказания трехмерной укладки белка, при условии, что имеется достаточно доступных последовательностей (требуется>1000 гомологичных последовательностей). В методе EVfold не используется моделирование гомологии, нарезание нитей или фрагменты трехмерной структуры, и его можно запускать на стандартном персональном компьютере даже для белков с сотнями остатков. Точность контактов, предсказанных с использованием этого и родственных подходов, теперь продемонстрирована на многих известных структурах и картах контактов, включая предсказание экспериментально неразрешенных трансмембранных белков.

Сравнительное моделирование белков

Сравнительное моделирование белков использует ранее решенные структуры в качестве отправных точек или шаблонов. Это эффективно, поскольку кажется, что, хотя количество реальных белков огромно, существует ограниченный набор третичных структурных мотивов, которым принадлежит большинство белков. Было высказано предположение, что в природе существует только около 2000 различных белковых складок, хотя существует много миллионов различных белков.

Эти методы также можно разделить на две группы:

  • Моделирование гомологии основано на разумном предположении, что два гомологичных белка будут иметь очень похожие структуры. Поскольку складка белка более эволюционно консервативна, чем его аминокислотная последовательность, последовательность-мишень может быть смоделирована с разумной точностью на очень отдаленно родственной матрице, при условии, что связь между мишенью и матрицей может быть выявлена ​​посредством выравнивания последовательностей.. Было высказано предположение, что основное узкое место в сравнительном моделировании возникает из-за трудностей в выравнивании, а не из-за ошибок в прогнозировании структуры при заведомо хорошей согласованности. Неудивительно, что моделирование гомологии является наиболее точным, когда цель и матрица имеют сходные последовательности.
  • Продувка белков сканирует аминокислотную последовательность неизвестной структуры по базе данных решенных структур. В каждом случае функция оценки используется для оценки совместимости последовательности со структурой, что позволяет получить возможные трехмерные модели. Этот тип метода также известен как 3D-1D-кратное распознавание из-за его анализа совместимости между трехмерными структурами и линейными последовательностями белков. Этот метод также привел к появлению методов, выполняющих поиск с обратным сворачиванием путем оценки совместимости данной структуры с большой базой данных последовательностей, тем самым предсказывая, какие последовательности потенциально могут создать данную свертку.

Прогнозирование геометрии боковой цепи

Точная упаковка аминокислот боковых цепей представляет собой отдельную проблему при прогнозировании структуры белка. Методы, которые конкретно решают проблему прогнозирования геометрии боковой цепи, включают методы исключения тупика и самосогласованного среднего поля. Конформации боковых цепей с низкой энергией обычно определяют на жестком полипептидном скелете с использованием набора дискретных конформаций боковых цепей, известных как «ротамеры ». Методы пытаются идентифицировать набор ротамеров, которые минимизируют общую энергию модели.

В этих методах используются библиотеки ротамеров, которые представляют собой коллекции подходящих конформаций для каждого типа остатков в белках. Библиотеки ротамеров могут содержать информацию о конформации, ее частоте и стандартных отклонениях средних двугранных углов, которые могут быть использованы при отборе проб. Библиотеки ротамеров получены на основе структурной биоинформатики или другого статистического анализа конформаций боковых цепей в известных экспериментальных структурах белков, например, путем кластеризации наблюдаемых конформаций для тетраэдрических атомов углерода вблизи смещенных (60 °, 180 °, - 60 °) значения.

Библиотеки Rotamer могут быть независимыми от основы, зависимой от вторичной структуры или зависимой от основы. Независимые от скелета библиотеки ротамеров не ссылаются на конформацию скелета и рассчитываются из всех доступных боковых цепей определенного типа (например, первый пример библиотеки ротамеров, созданный Ponder и Richards в Йельском университете в г. 1987). Библиотеки, зависящие от вторичной структуры, представляют разные двугранные углы и / или частоты ротамера для α {\ displaystyle \ alpha}\ alpha -helix, β {\ displaystyle \ beta}\ beta -лист, или катушки вторичных конструкций. Библиотеки ротамеров, зависящие от скелета, представляют конформации и / или частоты, зависящие от локальной конформации скелета, как определено двугранными углами скелета ϕ {\ displaystyle \ phi}\ phi и ψ {\ displaystyle \ psi }\ psi , независимо от вторичной структуры.

Современные версии этих библиотек, которые используются в большинстве программ, представлены в виде многомерных распределений вероятности или частоты, где пики соответствуют конформациям двугранного угла рассматриваются как отдельные ротамеры в списках. Некоторые версии основаны на очень тщательно отобранных данных и используются в основном для проверки структуры, в то время как другие подчеркивают относительные частоты в гораздо более крупных наборах данных и являются формой, используемой в основном для прогнозирования структуры, например библиотеки ротамеров Данбрака.

Методы упаковки боковых цепей наиболее полезны для анализа гидрофобного ядра белка, где боковые цепи более плотно упакованы; им труднее устранять более свободные ограничения и более высокую гибкость поверхностных остатков, которые часто занимают несколько конформаций ротамера, а не одну.

Прогнозирование структурных классов

Были разработаны статистические методы для прогнозирования структурных классы белков на основе их аминокислотного состава, псевдоаминокислотного состава и состава функциональных доменов. Предсказание вторичной структуры также неявно генерирует такое предсказание для особых областей.

Четвертичная структура

В случае комплексов двух или более белков, где структуры белков известны или могут быть предсказаны с высокой точностью, Белок-белковая стыковка методы могут использоваться для предсказания структуры комплекса. Информация о влиянии мутаций в определенных сайтах на сродство комплекса помогает понять сложную структуру и определить методы стыковки.

Программное обеспечение

Существует большое количество программных инструментов для предсказания структуры белка. Подходы включают моделирование гомологии, распределение белков, методы ab initio, предсказание вторичной структуры, а также предсказание трансмембранной спирали и сигнального пептида. Некоторые недавние успешные методы, основанные на экспериментах CASP, включают I-TASSER и HHpred. Полный список см. В основной статье.

Оценка серверов автоматического предсказания структуры

CASP, который расшифровывается как «Критическая оценка методов предсказания структуры протеина», представляет собой эксперимент для всего сообщества по предсказанию структуры протеина. каждые два года с 1994 года. CASP предоставляет возможность оценить качество доступных человеческих, неавтоматизированных методологий (категория людей) и автоматических серверов для прогнозирования структуры белка (категория серверов, представленная в CASP7).

CAMEO3D Сервер непрерывной автоматизированной оценки модели еженедельно оценивает серверы автоматического прогнозирования структуры белка, используя слепые прогнозы для новых структур белка. CAMEO публикует результаты на своем веб-сайте.

См. Также

  • icon Портал биологии

Ссылки

Дополнительная литература

Внешние ссылки

Последняя правка сделана 2021-06-02 08:35:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте