Прогнозирование структуры белка является выводом о трехмерной структуре белка из его аминокислотной последовательности, то есть предсказанием его сворачивания и его вторичного и третичная структура из его первичной структуры. Предсказание структуры принципиально отличается от обратной задачи дизайна белка. Прогнозирование структуры белка - одна из важнейших целей, преследуемых биоинформатикой и теоретической химией ; это очень важно в медицине (например, в разработке лекарств ) и биотехнологии (например, в разработке новых ферментов ). Каждые два года эффективность существующих методов оценивается в эксперименте CASP (Критическая оценка методов прогнозирования структуры белка). Постоянная оценка веб-серверов прогнозирования структуры белка выполняется проектом сообщества CAMEO3D.
Белки представляют собой цепочки аминокислот j соединены пептидными связями. Многие конформации этой цепи возможны из-за вращения цепочки вокруг каждого атома Cα. Именно эти конформационные изменения ответственны за различия в трехмерной структуре белков. Каждая аминокислота в цепи полярна, то есть она имеет разделенные положительно и отрицательно заряженные области со свободной карбонильной группой, которая может действовать как акцептор водородной связи, и группой NH, которая может действовать как донор водородной связи. Следовательно, эти группы могут взаимодействовать в структуре белка. 20 аминокислот можно классифицировать по химическому составу боковой цепи, которая также играет важную структурную роль. Глицин занимает особое положение, поскольку он имеет наименьшую боковую цепь, только один атом водорода, и, следовательно, может увеличивать локальную гибкость в структуре белка. Цистеин, с другой стороны, может реагировать с другим остатком цистеина и, таким образом, образовывать поперечную связь, стабилизирующую всю структуру.
Белковая структура может рассматриваться как последовательность элементов вторичной структуры, таких как α-спирали и β-листы, которые вместе составляют общую трехмерную конфигурацию белковой цепи. В этих вторичных структурах между соседними аминокислотами образуются регулярные структуры Н-связей, и аминокислоты имеют одинаковые углы Φ и.
Углы связи для Φ и ψОбразование этих структур нейтрализует полярные группы каждой аминокислоты. Вторичные структуры плотно упакованы в ядро белка в гидрофобной среде. Каждая боковая группа аминокислоты имеет ограниченный объем для занятия и ограниченное количество возможных взаимодействий с другими близлежащими боковыми цепями, что необходимо учитывать при молекулярном моделировании и выравнивании.
? -Спираль - это самый распространенный тип вторичной структуры белков. Спираль α содержит 3,6 аминокислоты на виток с образованием Н-связи между каждым четвертым остатком; средняя длина составляет 10 аминокислот (3 витка) или 10 Å, но варьируется от 5 до 40 (от 1,5 до 11 витков). Выравнивание Н-связей создает дипольный момент для спирали, что приводит к частичному положительному заряду на амино-конце спирали. Поскольку в этой области есть свободные группы NH232>2, она будет взаимодействовать с отрицательно заряженными группами, такими как фосфаты. Чаще всего α-спирали расположены на поверхности ядер белков, где они обеспечивают интерфейс с водной средой. Обращенная к внутренней стороне спираль имеет тенденцию содержать гидрофобные аминокислоты, а обращенная к внешней стороне сторона - гидрофильные аминокислоты. Таким образом, каждая третья из четырех аминокислот в цепи будет иметь тенденцию быть гидрофобной, и эту закономерность можно довольно легко обнаружить. В мотиве лейциновой застежки-молнии повторяющийся узор лейцинов на обращенных сторонах двух соседних спиралей очень хорошо предсказывает мотив. Чтобы показать этот повторяющийся узор, можно использовать график со спиральным колесом. Другие α-спирали, скрытые в ядре белка или в клеточных мембранах, имеют более высокое и более регулярное распределение гидрофобных аминокислот и очень предсказуемы для таких структур. Выступающие на поверхности спирали содержат меньшее количество гидрофобных аминокислот. Содержание аминокислот может указывать на наличие α-спиральной области. Области, более богатые аланином (A), глутаминовой кислотой (E), лейцином (L) и метионином (M) и более бедные в пролине (P), глицине (G), тирозине (Y) и серине (S), как правило, образуются α спираль. Пролин дестабилизирует или разрывает α-спираль, но может присутствовать в более длинных спиралях, образуя изгиб.
Альфа-спираль с водородными связями (желтые точки)β-листы образованы Н-связями между 5–10 последовательными аминокислотами в одной части цепи с другой. На 5–10 дальше по цепочке. Взаимодействующие области могут быть смежными, с короткой петлей между ними или далеко друг от друга, с другими структурами между ними. Каждая цепь может идти в одном направлении, чтобы образовать параллельный лист, каждая другая цепь может идти в обратном химическом направлении, чтобы образовывать антипараллельный лист, или цепи могут быть параллельными и антипараллельными, чтобы образовывать смешанный лист. Рисунок H-соединения отличается в параллельной и антипараллельной конфигурациях. Каждая аминокислота во внутренних цепях листа образует две Н-связи с соседними аминокислотами, тогда как каждая аминокислота на внешних цепях образует только одну связь с внутренней цепью. Если смотреть поперек листа под прямым углом к прядям, более дальние пряди слегка поворачиваются против часовой стрелки, чтобы образовать левый поворот. Атомы Cα чередуются над и под листом в складчатой структуре, а боковые группы R аминокислот чередуются над и под складками. Углы Φ и аминокислот в листах значительно различаются в одной области графика Рамачандрана. Расположение β-листов сложнее предсказать, чем α-спиралей. Ситуация несколько улучшается, если принимать во внимание вариацию аминокислот при множественном выравнивании последовательностей.
Петли - это участки белковой цепи, которые 1) находятся между α-спиралями и β-листами, 2) разной длины и трехмерной конфигурации и 3) на поверхности структура.
Петли шпильки, которые представляют собой полный виток полипептидной цепи, соединяющей две антипараллельные β-цепи, могут иметь длину до двух аминокислот. Петли взаимодействуют с окружающей водной средой и другими белками. Поскольку аминокислоты в петлях не ограничены пространством и окружающей средой, как аминокислоты в области ядра, и не влияют на расположение вторичных структур в ядре, может произойти больше замен, вставок и делеций. Таким образом, при выравнивании последовательностей наличие этих признаков может указывать на наличие петли. Положения интронов в геномной ДНК иногда соответствуют положениям петель в кодируемом белке. Петли также, как правило, содержат заряженные и полярные аминокислоты и часто являются компонентом активных центров. Детальное изучение петлевых структур показало, что они делятся на отдельные семейства.
Область вторичной структуры, которая не является α-спиралью, β-листом или узнаваемым витком, обычно называется спиралью.
Белки можно классифицировать как по структурному сходству, так и по сходству последовательностей. Для структурной классификации размеры и пространственное расположение вторичных структур, описанных в предыдущем абзаце, сравниваются с известными трехмерными структурами. Исторически первой использовалась классификация, основанная на сходстве последовательностей. Первоначально сходство было выполнено на основе выравнивания целых последовательностей. Позже белки были классифицированы на основе наличия консервативных аминокислотных паттернов. Доступны базы данных, которые классифицируют белки по одной или нескольким из этих схем. Рассматривая схемы классификации белков, важно помнить о нескольких наблюдениях. Во-первых, две совершенно разные белковые последовательности из разного эволюционного происхождения могут складываться в похожую структуру. И наоборот, последовательность древнего гена данной структуры могла значительно отличаться у разных видов, в то же время сохраняя те же основные структурные особенности. Распознать любое остающееся сходство последовательностей в таких случаях может быть очень сложной задачей. Во-вторых, два белка, которые имеют значительную степень сходства последовательностей либо друг с другом, либо с третьей последовательностью, также имеют эволюционное происхождение и должны иметь общие структурные особенности. Однако дупликация генов и генетические перестройки в ходе эволюции могут привести к появлению новых копий генов, которые затем могут эволюционировать в белки с новой функцией и структурой.
Наиболее часто используемые термины для обозначения эволюционных и структурных отношений между белками перечислены ниже. Многие дополнительные термины используются для обозначения различных структурных особенностей белков. Описания таких терминов можно найти на веб-сайте CATH, на веб-сайте Структурная классификация белков (SCOP) и в учебном пособии по Glaxo Wellcome на швейцарском веб-сайте по биоинформатике Expasy.
Прогнозирование вторичной структуры - это набор методов в биоинформатике, которые стремятся предсказать локальные вторичные структуры белков, основываясь только на знании их аминокислотной последовательности. Для белков прогноз состоит в отнесении участков аминокислотной последовательности к вероятным альфа-спиралям, бета-цепям (часто обозначаемым как «расширенные» конформации) или виткам. Успех прогноза определяется путем сравнения его с результатами алгоритма DSSP (или аналогичного, например, STRIDE ), примененного к кристаллической структуре белка. Были разработаны специализированные алгоритмы для обнаружения в белках конкретных четко определенных структур, таких как трансмембранные спирали и спиральные спирали.
Лучшие современные методы предсказания вторичной структуры в белках достигают точности около 80%; такая высокая точность позволяет использовать прогнозы в качестве признаков, улучшающих кратное распознавание и ab initio предсказание структуры белка, классификацию структурных мотивов и уточнение выравнивания последовательностей. Точность текущих методов прогнозирования вторичной структуры белков оценивается в еженедельных тестах, таких как LiveBench и EVA.
Ранние методы прогнозирования вторичной структуры, представленные в 1960-х и начале 1970-х годов, были сосредоточены на идентификации вероятных альфа-спиралей и основывались в основном на моделях перехода спираль-клубок. Значительно более точные прогнозы, включающие бета-листы, были введены в 1970-х годах и основывались на статистических оценках, основанных на параметрах вероятности, полученных из известных решенных структур. Эти методы, применяемые к одной последовательности, обычно имеют точность не более 60-65% и часто недооценивают бета-листы. эволюционная консервация вторичных структур может быть использована путем одновременной оценки множества гомологичных последовательностей в множественном выравнивании последовательностей, вычисляя чистую вторичную структурная предрасположенность выровненного столбца аминокислот. В сочетании с более крупными базами данных известных белковых структур и современными методами машинного обучения, такими как нейронные сети и , поддерживающие векторные машины, эти методы могут обеспечить до 80% общего точность в глобулярных белках. Теоретический верхний предел точности составляет около 90%, отчасти из-за идиосинкразии в назначении DSSP около концов вторичных структур, где локальные конформации меняются в естественных условиях, но могут быть вынуждены принять единую конформацию в кристаллах из-за ограничений упаковки. Ограничения также накладываются неспособностью предсказания вторичной структуры учесть третичную структуру ; например, последовательность, предсказанная как вероятная спираль, может все еще быть способной принять конформацию бета-цепи, если она расположена в области бета-слоя белка и ее боковые цепи хорошо упаковываются со своими соседями. Резкие конформационные изменения, связанные с функцией белка или окружающей средой, также могут изменить локальную вторичную структуру.
На сегодняшний день разработано более 20 различных методов прогнозирования вторичной структуры. Одним из первых алгоритмов был метод Чоу-Фасмана, который основывается преимущественно на параметрах вероятности, определенных на основе относительных частот появления каждой аминокислоты в каждом типе вторичной структуры. Исходные параметры Чоу-Фасмана, определенные на небольшой выборке структур, решенных в середине 1970-х годов, дают плохие результаты по сравнению с современными методами, хотя параметризация была обновлена с момента ее первой публикации. Метод Чоу-Фасмана дает примерно 50-60% точности в предсказании вторичных структур.
Следующей известной программой был метод газового фактора, названный в честь трех ученых, которые разработали его - Гарнье, Осгуторп., а Робсон - метод, основанный на теории информации. Он использует более мощный вероятностный метод байесовского вывода. Метод GOR учитывает не только вероятность того, что каждая аминокислота имеет конкретную вторичную структуру, но также условную вероятность аминокислоты, предполагая, что каждая структура зависит от вкладов ее соседей (он не предполагает, что у соседей такая же структура). Подход и более чувствительный, и более точный, чем подход Чоу и Фасмана, потому что структурные склонности аминокислот сильны только для небольшого числа аминокислот, таких как пролин и глицин. Слабый вклад каждого из множества соседей может привести к сильным эффектам в целом. Первоначальный метод газового фактора был примерно на 65% точен и значительно более успешен в предсказании альфа-спиралей, чем бета-листы, которые он часто ошибочно предсказывал как петли или неорганизованные области.
Еще одним большим шагом вперед стало использование машинного обучения методы. Были использованы первые методы искусственных нейронных сетей. В качестве обучающих наборов они используют решенные структуры для определения общих мотивов последовательностей, связанных с конкретными расположениями вторичных структур. Эти методы имеют точность более 70% в своих прогнозах, хотя бета-цепи по-прежнему часто недооцениваются из-за отсутствия трехмерной структурной информации, которая позволила бы оценить паттерны водородных связей, которые могут способствовать формированию расширенной конформации. требуется для наличия полной бета-версии. PSIPRED и JPRED - одни из наиболее известных программ, основанных на нейронных сетях для предсказания вторичной структуры белков. Далее, машины опорных векторов оказались особенно полезными для прогнозирования местоположений поворотов, которые трудно идентифицировать с помощью статистических методов.
Расширения методов машинного обучения пытаются предсказывать более мелкие локальные свойства белков, такие как позвоночник двугранные углы в неназначенных областях. Для решения этой проблемы были применены как SVM, так и нейронные сети. В последнее время реальные значения торсионных углов можно точно предсказать с помощью SPINE-X и успешно использовать для предсказания структуры ab initio.
Сообщается, что в дополнение к последовательности белка, формирование вторичной структуры зависит от других факторов. Например, сообщается, что тенденции вторичной структуры зависят также от местной окружающей среды, доступности остатков для растворителя, структурного класса белков и даже от организма, из которого эти белки получены. На основании таких наблюдений некоторые исследования показали, что прогнозирование вторичной структуры может быть улучшено путем добавления информации о структурном классе белка, доступной для остатка площади поверхности, а также информации о контактном номере.
Практическая роль предсказания структуры белка сейчас важна как никогда. Огромные объемы данных о последовательности белков получают с помощью современных крупномасштабных усилий по секвенированию ДНК, таких как Human Genome Project. Несмотря на усилия всего сообщества в структурной геномике, получение экспериментально определенных белковых структур - обычно с помощью трудоемких и относительно дорогостоящих рентгеновской кристаллографии или ЯМР-спектроскопии - сильно отстает от выхода белковых последовательностей.
Прогнозирование структуры белка остается чрезвычайно сложной и нерешенной задачей. Двумя основными проблемами являются вычисление свободной энергии белка и определение глобального минимума этой энергии. Метод предсказания структуры белка должен исследовать пространство возможных структур белка, которое астрономически велико. Эти проблемы можно частично обойти с помощью методов «сравнительного» или гомологического моделирования и кратного распознавания, в которых пространство поиска сокращается за счет предположения, что рассматриваемый белок принимает структуру, которая является близка к экспериментально определенной структуре другого гомологичного белка. С другой стороны, методы предсказания структуры белка de novo или ab initio должны явно решать эти проблемы. Прогресс и проблемы в предсказании структуры белка были рассмотрены в Zhang 2008.
Большинство методов моделирования третичной структуры, такие как Rosetta, оптимизированы для моделирования третичной структуры отдельных доменов белка.. Шаг, называемый анализом домена или предсказанием границы домена, обычно выполняется первым, чтобы разделить белок на потенциальные структурные домены. Как и в случае остального предсказания третичной структуры, это можно сделать сравнительно на основе известных структур или ab initio только с последовательностью (обычно с помощью машинного обучения с помощью ковариации). Структуры отдельных доменов состыковываются вместе в процессе, называемом сборка домена, чтобы сформировать окончательную третичную структуру.
Ab initio- или de novo-методы моделирования белков стремятся построить трехмерные модели белка «с нуля», то есть основанные на физических принципах, а не (непосредственно) на ранее решенных структурах. Существует множество возможных процедур, которые либо пытаются имитировать сворачивание белка, либо применяют какой-либо метод стохастического для поиска возможных решений (например, глобальная оптимизация подходящей энергетической функции). Эти процедуры обычно требуют огромных вычислительных ресурсов и, таким образом, выполнялись только для крошечных белков. Для прогнозирования структуры белка de novo для более крупных белков потребуются более совершенные алгоритмы и большие вычислительные ресурсы, подобные тем, которые предоставляются мощными суперкомпьютерами (такими как Blue Gene или MDGRAPE-3 ) или распределенными вычислениями ( такие как Folding @ home, Human Proteome Folding Project и Rosetta @ Home ). Хотя эти вычислительные барьеры огромны, потенциальные преимущества структурной геномики (с помощью предсказанных или экспериментальных методов) делают предсказание структуры ab initio активной областью исследований.
По состоянию на 2009 год, белок из 50 остатков можно моделировать атомно-атомным методом. атомарно на суперкомпьютере за 1 миллисекунду. С 2012 года сопоставимая выборка в стабильном состоянии могла быть сделана на стандартном настольном компьютере с новой видеокартой и более сложными алгоритмами. Значительно большие временные рамки моделирования могут быть достигнуты с использованием крупномасштабного моделирования.
Поскольку секвенирование стало более обычным явлением в 1990-х годах, несколько групп использовали выравнивание последовательностей белков для прогнозирования коррелированных мутации, и можно было надеяться, что эти коэволюционирующие остатки можно использовать для предсказания третичной структуры (с использованием аналогии с ограничениями расстояния из экспериментальных процедур, таких как ЯМР ). Предполагается, что когда одинарные остаточные мутации являются немного вредными, могут возникать компенсаторные мутации, чтобы повторно стабилизировать остаточные взаимодействия. В этой ранней работе использовались так называемые локальные методы для расчета коррелированных мутаций из белковых последовательностей, но при этом наблюдались косвенные ложные корреляции, возникающие в результате рассмотрения каждой пары остатков как независимой от всех остальных пар.
В 2011 году другой, и на этот раз глобальный статистический подход продемонстрировал, что предсказанных коэволюционирующих остатков было достаточно для предсказания трехмерной укладки белка, при условии, что имеется достаточно доступных последовательностей (требуется>1000 гомологичных последовательностей). В методе EVfold не используется моделирование гомологии, нарезание нитей или фрагменты трехмерной структуры, и его можно запускать на стандартном персональном компьютере даже для белков с сотнями остатков. Точность контактов, предсказанных с использованием этого и родственных подходов, теперь продемонстрирована на многих известных структурах и картах контактов, включая предсказание экспериментально неразрешенных трансмембранных белков.
Сравнительное моделирование белков использует ранее решенные структуры в качестве отправных точек или шаблонов. Это эффективно, поскольку кажется, что, хотя количество реальных белков огромно, существует ограниченный набор третичных структурных мотивов, которым принадлежит большинство белков. Было высказано предположение, что в природе существует только около 2000 различных белковых складок, хотя существует много миллионов различных белков.
Эти методы также можно разделить на две группы:
Точная упаковка аминокислот боковых цепей представляет собой отдельную проблему при прогнозировании структуры белка. Методы, которые конкретно решают проблему прогнозирования геометрии боковой цепи, включают методы исключения тупика и самосогласованного среднего поля. Конформации боковых цепей с низкой энергией обычно определяют на жестком полипептидном скелете с использованием набора дискретных конформаций боковых цепей, известных как «ротамеры ». Методы пытаются идентифицировать набор ротамеров, которые минимизируют общую энергию модели.
В этих методах используются библиотеки ротамеров, которые представляют собой коллекции подходящих конформаций для каждого типа остатков в белках. Библиотеки ротамеров могут содержать информацию о конформации, ее частоте и стандартных отклонениях средних двугранных углов, которые могут быть использованы при отборе проб. Библиотеки ротамеров получены на основе структурной биоинформатики или другого статистического анализа конформаций боковых цепей в известных экспериментальных структурах белков, например, путем кластеризации наблюдаемых конформаций для тетраэдрических атомов углерода вблизи смещенных (60 °, 180 °, - 60 °) значения.
Библиотеки Rotamer могут быть независимыми от основы, зависимой от вторичной структуры или зависимой от основы. Независимые от скелета библиотеки ротамеров не ссылаются на конформацию скелета и рассчитываются из всех доступных боковых цепей определенного типа (например, первый пример библиотеки ротамеров, созданный Ponder и Richards в Йельском университете в г. 1987). Библиотеки, зависящие от вторичной структуры, представляют разные двугранные углы и / или частоты ротамера для -helix, -лист, или катушки вторичных конструкций. Библиотеки ротамеров, зависящие от скелета, представляют конформации и / или частоты, зависящие от локальной конформации скелета, как определено двугранными углами скелета и , независимо от вторичной структуры.
Современные версии этих библиотек, которые используются в большинстве программ, представлены в виде многомерных распределений вероятности или частоты, где пики соответствуют конформациям двугранного угла рассматриваются как отдельные ротамеры в списках. Некоторые версии основаны на очень тщательно отобранных данных и используются в основном для проверки структуры, в то время как другие подчеркивают относительные частоты в гораздо более крупных наборах данных и являются формой, используемой в основном для прогнозирования структуры, например библиотеки ротамеров Данбрака.
Методы упаковки боковых цепей наиболее полезны для анализа гидрофобного ядра белка, где боковые цепи более плотно упакованы; им труднее устранять более свободные ограничения и более высокую гибкость поверхностных остатков, которые часто занимают несколько конформаций ротамера, а не одну.
Были разработаны статистические методы для прогнозирования структурных классы белков на основе их аминокислотного состава, псевдоаминокислотного состава и состава функциональных доменов. Предсказание вторичной структуры также неявно генерирует такое предсказание для особых областей.
В случае комплексов двух или более белков, где структуры белков известны или могут быть предсказаны с высокой точностью, Белок-белковая стыковка методы могут использоваться для предсказания структуры комплекса. Информация о влиянии мутаций в определенных сайтах на сродство комплекса помогает понять сложную структуру и определить методы стыковки.
Существует большое количество программных инструментов для предсказания структуры белка. Подходы включают моделирование гомологии, распределение белков, методы ab initio, предсказание вторичной структуры, а также предсказание трансмембранной спирали и сигнального пептида. Некоторые недавние успешные методы, основанные на экспериментах CASP, включают I-TASSER и HHpred. Полный список см. В основной статье.
CASP, который расшифровывается как «Критическая оценка методов предсказания структуры протеина», представляет собой эксперимент для всего сообщества по предсказанию структуры протеина. каждые два года с 1994 года. CASP предоставляет возможность оценить качество доступных человеческих, неавтоматизированных методологий (категория людей) и автоматических серверов для прогнозирования структуры белка (категория серверов, представленная в CASP7).
CAMEO3D Сервер непрерывной автоматизированной оценки модели еженедельно оценивает серверы автоматического прогнозирования структуры белка, используя слепые прогнозы для новых структур белка. CAMEO публикует результаты на своем веб-сайте.