Статистический потенциал

редактировать

В предсказании структуры белка, статистический потенциал или на основе знаний потенциал - это функция оценки , полученная на основе анализа известных белковых структур в банке данных по белкам (PDB).

Первоначальным методом получения таких потенциалов является квазихимическое приближение, разработанное Миядзавой и Джерниган. Позже за ним последовал потенциал средней силы (статистическая PMF), разработанный Sippl. Хотя полученные оценки часто рассматриваются как приближения к свободной энергии - таким образом, называемые псевдоэнергиями, - эта физическая интерпретация неверна. Тем не менее, во многих случаях они применяются с переменным успехом, поскольку они часто коррелируют с фактическими разностями свободной энергии Гиббса.

Содержание
  • 1 Обзор
  • 2 История
    • 2.1 Начальная разработка
    • 2.2 Концептуальные вопросы
      • 2.2.1 Спорная аналогия
    • 2.3 Машинное обучение
  • 3 Объяснение
    • 3.1 Байесовская вероятность
    • 3.2 Кинематика вероятности
      • 3.2.1 Референтное отношение
  • 4 Приложения
  • 5 См. Также
  • 6 Примечания
  • 7 Ссылки
Обзор

Возможные характеристики, которым может быть присвоена псевдоэнергия, включают:

Классическое применение, однако, основано на попарных аминокислотных контактах или расстояниях, что дает статистические межатомные потенциалы. Для попарных аминокислотных контактов статистический потенциал формулируется в виде матрицы взаимодействия, которая присваивает вес или значение энергии каждой возможной паре стандартных аминокислот. Энергия конкретной структурной модели - это тогда объединенная энергия всех парных контактов (определяемых как две аминокислоты на определенном расстоянии друг от друга) в структуре. Энергии определяют с использованием статистики аминокислотных контактов в базе данных известных структур белков (полученной из PDB ).

История

Начальная разработка

Многие учебники представляют статистические PMF, предложенные Sippl, как простое следствие распределения Больцмана применительно к попарному расстояния между аминокислотами. Это неверно, но полезно начать с практической реализации построения потенциала. Распределение Больцмана, применяемое к конкретной паре аминокислот, определяется выражением:

P (r) = 1 Z e - F (r) k T {\ displaystyle P \ left (r \ right) = {\ frac { 1} {Z}} e ^ {- {\ frac {F \ left (r \ right)} {kT}}}}P \ left (r \ right) = {\ frac {1} {Z}} e ^ {{- {\ frac {F \ left (r \ right)} {kT}}}}

где r {\ displaystyle r}r - это расстояние, k {\ displaystyle k}k - это постоянная Больцмана, T {\ displaystyle T}T - температура, а Z {\ displaystyle Z}Z - это функция распределения, где

Z = ∫ e - F (r) k T dr {\ displaystyle Z = \ int e ^ {- {\ frac {F (r)} {kT}}} dr}Z = \ int e ^ {{- {\ frac {F (r)} {kT}} }} dr

Величина F (r) {\ displaystyle F (r)}F(r)- это свободная энергия, присвоенная попарно система. Простая перестановка приводит к обратной формуле Больцмана, которая выражает свободную энергию F (r) {\ displaystyle F (r)}F(r)как функцию от P (r) {\ displaystyle P (г)}P (r) :

F (г) знак равно - К T пер ⁡ п (г) - к T пер ⁡ Z {\ Displaystyle F \ влево (г \ вправо) = - кТ \ пер Р \ влево (г \ вправо) -kT \ ln Z}F \ left (r \ right) = - kT \ ln P \ left (r \ right) -kT \ ln Z

Чтобы построить PMF, затем вводится так называемое эталонное состояние с соответствующим распределением QR {\ displaystyle Q_ {R}}Q _ {{R}} и функцией распределения ZR {\ displaystyle Z_ {R}}Z _ {{R}} , и вычисляет следующую разность свободной энергии:

Δ F (r) = - k T ln ⁡ P (r) QR (r) - k T пер ⁡ ZZR {\ Displaystyle \ Delta F \ left (r \ right) = - кТ \ ln {\ frac {P \ left (r \ right)} {Q_ {R} \ left (r \ right)}} - kT \ ln {\ frac {Z} {Z_ {R}}}}\ Delta F \ left (r \ right) = - kT \ ln {\ frac {P \ left (r \ right)} {Q _ {{R}} \ left (r \ right)}} - kT \ ln {\ frac {Z} {Z _ {{R}}}}

Эталонное состояние обычно является результатом гипотетической системы, в которой отсутствуют определенные взаимодействия между аминокислотами. Второй член, включающий Z {\ displaystyle Z}Z и Z R {\ displaystyle Z_ {R}}Z _ {{R}} , можно игнорировать, так как он является константой.

На практике P (r) {\ displaystyle P (r)}P (r) оценивается из базы данных известных белковых структур, а QR (r) {\ displaystyle Q_ {R} (r)}Q _ {{R}} (r) обычно является результатом вычислений или моделирования. Например, P (r) {\ displaystyle P (r)}P (r) может быть условной вероятностью обнаружения C β {\ displaystyle C \ beta}C \ beta атомы валина и серина на заданном расстоянии r {\ displaystyle r}r друг от друга, что приводит к разности свободной энергии Δ F {\ displaystyle \ Delta F}\ Delta F . Полная разность свободной энергии белка, Δ FT {\ displaystyle \ Delta F _ {\ textrm {T}}}\ Delta F _ {{{\ textrm {T}}}} , затем утверждается, как сумма всех попарных свободных энергий:

Δ FT = ∑ i < j Δ F ( r i j ∣ a i, a j) = − k T ∑ i < j ln ⁡ P ( r i j ∣ a i, a j) Q R ( r i j ∣ a i, a j) {\displaystyle \Delta F_{\textrm {T}}=\sum _{i{\ displaystyle \ Delta F _ {\ textrm {T}} = \ sum _ {i <j} \ Delta F (r_ { ij} \ mid a_ {i}, a_ {j}) = - kT \ sum _ {i <j} \ ln {\ frac {P \ left (r_ {ij} \ mid a_ {i}, a_ {j}) \ right)} {Q_ {R} \ left (r_ {ij} \ mid a_ {i}, a_ {j} \ right)}}}

, где сумма вычисляется по всем парам аминокислот ai, aj {\ displaystyle a_ {i}, a_ {j}}a _ {{i}}, a _ {{j}} i < j {\displaystyle ii <j ) и rij {\ displaystyle r_ {ij}}r_ {ij} - их соответствующее расстояние. Во многих исследованиях QR {\ displaystyle Q_ {R}}Q _ {{R}} не зависит от аминокислотной последовательности.

Концептуальные вопросы

Интуитивно ясно, что низкое значение для Δ FT {\ displaystyle \ Delta F _ {\ textrm {T}}}\ Delta F _ {{{\ textrm {T}}}} указывает, что набор расстояний в структуре более вероятен в белках, чем в эталонном состоянии. Однако физический смысл этих статистических PMF широко оспаривается с момента их появления. Основные проблемы:

  1. Неправильная интерпретация этого «потенциала» как истинного, физически действительного потенциала средней силы ;
  2. Природа так называемого эталонного состояния и его оптимальная формулировка;
  3. Достоверность обобщений за пределами попарных расстояний.

Спорная аналогия

В ответ на вопрос, касающийся физической достоверности, первое обоснование статистических PMF было предпринято Sippl. В его основе лежала аналогия со статистической физикой жидкостей. Для жидкостей потенциал средней силы связан с функцией радиального распределения g (r) {\ displaystyle g (r)}g (r) , которая определяется следующим образом:

g (r) = P (r) QR (r) {\ displaystyle g (r) = {\ frac {P (r)} {Q_ {R} (r)}}}g (r) = {\ frac {P (r)} {Q _ {{R}} (r)}}

где P (r) {\ displaystyle P (r)}P (r) и QR (r) {\ displaystyle Q_ {R} (r)}Q _ {{R}} (r) - соответствующие вероятности обнаружения двух частиц. на расстоянии r {\ displaystyle r}r друг от друга в жидкости и в контрольном состоянии. Для жидкостей эталонное состояние четко определено; он соответствует идеальному газу, состоящему из невзаимодействующих частиц. Двухчастичный потенциал средней силы W (r) {\ displaystyle W (r)}W (r) связан с g (r) {\ displaystyle g (r)}g (r) по:

W (r) = - К T журнал ⁡ g (r) = - k T log ⁡ P (r) QR (r) {\ displaystyle W (r) = - kT \ log g ( r) = - kT \ log {\ frac {P (r)} {Q_ {R} (r)}}}W (r) = - kT \ log g (r) = - kT \ log {\ frac { P (r)} {Q _ {{R}} (r)}}

Согласно теореме об обратимой работе двухчастичный потенциал средней силы W ( r) {\ displaystyle W (r)}W (r) - обратимая работа, необходимая для вывода двух частиц в жидкости из бесконечного разделения на расстояние r {\ displaystyle r}r от

Сиппл оправдал использование статистических PMF - через несколько лет после того, как он ввел их для использования в предсказании структуры белка - апеллируя к аналогии с теоремой обратимой работы для жидкостей. Для жидкостей g (r) {\ displaystyle g (r)}g (r) можно экспериментально измерить с помощью малоуглового рассеяния рентгеновских лучей ; для белков P (r) {\ displaystyle P (r)}P (r) получается из набора известных белковых структур, как объяснено в предыдущем разделе. Однако, как Бен-Наим написал в публикации на эту тему:

[...] величины, называемые «статистическими потенциалами», «потенциалами на основе структуры» или «парными потенциалами средняя сила », полученная из банка данных по белкам (PDB), не является ни« потенциалами », ни« потенциалами средней силы »в обычном смысле, который используется в литературе по жидкостям и растворам.

Более того, эта аналогия не решает вопроса о том, как определить подходящее эталонное состояние для белков.

Машинное обучение

В середине 2000-х годов авторы начали объединять несколько статистических потенциалов, полученных из различных структурных особенностей, в составные баллы. Для этой цели они использовали методы машинного обучения, такие как вспомогательные векторные машины (SVM). Вероятностные нейронные сети (PNN) также применялись для обучения зависящему от позиции статистическому потенциалу, зависящему от расстояния. В 2016 году исследовательская лаборатория искусственного интеллекта DeepMind начала применять методы глубокого обучения для развития статистического потенциала, зависящего от кручения и расстояния. Полученный в результате метод, названный AlphaFold, выиграл 13-ю Критическую оценку методов прогнозирования структуры белка (CASP), правильно предсказав наиболее точную структуру для 25 из 43 свободного моделирования. домены.

Объяснение

Байесовская вероятность

Бейкер и его коллеги обосновали статистические PMF с байесовской точки зрения и использовали эти идеи при построении крупнозернистых РОЗЕТТА функция энергии. Согласно исчислению байесовской вероятности, условная вероятность P (X ∣ A) {\ displaystyle P (X \ mid A)}P (X \ mid A) структуры X {\ displaystyle X}X , учитывая аминокислотную последовательность A {\ displaystyle A}A, можно записать как

P (X ∣ A) = P (A ∣ Икс) п (Икс) п (A) ∝ п (A ∣ Икс) п (X) {\ Displaystyle P \ влево (X \ середина A \ вправо) = {\ гидроразрыва {P \ влево (A \ середина X \ вправо) P \ left (X \ right)} {P \ left (A \ right)}} \ propto P \ left (A \ mid X \ right) P \ left (X \ right)}P \ left (X \ mid A \ right) = {\ frac {P \ left (A \ mid X \ right) P \ left (X \ right)} {P \ left (A \ right)}} \ propto P \ left (A \ mid X \ right) P \ left (X \ right)

P (X ∣ A) {\ displaystyle P (X \ mid A)}P (X \ mid A) пропорционально произведению правдоподобия P (A ∣ X) {\ displaystyle P \ left (A \ mid X \ right)}P \ left (A \ середина X \ справа) умножить на prior P (X) {\ displaystyle P \ left (X \ right)}P \ left (X \ right) . Предполагая, что вероятность может быть аппроксимирована как произведение попарных вероятностей, и применяя теорему Байеса, вероятность можно записать как:

P (A ∣ X) ≈ ∏ i < j P ( a i, a j ∣ r i j) ∝ ∏ i < j P ( r i j ∣ a i, a j) P ( r i j) {\displaystyle P\left(A\mid X\right)\approx \prod _{i{\ displaystyle P \ left (A \ mid X \ right) \ приблизительно \ prod _ {i <j} P \ left (a_ {i}, a_ {j} \ mid r_ {ij} \ right) \ propto \ prod _ {i <j} {\ frac {P \ left (r_ {ij} \ mid a_ {i}, a_ {j} \ right)} {P (r_ {ij})}}}

где продукт обрабатывает все пары аминокислот ai, aj {\ displaystyle a_ {i}, a_ {j}}a _ {{i}}, a _ {{j}} i < j {\displaystyle ii <j ) и rij {\ displaystyle r_ { ij}}r_ {ij} - расстояние между аминокислотами i {\ displaystyle i}i и j {\ displaystyle j}j . Очевидно, что отрицательная величина логарифма выражения имеет ту же функциональную форму, что и классические статистические ПМП для парных расстояний, причем знаменатель играет роль эталонного состояния. У этого объяснения есть два недостатка: оно основано на необоснованном предположении, что вероятность может быть выражена как произведение парных вероятностей, и оно носит чисто качественный характер.

Вероятностная кинематика

Хамелрик и его сотрудники позже дали количественное объяснение статистических возможностей, в соответствии с которым они аппроксимируют форму вероятностных рассуждений из Ричарда Джеффри и называется вероятностная кинематика. Этот вариант байесовского мышления (иногда называемый «условием Джеффри ») позволяет обновлять априорное распределение на основе новой информации о вероятностях элементов разбиения на основе предшествующего. С этой точки зрения: (i) нет необходимости предполагать, что база данных белковых структур, используемая для построения потенциалов, следует распределению Больцмана, (ii) статистические потенциалы легко обобщаются за пределами попарных различий, и (iii) эталонный соотношение определяется предварительным распределением.

Контрольный коэффициент

Метод контрольного соотношения. Q (X) {\ displaystyle Q (X)}Q (X) - распределение вероятностей, которое описывает структуру белков на локальной шкале длины (справа). Как правило, Q (X) {\ displaystyle Q (X)}Q (X) воплощается в библиотеке фрагментов, но другие возможности - это функция энергии или графическая модель. Чтобы получить полное описание структуры белка, необходимо также распределение вероятностей P (Y) {\ displaystyle P (Y)}P (Y) , которое описывает нелокальные аспекты, такие как водородные связи. P (Y) {\ displaystyle P (Y)}P (Y) обычно получается из набора решенных белковых структур из PDB (слева). Чтобы объединить Q (X) {\ displaystyle Q (X)}Q (X) с P (Y) {\ displaystyle P (Y)}P (Y) в значимом способ, нужно выражение опорного коэффициента (внизу), который принимает сигнал в Q (X) {\ displaystyle Q (X)}Q (X) по Y {\ displaystyle Y}Yво внимание.

Выражения, которые напоминают статистические PMF, естественным образом являются результатом применения теории вероятностей для решения фундаментальной проблемы, которая возникает при прогнозировании структуры белка: как улучшить несовершенное распределение вероятностей Q (X) {\ displaystyle Q (X)}Q (X) над первой переменной X {\ displaystyle X}X с использованием распределения вероятностей P (Y) {\ displaystyle P ( Y)}P (Y) над второй переменной Y {\ displaystyle Y}Y, где Y = f (X) {\ displaystyle Y = f (X)}Y = f (X) . Обычно X {\ displaystyle X}X и Y {\ displaystyle Y}Yпредставляют собой мелкозернистые и крупнозернистые переменные соответственно. Например, Q (X) {\ displaystyle Q (X)}Q (X) может относиться к локальной структуре белка, а P (Y) {\ displaystyle P (Y)}P (Y) может относиться к попарным расстояниям между аминокислотами. В этом случае X {\ displaystyle X}X может, например, быть вектором двугранных углов, который задает все положения атомов (при условии идеальной длины связи и углов). Чтобы объединить два распределения, так что локальная структура будет распределена согласно Q (X) {\ displaystyle Q (X)}Q (X) , а попарные расстояния будут распределены согласно P (Y) {\ displaystyle P (Y)}P (Y) , необходимо следующее выражение:

P (X, Y) = P (Y) Q (Y) Q (X) { \ Displaystyle P (X, Y) = {\ frac {P (Y)} {Q (Y)}} Q (X)}P (X, Y) = {\ frac {P (Y)} { Q (Y)}} Q (X)

где Q (Y) {\ displaystyle Q (Y)}Q (Y) - это распределение по Y {\ displaystyle Y}Y, подразумеваемое Q (X) {\ displaystyle Q (X)}Q (X) . Соотношение в выражении соответствует PMF. Обычно Q (X) {\ displaystyle Q (X)}Q (X) вводится путем выборки (обычно из библиотеки фрагментов) и не вычисляется явно; соотношение, которое, напротив, оценивается явно, соответствует PMF Sippl. Это объяснение носит количественный характер и позволяет обобщить статистические PMF от попарных расстояний до произвольных крупнозернистых переменных. Он также обеспечивает строгое определение эталонного состояния, которое подразумевается в Q (X) {\ displaystyle Q (X)}Q (X) . Обычные применения статистических PMF парных расстояний обычно не имеют двух необходимых функций, чтобы сделать их полностью строгими: использование правильного распределения вероятностей на попарных расстояниях в белках и признание того, что эталонное состояние строго определяется Q (X) { \ displaystyle Q (X)}Q (X) .

Приложения

Статистические потенциалы используются в качестве энергетических функций при оценке ансамбля структурных моделей, полученных с помощью моделирования гомологии или протеиновый поток. Было показано, что множество различных параметризованных статистических потенциалов успешно идентифицируют структуру нативного состояния из ансамбля приманок или неродных структур. Статистические потенциалы используются не только для предсказания структуры белка, но также для моделирования пути сворачивания белка.

См. Также
Примечания
Ссылки
Последняя правка сделана 2021-06-09 10:07:41
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте