Псевдоаминокислотный состав

редактировать

Псевдоаминокислотный состав, или PseAAC, был первоначально введен Куо -Chen Chou в 2001 году для представления образцов белка для улучшения предсказания субклеточной локализации белка и предсказания типа мембранного белка. Как и метод ванильного аминокислотного состава (AAC), он характеризует белок в основном с помощью матрицы частот аминокислот, которая помогает справляться с белками без значительной последовательной гомологии с другими белками. По сравнению с AAC в матрицу также включена дополнительная информация для представления некоторых локальных характеристик, таких как корреляция между остатками на определенном расстоянии. При работе со случаями PseAAC часто использовался.

Содержание
  • 1 Предпосылки
  • 2 Концепция
  • 3 Алгоритм
  • 4 Ссылки
  • 5 Внешние ссылки
Предпосылки

Предсказание субклеточной локализации белков и других атрибутов на основе их последовательности, для представления образцов белков обычно используются два типа моделей: (1) последовательная модель и (2) непоследовательная модель или дискретная модель.

Наиболее типичным последовательным представлением образца белка является его полная аминокислотная (AA) последовательность, которая может содержать наиболее полную информацию. Это очевидное преимущество последовательной модели. Для получения желаемых результатов для прогнозирования обычно используются инструменты на основе поиска по сходству последовательностей.

Учитывая последовательность белка P с L {\ displaystyle L}L аминокислотными остатками, то есть

  • P = [R 1 R 2 R 3 р 4 р 5 р 6 р 7 ⋯ RL] (1) {\ displaystyle \ mathbf {P} = {\ begin {bmatrix} \ mathrm {R} _ {1} \ mathrm {R} _ {2} \ mathrm {R} _ {3} \ mathrm {R} _ {4} \ mathrm {R} _ {5} \ mathrm {R} _ {6} \ mathrm {R} _ {7} \ cdots \ mathrm {R} _ {L} \ end {bmatrix}} \ qquad {\ text {(1)}}}{\ mathbf {P}} = {{\ begin {bmatrix} {\ mathrm {R}} _ {1} {\ mathrm {R} } _ {2} {\ mathrm {R}} _ {3} {\ mathrm {R}} _ {4} {\ mathrm {R}} _ {5} {\ mathrm {R}} _ {6} { \ mathrm {R}} _ {7} \ cdots {\ mathrm {R}} _ {L} \ end {bmatrix}}} \ qquad {\ text {(1)}}

где R 1 представляет 1-й остаток белка P, R 2 2-й остаток и так далее. Это представление белка в последовательной модели.

Однако такой подход не работает, когда запрашиваемый белок не имеет значительной гомологии с известным белком (белками). Таким образом, были предложены различные дискретные модели, которые не полагаются на порядок следования. Простейшая дискретная модель использует аминокислотный состав (AAC) для представления образцов белка. Согласно модели AAC, белок P из уравнения 1 также может быть выражен как

  • P = [f 1 f 2 ⋯ f 20] T (2) {\ displaystyle \ mathbf {P} = {\ begin {bmatrix} f_ {1} f_ {2} \ cdots f_ {20} \ end {bmatrix}} ^ {\ mathbf {T}} \ qquad {\ text {(2) }}}{\ mathbf {P}} = {{\ begin {bmatrix} f_ {1} f_ {2} \ cdots f _ {{20}} \ end {bmatrix}}} ^ { {{\ mathbf {T}}}} \ qquad {\ text {(2)}}

где fu (u = 1, 2, ⋯, 20) {\ displaystyle \, f_ {u} \, (u = 1,2, \ cdots, 20)}\, f_ {u} \, (u = 1,2, \ cdots, 20) - нормализованные частоты встречаемости 20 природных аминокислот в P и T операторе транспонирования. AAC белка тривиально получают с помощью первичной структуры белка, известной как приведенная в уравнении 1 ; это также возможно путем гидролиза без знания точной последовательности, и такой этап на самом деле часто является предварительным условием для секвенирования белка.

Благодаря своей простоте модель аминокислотного состава (ААС) широко использовалась во многих ранее статистические методы прогнозирования свойств белков. Однако вся информация о порядке следования теряется. Это его главный недостаток.

Концепция

Чтобы избежать полной потери информации о порядке последовательности, концепция PseAAC (pse udo a mino a cid c композиция). В отличие от обычной аминокислотной композиции (AAC), которая содержит 20 компонентов, каждый из которых отражает частоту встречаемости одной из 20 природных аминокислот в белке, PseAAC содержит набор из более чем 20 дискретных факторов, где первые 20 представляют собой компоненты его обычного аминокислотного состава, тогда как дополнительные факторы включают некоторую информацию о порядке последовательности через различные псевдокомпоненты.

Дополнительные факторы представляют собой серию факторов корреляции разного ранга вдоль белковой цепи, но они также могут быть любыми комбинациями других факторов, если они могут отражать некоторые виды эффектов порядка следования последовательностей так или иначе Другой. Следовательно, суть PseAAC заключается в том, что с одной стороны он охватывает состав АК, но с другой стороны, он содержит информацию, выходящую за рамки состава АК, и, следовательно, может лучше отражать особенности последовательности белка через дискретную модель.

Между тем, также были разработаны различные режимы для формулирования вектора PseAAC, как описано в обзорной статье 2009 г.

Алгоритм
Рисунок 1 . Схематический рисунок, показывающий (a) 1-й уровень, (b) 2-й уровень и (c) режим корреляции порядков последовательностей 3-го уровня вдоль последовательности белка, где R 1 представляет аминокислотный остаток в положении 1 последовательности, R 2 в положении 2 и так далее (см. уравнение 1 ), и коэффициенты сочетания J i, j {\ displaystyle J_ {i, j}}J _ {{i, j}} задаются уравнением 6 . Панель (а) отражает режим корреляции между всеми наиболее смежными остатками, панель (b) - между всеми вторыми наиболее смежными остатками и панель (в) - между всеми третьими наиболее смежными остатками.

Согласно модели PseAAC, белок P из уравнения 1 можно сформулировать как

  • P = [p 1, p 2,…, p 20, p 20 + 1,…, p 20 + λ] T, (λ < L) (3) {\displaystyle \mathbf {P} ={\begin{bmatrix}p_{1},\,p_{2},\,\ldots,\,p_{20},\,p_{20+1},\,\ldots,\,p_{20+\lambda }\end{bmatrix}}^{\mathbf {T} },\,\,\,(\lambda {\ mathbf {P}} = {{\ begin {bmatrix} p_ {1}, \, p_ {2}, \, \ ldots, \, p _ {{20}}, \, p_ { {20 + 1}}, \, \ ldots, \, p _ {{20+ \ lambda}} \ end {bmatrix}}} ^ {{{\ mathbf {T}}}}, \, \, \, ( \ lambda <L) \ qquad {\ text {(3)}}

где компоненты (20 + λ {\ displaystyle 20+ \ lambda}20+ \ lambda ) задаются как

  • pu = {fu ∑ i = 1 20 fi + w ∑ k = 1 λ τ k, (1 ≤ u ≤ 20) w τ u - 20 ∑ i = 1 20 fi + w ∑ k = 1 λ τ k, (20 + 1 ≤ u ≤ 20 + λ) (4) {\ displaystyle p_ {u} = {\ begin {cases} {\ dfrac {f_ {u}} {\ sum _ {i = 1} ^ {20} f_ {i} \, + \, w \ сумма _ {k = 1} ^ {\ lambda} \ tau _ {k}}}, (1 \ leq u \ leq 20) \\ [10pt] {\ dfrac {w \ tau _ {u-20}} {\ sum _ {i = 1} ^ {20} f_ {i} \, + \, w \ sum _ {k = 1} ^ {\ lambda} \ tau _ {k}}}, (20 + 1 \ leq u \ leq 20+ \ lambda) \ end {cases}} \ qquad {\ text {(4)}}}p_ {u} = {\ begin {cases} {\ dfrac {f_ {u} } {\ sum _ {{i = 1}} ^ {{20}} f_ {i} \, + \, w \ sum _ {{k = 1}} ^ {{\ lambda}} \ tau _ {k }}}, (1 \ leq u \ leq 20) \\ [10pt] { \ dfrac {w \ tau _ {{u-20}}} {\ sum _ {{i = 1}} ^ {{20}} f_ {i} \, + \, w \ sum _ {{k = 1 }} ^ {{\ lambda}} \ tau _ {k}}}, (20 + 1 \ leq u \ leq 20+ \ lambda) \ end {case}} \ qquad {\ text {(4)}}

где w {\ displaystyle w}w - вес коэффициент, и τ k {\ displaystyle \ tau _ {k}}\ tau _ {k} k {\ displaystyle k}k фактор корреляции уровня, который отражает корреляцию порядка последовательности между всеми k {\ displaystyle k}k -ыми наиболее смежными остатками, как сформулировано по

  • τ k = 1 L - k ∑ i = 1 L - k J i, i + k, (k < L) (5) {\displaystyle \tau _{k}={\frac {1}{L-k}}\sum _{i=1}^{L-k}\,\mathrm {J} _{i,i+k},\,\,\,(k\ tau _ {k} = {\ frac {1} {Lk}} \ sum _ {{i = 1}} ^ {{Lk}} \, {\ mathrm {J}} _ {{i, i + k}}, \, \, \, (k <L) \ qquad {\ text {(5) }}

с

  • J i, i + k = 1 Γ ∑ q = 1 Γ [Φ д (р я + К) - Φ Q (р я)] 2 (6) {\ Displaystyle \ mathrm {J} _ {я, я + к} = {\ гидроразрыва {1} {\ Gamma}} \ сумма _ {q = 1} ^ {\ Gamma} \ left [\ Phi _ {q} \ left (\ mathrm {R} _ {i + k} \ right) - \ Phi _ {q} \ left (\ mathrm {R } _ {i} \ right) \ right] ^ {2} \ qquad {\ text {(6)}}}{\ mathrm { J}} _ {{i, i + k}} = {\ frac {1} {\ Gamma}} \ sum _ {{q = 1}} ^ {{\ Gamma}} \ left [\ Phi _ {{ q}} \ left ({\ mathrm {R}} _ {{i + k}} \ right) - \ Phi _ {{q}} \ left ({\ mathrm {R}} _ {{i}} \ right) \ right] ^ {2} \ qquad {\ text {(6)}}

где Φ q (R i) {\ displaystyle \ Phi _ {q} \ left (\ mathrm {R} _ {i} \ right)}\ Phi _ {{q}} \ left ({\ mathrm {R}} _ {{i}} \ right) - это q {\ displaystyle {q}}{q} -я функция аминокислоты R i {\ displaystyle \ mathrm {R} _ {i} \,}{\ mathrm { R}} _ {i} \, и Γ {\ displaystyle \ Gamma \,}\ Gamma \, общее количество рассмотренных функций. Например, в исходной статье Чжоу Φ 1 (R i) {\ displaystyle \ Phi _ {1} \ left (\ mathrm {R} _ {i} \ right)}\ Phi _ {{1}} \ left ({\ mathrm {R}} _ {{ i}} \ right) , Φ 2 ( R i) {\ displaystyle \ Phi _ {2} \ left (\ mathrm {R} _ {i} \ right)}{\ displaystyle \ Phi _ {2} \ left (\ mathrm {R} _ {i} \ right)} и Φ 3 (R i) {\ displaystyle \ Phi _ {3} \ left (\ mathrm {R} _ {i} \ right)}{ \ displaystyle \ Phi _ {3} \ left (\ mathrm {R} _ {i} \ right)} - это соответственно значение гидрофобности, значение гидрофильности и масса боковой цепи аминокислоты R i {\ displaystyle \ mathrm {R} _ {i} \,}{\ mathrm { R}} _ {i} \, ; а Φ 1 (р я + 1) {\ displaystyle \ Phi _ {1} \ left (\ mathrm {R} _ {i + 1} \ right)}\ Phi _ {{1}} \ left ({\ mathrm {R}} _ {{i + 1}} \ right) , Φ 2 (R i + 1) {\ displaystyle \ Phi _ {2} \ left (\ mathrm {R} _ {i + 1} \ right)}\ Phi _ {{2}} \ left ({\ mathrm {R}} _ {{i + 1}} \ right) и Φ 3 (R i + 1) {\ displaystyle \ Phi _ {3} \ left (\ mathrm {R} _ {i + 1} \ right)}\ Phi _ {{3}} \ left ({\ mathrm {R}} _ {{i + 1}} \ right) соответствующие значения для аминокислоты R i + 1 {\ displaystyle \ mathrm {R} _ {я + 1} \,}{\ mathrm {R }} _ {{i + 1}} \, . Следовательно, общее количество рассматриваемых функций равно Γ = 3 {\ displaystyle \ Gamma = 3 \,}\ Gamma = 3 \, . Из уравнения 3 видно, что первые 20 компонентов, т.е. p 1, p 2, ⋯, p 20 {\ displaystyle p_ {1}, \, p_ {2}, \, \ cdots, \, p_ {20}}p_ {1}, \, p_ {2}, \, \ cdots, \, p _ {{20}} связаны с обычным составом белка AA, в то время как остальные компоненты p 20 + 1, ⋯, p 20 + λ {\ displaystyle p_ { 20 + 1}, \, \ cdots, \, p_ {20+ \ lambda}}p _ {{20 + 1}}, \, \ cdots, \, p _ {{20+ \ lambda}} - коэффициенты корреляции, которые отражают 1-й уровень, 2-й уровень,… и λ {\ displaystyle \ lambda \,}\ lambda \, Шаблоны корреляции порядка последовательностей -го уровня (Рисунок 1 ). Именно через эти дополнительные факторы λ {\ displaystyle \ lambda \,}\ lambda \, включаются некоторые важные эффекты порядка следования.

λ {\ displaystyle \ lambda \,}\ lambda \, в уравнении 3 является целочисленным параметром и параметром выбора другого целого числа для λ {\ displaystyle \ lambda \,}\ lambda \, приведет к разной композиции PseAA.

Использование Eq.6 - лишь один из многих режимов для получения коэффициентов корреляции в PseAAC или его компоненты. Другие, такие как режим физико-химического расстояния и режим амфифильного паттерна, также могут быть использованы для получения различных типов PseAAC, как описано в обзорной статье 2009 года. В 2011 году формулировка PseAAC (Eq.3 ) была расширена до формы общего PseAAC, как указано:

  • P = [ψ 1, ψ 2,…, ψ u,…, ψ Ω] T (7) {\ Displaystyle \ mathbf {P} = {\ begin {bmatrix} \ psi _ {1}, \, \ psi _ {2}, \, \ ldots, \, \ psi _ {u }, \, \ ldots, \ psi _ {\ Omega} \ end {bmatrix}} ^ {\ mathbf {T}} \, \, \, \ qquad {\ text {(7)}}}{\ displaystyle \ mathbf {P} = {\ begin {bmatrix} \ psi _ {1}, \, \ psi _ {2}, \, \ ldots, \, \ psi _ {u}, \, \ ldots, \ psi _ {\ Omega} \ end {bmatrix}} ^ {\ mathbf {T}} \, \, \, \ qquad {\ text {(7)}}}

где индекс Ω {\ displaystyle \ Omega}\ Omega представляет собой целое число, а его значение и компоненты ψ 1, ψ 2,… {\ displaystyle \ psi _ {1}, \, \ psi _ {2}, \, \ ldots}{\ displaystyle \ psi _ {1}, \, \ psi _ { 2}, \, \ ldots} будет зависеть от того, как извлечь желаемую информацию из аминокислотной последовательности P в уравнении 1 .

Общий PseAAC может использоваться для отражения любых желаемых характеристик в соответствии с целями исследования, включая такие основные функции, как функциональный домен, последовательная эволюция и генная онтология для повышения качества прогноза субклеточной локализации белков. а также многие другие их важные атрибуты.

Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-02 09:24:40
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте