Предсказание белок-белкового взаимодействия

редактировать

Предсказание белок-белкового взаимодействия - это поле, объединяющее биоинформатику и структурную биология в попытке идентифицировать и каталогизировать физические взаимодействия между парами или группами белков. Понимание белок-белковых взаимодействий важно для исследования внутриклеточных сигнальных путей, моделирования структур белковых комплексов и для понимания различных биохимических процессов.

Экспериментально физические взаимодействия между парами белков могут быть выведены с помощью различных методов, включая дрожжевые двухгибридные системы, анализы комплементации белок-фрагмент (PCA), аффинная очистка / масс-спектрометрия, белковые микрочипы, флуоресцентный резонансный перенос энергии (FRET) и микромасштабный термофорез (MST). Продолжаются попытки экспериментального определения интерактома многих видов. Экспериментально определенные взаимодействия обычно служат основой для вычислительных методов прогнозирования взаимодействий, например с использованием гомологичных белковых последовательностей у разных видов. Однако есть также методы, которые предсказывают взаимодействия de novo, без предварительного знания существующих взаимодействий.

Содержание

  • 1 Методы
    • 1.1 Филогенетическое профилирование
    • 1.2 Прогнозирование совместно эволюционирующих пар белков на основе сходных филогенетических деревьев
    • 1.3 Метод розеттского камня (слияние генов)
    • 1.4 Сохраненное соседство гена
    • 1.5 Методы классификации
    • 1.6 Вывод взаимодействий из гомологичных структур
    • 1.7 Методы ассоциации
    • 1.8 Идентификация структурных паттернов
    • 1.9 Моделирование байесовской сети
    • 1.10 Анализ исключения пар доменов
    • 1.11 Под наблюдением проблема обучения
  • 2 Связь с методами стыковки
  • 3 См. также
  • 4 Ссылки
  • 5 Внешние ссылки

Методы

Белки, которые взаимодействуют, с большей вероятностью будут эволюционировать вместе, поэтому можно делать выводы о взаимодействиях между парами белков на основании их филогенетических расстояний. В некоторых случаях также наблюдалось, что пары взаимодействующих белков слились с ортологами у других организмов. Кроме того, ряд связанных белковых комплексов был структурно решен и может быть использован для идентификации остатков, которые опосредуют взаимодействие, так что аналогичные мотивы могут быть локализованы в других организмах.

Филогенетическое профилирование

Рисунок A. Филогенетические профили четырех генов (A, B, C и D) показаны справа. «1» означает наличие гена в геноме, а «0» означает отсутствие. Два идентичных профиля генов A и B выделены желтым.

Метод филогенетического профиля основан на гипотезе о том, что если два или более белка одновременно присутствуют или отсутствуют в нескольких геномах, то они, вероятно, функционально связаны. Рисунок A иллюстрирует гипотетическую ситуацию, в которой белки A и B идентифицированы как функционально связанные из-за их идентичных филогенетических профилей в 5 различных геномах. Объединенный институт генома предоставляет интегрированную базу данных микробных геномов и микробиомов (JGI IMG ), в которой есть инструмент для филогенетического профилирования отдельных генов и генных кассет.

Прогнозирование совместно эволюционирующих пар белков на основе сходных филогенетических деревьев

Было замечено, что филогенетические деревья лигандов и рецепторов часто были более похожими, чем из-за случайной случайности. Вероятно, это связано с тем, что они столкнулись с аналогичным давлением отбора и эволюционировали вместе. Этот метод использует филогенетические деревья пар белков, чтобы определить, существуют ли взаимодействия. Для этого обнаруживаются гомологи интересующих белков (с использованием инструмента поиска последовательностей, такого как BLAST ) и выполняется множественное выравнивание последовательностей (с помощью инструментов выравнивания, таких как Clustal ), чтобы построить матрицы расстояний для каждого из интересующих белков. Затем матрицы расстояний следует использовать для построения филогенетических деревьев. Однако сравнение филогенетических деревьев затруднено, и современные методы позволяют обойти это, просто сравнивая матрицы расстояний. Матрицы расстояний белков используются для расчета коэффициента корреляции, в котором большее значение соответствует совместной эволюции. Преимущество сравнения матриц расстояний вместо филогенетических деревьев заключается в том, что результаты не зависят от использованного метода построения дерева. Обратной стороной является то, что матрицы различий не являются идеальным представлением филогенетических деревьев, и неточности могут возникнуть в результате использования такого ярлыка. Еще один фактор, заслуживающий внимания, заключается в том, что есть общие черты между филогенетическими деревьями любых белков, даже тех, которые не взаимодействуют. Если оставить это без внимания, это может привести к высокому уровню ложных срабатываний. По этой причине некоторые методы создают фоновое дерево с использованием последовательностей 16S рРНК, которые они используют в качестве канонического дерева жизни. Матрица расстояний, построенная на основе этого древа жизни, затем вычитается из матриц расстояний интересующих белков. Однако, поскольку матрицы расстояний РНК и матрицы расстояний ДНК имеют разный масштаб, предположительно потому, что РНК и ДНК имеют разные скорости мутаций, матрицу РНК необходимо масштабировать, прежде чем ее можно будет вычесть из матриц ДНК. Используя белки молекулярных часов, можно рассчитать масштабный коэффициент для расстояния до белка / расстояния РНК. Этот коэффициент используется для изменения масштаба матрицы РНК.

Фигура B. Фермент сукцинил-КоА-трансфераза человека представлен двумя синими и зелеными полосами в верхней части изображения. Альфа-субъединица фермента ацетат-КоА-трансферазы гомологична первой половине фермента, представленной синей полосой. Бета-субъединица фермента ацетат-КоА-трансферазы гомологична второй половине фермента, представленной зеленой полосой. Этот маг был адаптирован из Uetz, P. Pohl, E. (2018) Взаимодействия белок-белок и белок-ДНК. В: Винк М. (ред.), Введение в молекулярную биотехнологию, 3-е изд. Wiley-VCH, в печати. ​​

Метод розеттского камня (слияние генов)

Метод розеттского камня или слияния доменов основан на гипотезе о том, что взаимодействующие белки иногда сливаются в один белок. Например, два или более отдельных белка в геноме могут быть идентифицированы как слитые в один белок в другом геноме. Отдельные белки могут взаимодействовать и, следовательно, функционально связаны. Примером этого является фермент сукцинил-коА-трансфераза человека, который обнаруживается как один белок у людей, но как два отдельных белка, ацетат-коА-трансфераза альфа и ацетат-коА-трансфераза бета, в Escherichia coli. Для идентификации этих последовательностей необходим алгоритм подобия последовательностей, такой как тот, который используется BLAST. Например, если бы у нас были аминокислотные последовательности белков A и B и аминокислотные последовательности всех белков в определенном геноме, мы могли бы проверить каждый белок в этом геноме на предмет неперекрывающихся областей сходства последовательностей с белками A и B. На фигуре B показано выравнивание последовательности BLAST сукцинил-коА-трансферазы с двумя отдельными гомологами в E. coli. Две субъединицы имеют неперекрывающиеся области сходства последовательностей с человеческим белком, обозначенные розовыми областями, причем альфа-субъединица похожа на первую половину белка, а бета-подобная на вторую половину. Одним из ограничений этого метода является то, что не все взаимодействующие белки могут быть обнаружены слитыми в другом геноме и, следовательно, не могут быть идентифицированы этим методом. С другой стороны, слияние двух белков не требует их физического взаимодействия. Например, известно, что домены SH2 и SH3 в белке src взаимодействуют. Однако многие белки обладают гомологами этих доменов, и не все они взаимодействуют.

Рисунок C. Организация оперона trp у трех различных видов бактерий: Escherichia coli, Haemophilus influenzae, Helicobacter pylori. Только гены trpA и trpB являются соседними у всех трех организмов и, таким образом, предсказано, что они будут взаимодействовать с помощью метода консервативного соседства генов. Это изображение было адаптировано из Dandekar, T., Snel, B., Huynen, M., Bork, P. (1998). Сохранение порядка генов: отпечаток белков, которые физически взаимодействуют. Trends in biochemical Sciences, 23 (9), 324-328.

Консервативное соседство генов

Метод консервативного соседства основан на гипотезе о том, что если гены, кодирующие два белка, являются соседями по хромосоме во многих геномах, тогда они, вероятно, функционально связаны. Этот метод основан на наблюдении Bork et al. сохранения пар генов в девяти бактериальных и архейных геномах. Этот метод наиболее эффективен для прокариот с оперонами, так как организация генов в опероне обычно связана с функцией. Например, гены trpA и trpB в Escherichia coli кодируют две субъединицы фермента триптофансинтазы, которые, как известно, взаимодействуют, чтобы катализировать единственную реакцию. Было показано, что соседство этих двух генов сохраняется в девяти различных бактериальных и архейных геномах.

Методы классификации

Методы классификации используют данные для обучения программы (классификатора) различению положительных примеров взаимодействующих пар белок / домен с отрицательными примерами невзаимодействующих пар. Популярные используемые классификаторы - это случайное определение леса (RFD) и машины опорных векторов. RFD дает результаты, основанные на доменном составе взаимодействующих и невзаимодействующих пар белков. Когда дается пара белков для классификации, RFD сначала создает представление пары белков в векторе. Вектор содержит все типы доменов, используемых для обучения RFD, и для каждого типа домена вектор также содержит значение 0, 1 или 2. Если пара белков не содержит определенного домена, то значение для этого домена равно 0 Если один из белков пары содержит домен, то значение равно 1. Если оба белка содержат домен, то значение равно 2. Используя данные обучения, RFD создает лес решений, состоящий из множества деревьев решений. Каждое дерево решений оценивает несколько доменов и на основе наличия или отсутствия взаимодействий в этих доменах принимает решение о том, взаимодействует ли пара белков. Векторное представление пары белков оценивается каждым деревом, чтобы определить, являются ли они взаимодействующей парой или невзаимодействующей парой. Лес подсчитывает все входные данные от деревьев, чтобы принять окончательное решение. Сила этого метода в том, что он не предполагает, что домены взаимодействуют независимо друг от друга. Это позволяет использовать несколько доменов в белках для прогнозирования. Это большой шаг вперед по сравнению с предыдущими методами, которые могли прогнозировать только на основе одной пары доменов. Ограничение этого метода заключается в том, что он полагается на набор обучающих данных для получения результатов. Таким образом, использование разных наборов обучающих данных может повлиять на результаты.

Вывод о взаимодействиях из гомологичных структур

Эта группа методов использует известные структуры белковых комплексов для прогнозирования и структурного моделирования взаимодействий между запрашиваемыми белковыми последовательностями. Процесс прогнозирования обычно начинается с использования метода на основе последовательности (например, Interolog ) для поиска сложных структур белка, которые гомологичны запрашиваемым последовательностям. Эти известные сложные структуры затем используются в качестве шаблонов для структурного моделирования взаимодействия между последовательностями запросов. Этот метод имеет то преимущество, что не только делает вывод о взаимодействии белков, но также предлагает модели того, как белки взаимодействуют структурно, что может дать некоторое представление о механизме этого взаимодействия на атомном уровне. С другой стороны, способность этих методов делать прогнозы ограничена ограниченным числом известных структур белковых комплексов.

Методы связывания

Методы связывания ищут характерные последовательности или мотивы, которые могут помочь различать взаимодействующие и невзаимодействующие пары. Классификатор обучается путем поиска пар «последовательность-сигнатура», где один белок содержит одну сигнатуру последовательности, а его взаимодействующий партнер содержит другую сигнатуру последовательности. Они специально ищут сигнатуры последовательности, которые чаще встречаются вместе, чем случайно. При этом используется оценка логарифма шансов, которая вычисляется как log2 (Pij / PiPj), где Pij - наблюдаемая частота доменов i и j, встречающихся в одной паре белков; Pi и Pj - фоновые частоты областей i и j в данных. Прогнозируемые доменные взаимодействия - это взаимодействия с положительными логарифмическими оценками шансов, которые также имеют несколько вхождений в базе данных. Обратной стороной этого метода является то, что он рассматривает каждую пару взаимодействующих доменов отдельно и предполагает, что они взаимодействуют независимо друг от друга.

Идентификация структурных паттернов

Этот метод строит библиотеку известных межбелковых интерфейсов из PDB, где интерфейсы определяются как пары полипептидных фрагментов, указанные ниже. порог немного больше, чем ван-дер-ваальсовый радиус вовлеченных атомов. Затем последовательности в библиотеке группируются на основе структурного выравнивания, и избыточные последовательности удаляются. Остатки, которые имеют высокий (обычно>50%) уровень частоты для данной позиции, считаются горячими точками. Затем эта библиотека используется для идентификации потенциальных взаимодействий между парами целей, при условии, что они имеют известную структуру (т.е. присутствуют в PDB ).

Байесовское сетевое моделирование

Байесовские методы объединяют данные из самых разных источников, включая экспериментальные результаты и предыдущие расчетные прогнозы, и используют эти функции для оценки вероятности того, что конкретное потенциальное взаимодействие белков истинно положительный результат. Эти методы полезны, потому что экспериментальные процедуры, особенно эксперименты с двумя гибридами дрожжей, чрезвычайно шумны и дают много ложных срабатываний, тогда как ранее упомянутые вычислительные методы могут предоставить только косвенные доказательства того, что конкретная пара белков может взаимодействовать.

Анализ исключения доменных пар

Анализ исключения доменных пар выявляет специфические доменные взаимодействия, которые трудно обнаружить с помощью байесовских методов. Байесовские методы хороши для обнаружения неспецифических беспорядочных взаимодействий и не очень хороши для обнаружения редких специфических взаимодействий. Метод анализа исключения пар доменов вычисляет E-score, который измеряет, взаимодействуют ли два домена. Он рассчитывается как log (вероятность того, что два белка взаимодействуют при условии взаимодействия доменов / вероятность того, что два белка взаимодействуют при условии, что домены не взаимодействуют). Вероятности, требуемые в формуле, вычисляются с использованием процедуры максимизации ожиданий, которая представляет собой метод оценки параметров в статистических моделях. Высокие оценки E указывают на то, что эти два домена, вероятно, будут взаимодействовать, в то время как низкие оценки указывают на то, что другие домены, образующие пару белков, с большей вероятностью несут ответственность за взаимодействие. Недостатком этого метода является то, что он не учитывает ложные срабатывания и ложноотрицания в экспериментальных данных.

Задача обучения с учителем

Проблема прогнозирования PPI может быть сформулирована как проблема обучения с учителем. В этой парадигме известные белковые взаимодействия контролируют оценку функции, которая может предсказать, существует ли взаимодействие между двумя белками, учитывая данные о белках (например, уровни экспрессии каждого гена в различных экспериментальных условиях, информацию о местоположении, филогенетический профиль и т..).

Связь с методами стыковки

Область предсказания взаимодействия белок-белок тесно связана с областью стыковки белок-белок, в которой предпринимаются попытки использовать геометрические и стерические соображения объединить два белка известной структуры в связанный комплекс. Это полезный метод исследования в случаях, когда оба белка в паре имеют известные структуры и, как известно (или, по крайней мере, сильно подозревается), что они взаимодействуют, но, поскольку так много белков не имеют экспериментально определенных структур, методы прогнозирования взаимодействия на основе последовательностей являются особенно полезно в сочетании с экспериментальными исследованиями интерактома организма.

См. также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-06-02 08:35:28
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте