Прогнозирование функции белка

редактировать

Прогнозирование функции белка - это методы, которые исследователи биоинформатики используют для определения биологических или биохимических ролей белки. Эти белки обычно плохо изучены или предсказаны на основе данных геномной последовательности. Эти прогнозы часто основываются на вычислительных процедурах, требующих большого объема данных. Информация может поступать из нуклеиновых кислот гомологии последовательностей, экспрессии генов профилей, белковых доменов структур, интеллектуального анализа текста публикаций, филогенетических профилей, фенотипа профили и белок-белковое взаимодействие. Функция белков - это широкий термин: роли белков варьируются от катализа биохимических реакций до транспорта до передачи сигнала, и один белок может играть роль во многих процессах или клеточных путях.

Как правило, функцию можно рассматривать как «все, что происходит с белком или через него». Консорциум генных онтологий предоставляет полезную классификацию функций на основе словаря четко определенных терминов, разделенных на три основные категории: молекулярные функции, биологические процессы и клеточные компоненты. Исследователи могут запросить эту базу данных, указав имя белка или регистрационный номер, чтобы получить связанные термины или аннотации генной онтологии (GO), основанные на вычислительных или экспериментальных данных.

Хотя для экспериментальной демонстрации функции белка можно использовать такие методы, как микроматричный анализ, РНК-интерференция и дрожжевая двугибридная система, прогресс в секвенировании технологии сделали скорость, с которой белки могут быть экспериментально охарактеризованы, намного медленнее, чем скорость, с которой становятся доступными новые последовательности. Таким образом, аннотирование новых последовательностей в основном осуществляется путем прогнозирования с помощью вычислительных методов, так как эти типы аннотации часто могут быть выполнены быстро и для многих генов или белков одновременно. Первые такие методы предполагали функцию на основе гомологичных белков с известными функциями (прогнозирование функции на основе гомологии ). Развитие методов на основе контекста и структуры расширило объем информации, которую можно предсказать, и теперь можно использовать комбинацию методов для получения картины полных клеточных путей на основе данных последовательности. Важность и распространенность компьютерного прогнозирования функции генов подчеркивается анализом «кодов свидетельств», используемых базой данных GO: по состоянию на 2010 г. 98% аннотаций были перечислены под кодом IEA (полученным из электронных аннотаций), тогда как только 0,6% были основаны на экспериментальных данных.

Содержание

  • 1 Методы прогнозирования функций
    • 1.1 Методы, основанные на гомологии
    • 1.2 Методы, основанные на мотивах последовательности
    • 1.3 Методы на основе структуры
    • 1.4 Основанные на геномном контексте методы
      • 1.4.1 Слияние генов
      • 1.4.2 Совместное расположение / коэкспрессия
    • 1.5 Вычислительное картирование растворителей
    • 1.6 Сетевые методы
      • 1.6.1 Интегрированные сети
  • 2 Инструменты и базы данных для прогнозирования функции белков
  • 3 См. также
  • 4 Ссылки
  • 5 Внешние ссылки

Методы прогнозирования функций

Методы на основе гомологии

Часть множественных выравнивание последовательностей четырех различных последовательностей белка гемоглобина. Схожие белковые последовательности обычно указывают на общие функции.

Белки с аналогичной последовательностью обычно гомологичны и, таким образом, имеют схожую функцию. Следовательно, белки во вновь секвенированном геноме обычно аннотируются с использованием последовательностей подобных белков в родственных геномах.

Однако близкородственные белки не всегда выполняют одну и ту же функцию. Например, дрожжевые белки Gal1 и Gal3 являются паралогами (73% идентичности и 92% сходства), которые развили очень разные функции, при этом Gal1 является галактокиназой, а Gal3 является индуктором транскрипции.

Не существует жесткого порога сходства последовательностей для «безопасного» прогнозирования функции; многие белки с едва заметным сходством последовательностей имеют ту же функцию, в то время как другие (такие как Gal1 и Gal3) очень похожи, но развили разные функции. Как показывает практика, последовательности, идентичные более чем на 30-40%, обычно считаются имеющими одинаковую или очень похожую функцию.

Для ферментов предсказание конкретных функций особенно сложно, так как им нужно всего несколько ключевых остатков в их активном сайте, поэтому очень разные последовательности могут иметь очень похожие действия. Напротив, даже при идентичности последовательностей 70% или более 10% любой пары ферментов имеют разные субстраты; и различия в реальных ферментативных реакциях не редкость, близкая к 50% идентичности последовательностей.

Методы на основе мотивов последовательности

Разработка баз данных белковых доменов, таких как Pfam (Protein База данных семейств) позволяет нам находить известные домены в последовательности запросов, обеспечивая свидетельства вероятных функций. Веб-сайт dcGO содержит аннотации как для отдельных доменов, так и для наддоменов (т. Е. Комбинации двух или более последовательных доменов), таким образом, с помощью dcGO Predictor, что позволяет более реалистично прогнозировать функции. В пределах белковых доменов более короткие сигнатуры, известные как «мотивы», связаны с конкретными функциями, а базы данных мотивов, такие как PROSITE («база данных белковых доменов, семейств и функциональных сайтов»), могут быть поиск выполняется с помощью последовательности запросов. Мотивы можно, например, использовать для прогнозирования субклеточной локализации белка (где в клетку белок отправляется после синтеза). Короткие сигнальные пептиды направляют определенные белки в конкретное место, такое как митохондрии, и существуют различные инструменты для предсказания этих сигналов в последовательности белка. Например, который обновлялся несколько раз по мере улучшения методов. Таким образом, аспекты функции белка можно предсказать без сравнения с другими полноразмерными гомологичными последовательностями белка.

Методы на основе структуры

Выравнивание токсичных белков рицин и абрин. Структурное выравнивание может использоваться для определения того, имеют ли два белка сходные функции, даже если их последовательности отличаются.

Поскольку 3D структура белка обычно более консервативна, чем последовательность белка, структурное сходство является хорошим индикатором схожести функций в двух или более белках. Многие программы были разработаны для скрининга неизвестной белковой структуры по Protein Data Bank и получения отчетов об аналогичных структурах (например, FATCAT (гибкая структура, выравнивающая цепочку AFP (выровненных пар фрагментов) с поворотами), CE (комбинаторная extension)) и DeepAlign (выравнивание структуры белка за пределами пространственной близости). Чтобы справиться с ситуацией, когда многие белковые последовательности не имеют решаемых структур, также разработаны некоторые серверы прогнозирования функций, такие как RaptorX, которые могут сначала прогнозировать 3D-модель последовательности, а затем использовать метод на основе структуры для прогнозирования функций. на основе прогнозируемой 3D-модели. Во многих случаях вместо всей структуры белка может быть нацелена трехмерная структура конкретного мотива, представляющего активный сайт или сайт связывания. Метод структурно выровненных локальных участков активности (SALSA), разработанный Мэри Джо Ондрехен и студентами, использует вычисленные химические свойства отдельных аминокислот для определения локальных биохимически активных участков. Были разработаны базы данных, такие как Атлас каталитических сайтов, в которых можно выполнять поиск с использованием новых белковых последовательностей для прогнозирования конкретных функциональных сайтов.

Геномные методы, основанные на контексте

Многие из новых методов прогнозирования функции белков основаны не на сравнении последовательности или структуры, как указано выше, а на некотором типе корреляции между новыми генами / белками и те, у которых уже есть аннотации. Эти методы на основе геномного контекста, также известные как филогеномное профилирование, основаны на наблюдении, что два или более белков с одинаковым паттерном присутствия или отсутствия во многих разных геномах, скорее всего, имеют функциональную связь. В то время как методы, основанные на гомологии, часто могут использоваться для идентификации молекулярных функций белка, подходы на основе контекста могут использоваться для прогнозирования клеточной функции или биологического процесса, в котором действует белок. Например, белки, участвующие в одном и том же пути передачи сигнала, вероятно, имеют общий геномный контекст у всех видов.

Слияние генов

Слияние генов происходит, когда два или более гена кодируют два или более белка в одном организме и в результате эволюции объединились, чтобы стать одним геном в другом организме (или наоборот для деление гена). Эта концепция использовалась, например, для поиска по всем E. coli на предмет гомологии в других геномах и обнаруживают более 6000 пар последовательностей с общей гомологией с отдельными белками в другом геноме, что указывает на возможное взаимодействие между каждой из пар. Поскольку две последовательности в каждой паре белков негомологичны, эти взаимодействия невозможно предсказать с использованием методов, основанных на гомологии.

Совместное расположение / совместная экспрессия

У прокариот кластеры генов, которые физически близки друг к другу в геноме, часто сохраняются вместе в процессе эволюции и имеют тенденцию кодировать белки которые взаимодействуют или являются частью одного и того же оперона. Таким образом, хромосомная близость, также называемая методом соседства генов, может использоваться для прогнозирования функционального сходства между белками, по крайней мере, у прокариот. Также было замечено, что хромосомная близость применима к некоторым путям в выбранных эукариотических геномах, включая Homo sapiens, и при дальнейшем развитии методы соседства генов могут быть полезны для изучения взаимодействия белков у эукариот.

Гены участвующие в аналогичных функциях, также часто транскрибируются совместно, так что неаннотированный белок часто может иметь функцию, связанную с белками, с которыми он коэкспрессируется. Алгоритмы определения вины по ассоциации ,, разработанные на основе этого подхода, могут использоваться для анализа больших объемов данных о последовательностях и идентификации генов с паттернами экспрессии, аналогичными паттернам экспрессии известных генов. Часто при исследовании вины по ассоциации группа генов-кандидатов (неизвестная функция) сравнивается с целевой группой (например, с группой генов, которые, как известно, связаны с конкретным заболеванием), и ранжируются гены-кандидаты. по их вероятности принадлежности к целевой группе на основе данных. Однако на основании недавних исследований было высказано предположение, что с этим типом анализа существуют некоторые проблемы. Например, поскольку многие белки многофункциональны, кодирующие их гены могут принадлежать нескольким целевым группам. Утверждается, что такие гены с большей вероятностью будут идентифицированы в результате ассоциативных исследований, и поэтому прогнозы не являются конкретными.

С накоплением данных РНК-seq, которые позволяют оценить профили экспрессии для альтернативно сплайсированных изоформ, алгоритмы машинного обучения также были разработаны для прогнозирования и дифференцирования функций на уровне изоформ. Это представляет собой развивающуюся область исследований в области прогнозирования функций, которая объединяет крупномасштабные гетерогенные геномные данные для вывода функций на уровне изоформ.

Вычислительное картирование растворителей

Вычислительное картирование растворителя белка AMA1 с использованием вычислений на основе фрагментов. картирование растворителей (FTMAP) путем компьютерного сканирования поверхности AMA1 с помощью 16 зондов (небольших органических молекул) и определения мест скопления зондов (отмеченных как цветные области на поверхности белка)

Одна из проблем, связанных с предсказанием функции белка открытие активного сайта. Это осложняется тем, что определенные активные центры не образуются - по существу существуют - до тех пор, пока белок не претерпит конформационные изменения, вызванные связыванием небольших молекул. Большинство белковых структур было определено с помощью рентгеновской кристаллографии, для которой требуется очищенный кристалл белка . В результате существующие структурные модели, как правило, представляют собой очищенный белок, и поэтому в них отсутствуют конформационные изменения, которые возникают при взаимодействии белка с небольшими молекулами.

При картировании вычислительного растворителя используются зонды (небольшие органические молекулы), которые вычисляются с помощью вычислений. «перемещаются» по поверхности белка в поисках сайтов, где они склонны группироваться. Как правило, применяются несколько различных зондов с целью получения большого количества различных конформаций белок-зонд. Затем сгенерированные кластеры ранжируются на основе средней свободной энергии кластера. После компьютерного картирования нескольких зондов участок белка, где образуется относительно большое количество кластеров, обычно соответствует активному участку на белке.

Этот метод представляет собой вычислительную адаптацию работы «мокрой лаборатории» 1996 года. Было обнаружено, что установление структуры белка, находящегося в суспензии в разных растворителях, с последующим наложением этих структур друг на друга дает данные, в которых молекулы органического растворителя (в которых были суспендированы белки) обычно группируются в активном центре белка. Эта работа была проведена в ответ на понимание того, что молекулы воды видны на картах электронной плотности, полученных с помощью рентгеновской кристаллографии. Молекулы воды взаимодействуют с белком и имеют тенденцию группироваться в полярных областях белка. Это привело к идее погружения очищенного кристалла белка в другие растворители (например, этанол, изопропанол и т. Д.), Чтобы определить, где эти молекулы группируются на белке. Растворители могут быть выбраны на основе того, что они приблизительно, то есть, с какой молекулой этот белок может взаимодействовать (например, этанол может исследовать взаимодействия с аминокислотой серин, изопропанол зонд на треонин и т. Д.). Жизненно важно, чтобы кристалл белка сохранял свою третичную структуру в каждом растворителе. Этот процесс повторяется для нескольких растворителей, а затем эти данные можно использовать для определения потенциальных активных сайтов на белке. Десять лет спустя этот метод был разработан Clodfelter et al.

Сетевые методы

Пример сети взаимодействия белков, созданный через веб-ресурс STRING. Паттерны белковых взаимодействий в сетях используются для вывода о функции. Здесь показано, что продукты бактериальных генов trp, кодирующих триптофансинтазу, взаимодействуют с самими собой и другими родственными белками.

Алгоритмы типа вины по типу ассоциации могут использоваться для создания сети функциональных ассоциаций для данной целевая группа генов или белков. Эти сети служат представлением свидетельств общей / сходной функции в группе генов, где узлы представляют гены / белки и связаны друг с другом краями, представляющими свидетельство общей функции.

Интегрированные сети

Несколько сетей, основанных на разных источниках данных, могут быть объединены в составную сеть, которая затем может использоваться алгоритмом прогнозирования для аннотирования генов-кандидатов или белков. Например, разработчики системы использовали широкий спектр геномных данных Saccharomyces cerevisiae (дрожжи) для создания сложной функциональной сети для этого вида. Этот ресурс позволяет визуализировать известные сети, представляющие биологические процессы, а также предсказывать новые компоненты этих сетей. Для прогнозирования функции было разработано множество алгоритмов, основанных на интеграции нескольких источников данных (например, геномных, протеомных, белковых взаимодействий и т. Д.), И тестирование на ранее аннотированных генах показывает высокий уровень точности. К недостаткам некоторых алгоритмов прогнозирования функций относятся отсутствие доступа и время, необходимое для анализа. Однако в последние годы были разработаны более быстрые и точные алгоритмы, такие как (алгоритм интеграции нескольких сетей), которые общедоступны в Интернете, что указывает на будущее направление прогнозирования функций.

Инструменты и базы данных для прогнозирования функции белков

STRING : веб-инструмент, который объединяет различные источники данных для прогнозирования функций.

VisANT : визуальный анализ сетей и интегральный визуальный анализ данных.

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-06-02 08:34:34
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте