Структурная биоинформатика - это отрасль биоинформатики, которая связана с анализом и предсказанием трехмерной структуры биологических макромолекул, таких как белки, РНК и ДНК. Он имеет дело с обобщениями о макромолекулярных трехмерных структурах, таких как сравнение общих складок и локальных мотивов, принципы молекулярного складывания, эволюции, связывающих взаимодействий и взаимосвязей структура / функция, работая как с экспериментально решенными структурами, так и с вычислительными моделями. Термин структурный имеет то же значение, что и в структурной биологии, а структурная биоинформатика может рассматриваться как часть вычислительной структурной биологии. Основная цель структурной биоинформатики - создание новых методов анализа и манипулирования биологическими макромолекулярными данными для решения задач в биологии и получения новых знаний.
Структура белка напрямую связана с его функцией. Присутствие определенных химических групп в определенных местах позволяет белкам действовать как ферменты, катализируя несколько химических реакций. В целом белковые структуры подразделяются на четыре уровня: первичный (последовательности), вторичный (локальная конформация полипептидной цепи), третичный (трехмерная структура белковой складки) и четвертичный (ассоциация нескольких полипептидных структур). Структурная биоинформатика в основном рассматривает взаимодействия между структурами с учетом их пространственных координат. Таким образом, первичная структура лучше анализируется в традиционных разделах биоинформатики. Однако последовательность подразумевает ограничения, которые позволяют формировать консервативные локальные конформации полипептидной цепи, такие как альфа-спираль, бета-листы и петли (вторичная структура). Кроме того, слабые взаимодействия (например, водородные связи ) стабилизируют складку белка. Взаимодействия могут быть внутрицепочечными, то есть происходящими между частями одного и того же белкового мономера (третичная структура), или межцепочечными, то есть между разными структурами (четвертичная структура).
Визуализация структуры белков - важный вопрос для структурной биоинформатики. Это позволяет пользователям наблюдать статические или динамические представления молекул, а также обнаруживать взаимодействия, которые могут использоваться для заключения о молекулярных механизмах. Наиболее распространенные типы визуализации:
Классическая структура дуплексов ДНК была первоначально описана Уотсоном и Криком (и вкладами Розалинды Франклин ). Молекула ДНК состоит из трех веществ: фосфатной группы, пентозы и азотистого основания ( аденина, тимина, цитозина или гуанина ). Структура двойной спирали ДНК стабилизируется водородными связями, образованными между парами оснований: аденин с тимином (AT) и цитозин с гуанином (CG). Многие исследования в области структурной биоинформатики были сосредоточены на понимании взаимодействия между ДНК и небольшими молекулами, что было целью нескольких исследований по разработке лекарств.
Взаимодействия - это контакты, устанавливаемые между частями молекул на разных уровнях. Они отвечают за стабилизацию белковых структур и выполняют широкий спектр функций. В биохимии взаимодействия характеризуются близостью групп атомов или областей молекул, которые оказывают влияние друг на друга, например электростатические силы, водородные связи и гидрофобный эффект. Белки могут выполнять несколько типов взаимодействий, таких как белок-белковые взаимодействия (ИПП), белок-пептидные взаимодействия., белок-лигандные взаимодействия (PLI), и взаимодействие белок-ДНК.
Контакты между двумя аминокислотными остатками: Q196-R200 (PDB ID- 2X1C)Расчет контактов - важная задача в структурной биоинформатике, важная для правильного предсказания структуры и фолдинга белков, термодинамической стабильности, взаимодействий белок-белок и белок-лиганд, анализа стыковки и молекулярной динамики и т. Д.
Традиционно вычислительные методы использовали пороговое расстояние между атомами (также называемое отсечкой) для обнаружения возможных взаимодействий. Это обнаружение выполняется на основе евклидова расстояния и углов между атомами определенных типов. Однако большинство методов, основанных на простом евклидовом расстоянии, не могут обнаружить закрытые контакты. Следовательно, в последние годы все большее распространение получили методы без отсечки, такие как триангуляция Делоне. Кроме того, для улучшения определения контакта использовалась комбинация набора критериев, например физико-химических свойств, расстояния, геометрии и углов.
Тип | Критерии максимального расстояния |
---|---|
Водородная связь | 3,9 Å |
Гидрофобное взаимодействие | 5 Å |
Ионное взаимодействие | 6 Å |
Ароматическая укладка | 6 Å |
Белок банка данных (PDB) представляет собой базу данных 3D структуры данных для крупных биологических молекул, таких как белки, ДНК и РНК. PDB управляется международной организацией под названием Worldwide Protein Data Bank ( wwPDB ), которая состоит из нескольких местных организаций, таких как. PDBe, PDBj, RCSB и BMRB. Они несут ответственность за бесплатное хранение копий данных PDB в Интернете. Количество структурных данных, доступных в PDB, увеличивается с каждым годом, как правило, их получают с помощью рентгеновской кристаллографии, ЯМР-спектроскопии или криоэлектронной микроскопии.
Формат PDB (.pdb) - это устаревший текстовый формат файла, используемый для хранения информации о трехмерных структурах макромолекул, используемых в банке данных Protein Data Bank. Из-за ограничений в концепции структуры формата, формат PDB не допускает больших структур, содержащих более 62 цепочек или 99999 записей атомов.
PDBx / mmCIF ( файл макромолекулярной кристаллографической информации) - это стандартный текстовый формат файла для представления кристаллографической информации. С 2014 года формат PDB был заменен в качестве стандартного распространения архива PDB файловым форматом PDBx / mmCIF (.cif). В то время как формат PDB содержит набор записей, идентифицируемых ключевым словом длиной до шести символов, формат PDBx / mmCIF использует структуру на основе ключа и значения, где ключ - это имя, которое идентифицирует некоторую функцию, а значение - это информация о переменной.
Помимо банка данных о белках (PDB), существует несколько баз данных структур белков и других макромолекул. Примеры включают:
Структурное выравнивание - это метод сравнения трехмерных структур на основе их формы и конформации. Его можно использовать для вывода об эволюционной взаимосвязи между набором белков даже при низком сходстве последовательностей. Структурное выравнивание подразумевает наложение трехмерной структуры на вторую, вращение и перемещение атомов в соответствующих положениях (как правило, с использованием атомов C α или даже тяжелых атомов основной цепи C, N, O и C α). Обычно качество выравнивания оценивается на основе среднеквадратичного отклонения (RMSD) атомных позиций, то есть среднего расстояния между атомами после наложения:
где δ i - расстояние между атомом i и либо эталонным атомом, соответствующим другой структуре, либо средней координатой N эквивалентных атомов. Как правило, результат RMSD измеряется в единицах Ангстрем (Å), что эквивалентно 10 −10 м. Чем ближе к нулю значение RMSD, тем более похожи структуры.
Структурные сигнатуры, также называемые отпечатками пальцев, представляют собой модели макромолекул, которые можно использовать для вывода о сходствах и различиях. Сравнение большого набора белков с использованием RMSD все еще является проблемой из-за высокой вычислительной стоимости структурных выравниваний. Структурные сигнатуры, основанные на образцах расстояний в графах между парами атомов, использовались для определения векторов идентификации белков и для обнаружения нетривиальной информации. Кроме того, линейная алгебра и машинное обучение могут использоваться для кластеризации сигнатур белков, обнаружения взаимодействий белок-лиганд, прогнозирования ΔΔG и предложения мутаций на основе евклидова расстояния.
Атомные структуры молекул могут быть получены несколькими методами, такими как рентгеновская кристаллография (XRC), ЯМР-спектроскопия и трехмерная электронная микроскопия ; однако эти процессы могут быть дорогостоящими, а иногда трудно установить некоторые структуры, такие как мембранные белки. Следовательно, необходимы вычислительные подходы для определения трехмерной структуры макромолекул. Методы прогнозирования структуры подразделяются на сравнительное моделирование и моделирование de novo.
Сравнительное моделирование, также известное как моделирование гомологии, соответствует методологии построения трехмерных структур из аминокислотной последовательности целевого белка и матрицы с известной структурой. В литературе описано, что эволюционно родственные белки имеют тенденцию представлять консервативную трехмерную структуру. Кроме того, последовательности отдаленно родственных белков с идентичностью ниже 20% могут иметь различные складки.
В структурной биоинформатике моделирование de novo, также известное как моделирование ab initio, относится к подходам для получения трехмерных структур из последовательностей без необходимости гомологичной известной трехмерной структуры. Несмотря на новые алгоритмы и методы, предложенные в последние годы, предсказание структуры белка de novo по-прежнему считается одной из нерешенных проблем современной науки.
После моделирования структуры необходим дополнительный этап проверки структуры, поскольку многие алгоритмы и инструменты как сравнительного, так и «нового» моделирования используют эвристику для попытки сборки трехмерной структуры, что может привести к множеству ошибок. Некоторые стратегии проверки состоят из расчета энергетических баллов и сравнения их с экспериментально определенными структурами. Например, оценка DOPE - это оценка энергии, используемая инструментом MODELLER для определения лучшей модели.
Другая стратегия проверки - вычисление двугранных углов φ и ψ основной цепи всех остатков и построение графика Рамачандрана. Боковая цепь аминокислот и природа взаимодействий в основной цепи ограничивают эти два угла, и, таким образом, визуализация допустимых конформаций может быть выполнена на основе графика Рамачандрана. Большое количество аминокислот, размещенных в недопустимых положениях диаграммы, свидетельствует о некачественном моделировании.
Список с обычно используемыми программными средствами для предсказания структуры белков, в том числе сравнительного моделирования, белка резьбы, де ново предсказания структуры белка и предсказания вторичной структуры можно найти в списке программного обеспечения предсказания структуры белка.
Молекулярный докинг (также называемый только докингом) - это метод, используемый для прогнозирования координат ориентации молекулы ( лиганда ) при ее связывании с другой (рецептором или мишенью). Связывание может происходить главным образом за счет нековалентных взаимодействий, в то время как ковалентно связанное связывание также может быть изучено. Молекулярный докинг направлен на прогнозирование возможных положений (режимов связывания) лиганда, когда он взаимодействует с конкретными участками рецептора. Инструменты стыковки используют силовые поля для оценки баллов для ранжирования лучших поз, которые способствовали лучшему взаимодействию между двумя молекулами.
Обычно протоколы стыковки используются для прогнозирования взаимодействий между небольшими молекулами и белками. Однако стыковка также может использоваться для обнаружения ассоциаций и способов связывания между белками, пептидами, молекулами ДНК или РНК, углеводами и другими макромолекулами.
Виртуальный скрининг (VS) - это вычислительный подход, используемый для быстрого скрининга больших библиотек соединений для открытия лекарств. Обычно виртуальный скрининг использует алгоритмы стыковки для ранжирования небольших молекул с наибольшим сродством к целевому рецептору.
В последнее время было использовано несколько инструментов для оценки использования виртуального скрининга в процессе открытия новых лекарств. Однако такие проблемы, как отсутствие информации, неточное понимание свойств молекул, подобных лекарству, слабые функции оценки или недостаточные стратегии стыковки, препятствуют процессу стыковки. Следовательно, в литературе описано, что это все еще не считается зрелой технологией.
Молекулярная динамика (МД) - это вычислительный метод моделирования взаимодействий между молекулами и их атомами в течение заданного периода времени. Этот метод позволяет наблюдать за поведением молекул и их взаимодействиями, рассматривая систему в целом. Чтобы вычислить поведение систем и, таким образом, определить траектории, МД может использовать уравнение движения Ньютона в дополнение к использованию методов молекулярной механики для оценки сил, возникающих между частицами ( силовые поля ).
Подходы информатики, используемые в структурной биоинформатике:
Программное обеспечение | Описание |
---|---|
И-ТАССЕР | Прогнозирование трехмерной модели структуры белковых молекул по аминокислотным последовательностям. |
МЧС | Molecular Operating Environment (MOE) - это обширная платформа, включающая структурное моделирование белков, семейств белков и антител. |
SBL | Библиотека структурной биоинформатики: приложения для конечных пользователей и передовые алгоритмы |
BALLView | Молекулярное моделирование и визуализация |
STING | Визуализация и анализ |
PyMOL | Просмотр и моделирование |
VMD | Зритель, молекулярная динамика |
Король | С открытым исходным кодом Java kinemage зритель |
STRIDE | Определение вторичной структуры по координатам |
MolProbity | Веб-сервер проверки структуры |
ПРОЧЕК | Веб-сервис проверки структуры |
CheShift | Онлайн-приложение для проверки структуры белка |
3D-mol.js | Молекулярная программа просмотра веб-приложений, разработанных с использованием Javascript. |
ПРОПКА | Быстрое предсказание значений pKa белка на основе эмпирических соотношений структура / функция |
КАРА | Назначение компьютерного резонанса |
Док-сервер | Веб-сервер молекулярной стыковки |
StarBiochem | Программа просмотра белков на языке Java с функцией прямого поиска в базе данных белков. |
ЛОПАТА | Среда разработки приложений структурной протеомики |
PocketSuite | Веб-портал для различных веб-серверов для привязки анализа на уровне сайта. PocketSuite делится на:: PocketDepth (Предсказание сайта привязки) PocketMatch (сравнение сайтов связывания), PocketAlign (выравнивание сайтов связывания) и PocketAnnotate (аннотация сайтов связывания). |
MSL | Библиотека программного обеспечения для молекулярного моделирования C ++ с открытым исходным кодом для реализации методов структурного анализа, прогнозирования и проектирования. |
PSSpred | Прогноз вторичной структуры белка |
Протей | Webtool для предложения пар мутаций |
SDM | Сервер для прогнозирования влияния мутаций на стабильность белков. |