Структурная биоинформатика

редактировать
Трехмерная структура белка

Структурная биоинформатика - это отрасль биоинформатики, которая связана с анализом и предсказанием трехмерной структуры биологических макромолекул, таких как белки, РНК и ДНК. Он имеет дело с обобщениями о макромолекулярных трехмерных структурах, таких как сравнение общих складок и локальных мотивов, принципы молекулярного складывания, эволюции, связывающих взаимодействий и взаимосвязей структура / функция, работая как с экспериментально решенными структурами, так и с вычислительными моделями. Термин структурный имеет то же значение, что и в структурной биологии, а структурная биоинформатика может рассматриваться как часть вычислительной структурной биологии. Основная цель структурной биоинформатики - создание новых методов анализа и манипулирования биологическими макромолекулярными данными для решения задач в биологии и получения новых знаний.

СОДЕРЖАНИЕ

  • 1 Введение
    • 1.1 Структура белка
    • 1.2 Визуализация структуры
    • 1.3 Структура ДНК
    • 1.4 Взаимодействие
    • 1.5 Расчет контактов
  • 2 Банк данных белков (PDB)
    • 2.1 Формат данных
    • 2.2 Другие структурные базы данных
  • 3 Сравнение конструкций
    • 3.1 Конструктивное выравнивание
    • 3.2 Структурные сигнатуры на основе графиков
  • 4 Прогнозирование структуры
    • 4.1 Сравнительное моделирование
    • 4.2 De novo моделирование
    • 4.3 Проверка структуры
    • 4.4 Инструменты прогнозирования
  • 5 Молекулярный док
    • 5.1 Виртуальный просмотр
  • 6 Молекулярная динамика
  • 7 приложений
    • 7.1 Инструменты
  • 8 См. Также
  • 9 ссылки
  • 10 Дальнейшее чтение

Вступление

Белковая структура

Основная статья: Белковая структура

Структура белка напрямую связана с его функцией. Присутствие определенных химических групп в определенных местах позволяет белкам действовать как ферменты, катализируя несколько химических реакций. В целом белковые структуры подразделяются на четыре уровня: первичный (последовательности), вторичный (локальная конформация полипептидной цепи), третичный (трехмерная структура белковой складки) и четвертичный (ассоциация нескольких полипептидных структур). Структурная биоинформатика в основном рассматривает взаимодействия между структурами с учетом их пространственных координат. Таким образом, первичная структура лучше анализируется в традиционных разделах биоинформатики. Однако последовательность подразумевает ограничения, которые позволяют формировать консервативные локальные конформации полипептидной цепи, такие как альфа-спираль, бета-листы и петли (вторичная структура). Кроме того, слабые взаимодействия (например, водородные связи ) стабилизируют складку белка. Взаимодействия могут быть внутрицепочечными, то есть происходящими между частями одного и того же белкового мономера (третичная структура), или межцепочечными, то есть между разными структурами (четвертичная структура).

Визуализация структуры

Структурная визуализация BACTERIOPHAGE T4 LYSOZYME (PDB ID: 2LZM). (Мультик; (B) Линии; (C) Поверхность; (D) Палки.

Визуализация структуры белков - важный вопрос для структурной биоинформатики. Это позволяет пользователям наблюдать статические или динамические представления молекул, а также обнаруживать взаимодействия, которые могут использоваться для заключения о молекулярных механизмах. Наиболее распространенные типы визуализации:

  • Мультфильм: этот тип визуализации белка подчеркивает различия в вторичной структуре. В общем, α-спираль представлена ​​как тип винта, β-тяжи - стрелками, а петли - линиями.
  • Линии: каждый аминокислотный остаток представлен тонкими линиями, что обеспечивает низкую стоимость графического рендеринга.
  • Поверхность: в этой визуализации показана внешняя форма молекулы.
  • Палки: каждая ковалентная связь между атомами аминокислот представлена ​​в виде палочки. Этот тип визуализации чаще всего используется для визуализации взаимодействий между аминокислотами. ..

Структура ДНК

Классическая структура дуплексов ДНК была первоначально описана Уотсоном и Криком (и вкладами Розалинды Франклин ). Молекула ДНК состоит из трех веществ: фосфатной группы, пентозы и азотистого основания ( аденина, тимина, цитозина или гуанина ). Структура двойной спирали ДНК стабилизируется водородными связями, образованными между парами оснований: аденин с тимином (AT) и цитозин с гуанином (CG). Многие исследования в области структурной биоинформатики были сосредоточены на понимании взаимодействия между ДНК и небольшими молекулами, что было целью нескольких исследований по разработке лекарств.

Взаимодействия

Взаимодействия - это контакты, устанавливаемые между частями молекул на разных уровнях. Они отвечают за стабилизацию белковых структур и выполняют широкий спектр функций. В биохимии взаимодействия характеризуются близостью групп атомов или областей молекул, которые оказывают влияние друг на друга, например электростатические силы, водородные связи и гидрофобный эффект. Белки могут выполнять несколько типов взаимодействий, таких как белок-белковые взаимодействия (ИПП), белок-пептидные взаимодействия., белок-лигандные взаимодействия (PLI), и взаимодействие белок-ДНК.

Контакты между двумя аминокислотными остатками: Q196-R200 (PDB ID- 2X1C)

Расчет контактов

Расчет контактов - важная задача в структурной биоинформатике, важная для правильного предсказания структуры и фолдинга белков, термодинамической стабильности, взаимодействий белок-белок и белок-лиганд, анализа стыковки и молекулярной динамики и т. Д.

Традиционно вычислительные методы использовали пороговое расстояние между атомами (также называемое отсечкой) для обнаружения возможных взаимодействий. Это обнаружение выполняется на основе евклидова расстояния и углов между атомами определенных типов. Однако большинство методов, основанных на простом евклидовом расстоянии, не могут обнаружить закрытые контакты. Следовательно, в последние годы все большее распространение получили методы без отсечки, такие как триангуляция Делоне. Кроме того, для улучшения определения контакта использовалась комбинация набора критериев, например физико-химических свойств, расстояния, геометрии и углов.

Критерии расстояния для определения контакта
Тип Критерии максимального расстояния
Водородная связь 3,9 Å
Гидрофобное взаимодействие 5 Å
Ионное взаимодействие 6 Å
Ароматическая укладка 6 Å

Банк данных белков (PDB)

Основная статья: Банк данных белков Количество структур из PDB. (A) Общий рост выпущенных структур в Protein DataBank за год. (B) Рост структур, осажденных в PDB, в результате экспериментов по рентгеновской кристаллографии, ЯМР-спектроскопии и трехмерной электронной микроскопии в год. Источник: https://www.rcsb.org/stats/growth

Белок банка данных (PDB) представляет собой базу данных 3D структуры данных для крупных биологических молекул, таких как белки, ДНК и РНК. PDB управляется международной организацией под названием Worldwide Protein Data Bank ( wwPDB ), которая состоит из нескольких местных организаций, таких как. PDBe, PDBj, RCSB и BMRB. Они несут ответственность за бесплатное хранение копий данных PDB в Интернете. Количество структурных данных, доступных в PDB, увеличивается с каждым годом, как правило, их получают с помощью рентгеновской кристаллографии, ЯМР-спектроскопии или криоэлектронной микроскопии.

Формат данных

Формат PDB (.pdb) - это устаревший текстовый формат файла, используемый для хранения информации о трехмерных структурах макромолекул, используемых в банке данных Protein Data Bank. Из-за ограничений в концепции структуры формата, формат PDB не допускает больших структур, содержащих более 62 цепочек или 99999 записей атомов.

PDBx / mmCIF ( файл макромолекулярной кристаллографической информации) - это стандартный текстовый формат файла для представления кристаллографической информации. С 2014 года формат PDB был заменен в качестве стандартного распространения архива PDB файловым форматом PDBx / mmCIF (.cif). В то время как формат PDB содержит набор записей, идентифицируемых ключевым словом длиной до шести символов, формат PDBx / mmCIF использует структуру на основе ключа и значения, где ключ - это имя, которое идентифицирует некоторую функцию, а значение - это информация о переменной.

Другие структурные базы данных

Помимо банка данных о белках (PDB), существует несколько баз данных структур белков и других макромолекул. Примеры включают:

  • MMDB : экспериментально определенные трехмерные структуры биомолекул, полученные из банка данных белков (PDB).
  • База данных нуклеиновых кислот (NDB): экспериментально определенная информация о нуклеиновых кислотах (ДНК, РНК).
  • Структурная классификация белков (SCOP) : всестороннее описание структурных и эволюционных отношений между структурно известными белками.
  • TOPOFIT-DB: структурное выравнивание белков на основе метода TOPOFIT.
  • Сервер электронной плотности (EDS): карты электронной плотности и статистика соответствия кристаллических структур и их карт.
  • CASP : Центр предсказаний Глобальный всемирный эксперимент по предсказанию структуры белка CASP.
  • Сервер PISCES для создания неизбыточных списков белков: генерирует список PDB по критериям идентичности последовательности и структурного качества.
  • База знаний по структурной биологии: инструменты, помогающие в разработке исследования белков.
  • ProtCID : База данных общих интерфейсов белков аналогичных интерфейсов белок-белок в кристаллических структурах гомологичных белков.

Сравнение структур

Структурное выравнивание

Структурное выравнивание - это метод сравнения трехмерных структур на основе их формы и конформации. Его можно использовать для вывода об эволюционной взаимосвязи между набором белков даже при низком сходстве последовательностей. Структурное выравнивание подразумевает наложение трехмерной структуры на вторую, вращение и перемещение атомов в соответствующих положениях (как правило, с использованием атомов C α или даже тяжелых атомов основной цепи C, N, O и C α). Обычно качество выравнивания оценивается на основе среднеквадратичного отклонения (RMSD) атомных позиций, то есть среднего расстояния между атомами после наложения:

р M S D знак равно 1 N я знак равно 1 N δ я 2 {\ displaystyle \ mathrm {RMSD} = {\ sqrt {{\ frac {1} {N}} \ sum _ {i = 1} ^ {N} \ delta _ {i} ^ {2}}}}

где δ i - расстояние между атомом i и либо эталонным атомом, соответствующим другой структуре, либо средней координатой N эквивалентных атомов. Как правило, результат RMSD измеряется в единицах Ангстрем (Å), что эквивалентно 10 −10 м. Чем ближе к нулю значение RMSD, тем более похожи структуры.

Структурные сигнатуры на основе графиков

Структурные сигнатуры, также называемые отпечатками пальцев, представляют собой модели макромолекул, которые можно использовать для вывода о сходствах и различиях. Сравнение большого набора белков с использованием RMSD все еще является проблемой из-за высокой вычислительной стоимости структурных выравниваний. Структурные сигнатуры, основанные на образцах расстояний в графах между парами атомов, использовались для определения векторов идентификации белков и для обнаружения нетривиальной информации. Кроме того, линейная алгебра и машинное обучение могут использоваться для кластеризации сигнатур белков, обнаружения взаимодействий белок-лиганд, прогнозирования ΔΔG и предложения мутаций на основе евклидова расстояния.

Прогнозирование структуры

График Рамачандрана, полученный из человеческого PCNA ( PDB ID 1AXC). Красная, коричневая и желтая области представляют собой предпочтительные, разрешенные и «щедро разрешенные» области, определенные ProCheck. Этот график можно использовать для проверки неправильно смоделированных аминокислот.

Атомные структуры молекул могут быть получены несколькими методами, такими как рентгеновская кристаллография (XRC), ЯМР-спектроскопия и трехмерная электронная микроскопия ; однако эти процессы могут быть дорогостоящими, а иногда трудно установить некоторые структуры, такие как мембранные белки. Следовательно, необходимы вычислительные подходы для определения трехмерной структуры макромолекул. Методы прогнозирования структуры подразделяются на сравнительное моделирование и моделирование de novo.

Сравнительное моделирование

Сравнительное моделирование, также известное как моделирование гомологии, соответствует методологии построения трехмерных структур из аминокислотной последовательности целевого белка и матрицы с известной структурой. В литературе описано, что эволюционно родственные белки имеют тенденцию представлять консервативную трехмерную структуру. Кроме того, последовательности отдаленно родственных белков с идентичностью ниже 20% могут иметь различные складки.

De novo моделирование

В структурной биоинформатике моделирование de novo, также известное как моделирование ab initio, относится к подходам для получения трехмерных структур из последовательностей без необходимости гомологичной известной трехмерной структуры. Несмотря на новые алгоритмы и методы, предложенные в последние годы, предсказание структуры белка de novo по-прежнему считается одной из нерешенных проблем современной науки.

Проверка структуры

После моделирования структуры необходим дополнительный этап проверки структуры, поскольку многие алгоритмы и инструменты как сравнительного, так и «нового» моделирования используют эвристику для попытки сборки трехмерной структуры, что может привести к множеству ошибок. Некоторые стратегии проверки состоят из расчета энергетических баллов и сравнения их с экспериментально определенными структурами. Например, оценка DOPE - это оценка энергии, используемая инструментом MODELLER для определения лучшей модели.

Другая стратегия проверки - вычисление двугранных углов φ и ψ основной цепи всех остатков и построение графика Рамачандрана. Боковая цепь аминокислот и природа взаимодействий в основной цепи ограничивают эти два угла, и, таким образом, визуализация допустимых конформаций может быть выполнена на основе графика Рамачандрана. Большое количество аминокислот, размещенных в недопустимых положениях диаграммы, свидетельствует о некачественном моделировании.

Инструменты прогнозирования

Список с обычно используемыми программными средствами для предсказания структуры белков, в том числе сравнительного моделирования, белка резьбы, де ново предсказания структуры белка и предсказания вторичной структуры можно найти в списке программного обеспечения предсказания структуры белка.

Молекулярный док

Изображение стыковки лиганда (зеленый) с белком-мишенью (черный).

Молекулярный докинг (также называемый только докингом) - это метод, используемый для прогнозирования координат ориентации молекулы ( лиганда ) при ее связывании с другой (рецептором или мишенью). Связывание может происходить главным образом за счет нековалентных взаимодействий, в то время как ковалентно связанное связывание также может быть изучено. Молекулярный докинг направлен на прогнозирование возможных положений (режимов связывания) лиганда, когда он взаимодействует с конкретными участками рецептора. Инструменты стыковки используют силовые поля для оценки баллов для ранжирования лучших поз, которые способствовали лучшему взаимодействию между двумя молекулами.

Обычно протоколы стыковки используются для прогнозирования взаимодействий между небольшими молекулами и белками. Однако стыковка также может использоваться для обнаружения ассоциаций и способов связывания между белками, пептидами, молекулами ДНК или РНК, углеводами и другими макромолекулами.

Виртуальный просмотр

Виртуальный скрининг (VS) - это вычислительный подход, используемый для быстрого скрининга больших библиотек соединений для открытия лекарств. Обычно виртуальный скрининг использует алгоритмы стыковки для ранжирования небольших молекул с наибольшим сродством к целевому рецептору.

В последнее время было использовано несколько инструментов для оценки использования виртуального скрининга в процессе открытия новых лекарств. Однако такие проблемы, как отсутствие информации, неточное понимание свойств молекул, подобных лекарству, слабые функции оценки или недостаточные стратегии стыковки, препятствуют процессу стыковки. Следовательно, в литературе описано, что это все еще не считается зрелой технологией.

Молекулярная динамика

Пример: молекулярная динамика толерантной к глюкозе β-глюкозидазы

Молекулярная динамика (МД) - это вычислительный метод моделирования взаимодействий между молекулами и их атомами в течение заданного периода времени. Этот метод позволяет наблюдать за поведением молекул и их взаимодействиями, рассматривая систему в целом. Чтобы вычислить поведение систем и, таким образом, определить траектории, МД может использовать уравнение движения Ньютона в дополнение к использованию методов молекулярной механики для оценки сил, возникающих между частицами ( силовые поля ).

Приложения

Подходы информатики, используемые в структурной биоинформатике:

  • Выбор цели - потенциальные цели идентифицируются путем сравнения их с базами данных известных структур и последовательностей. Важность цели может быть определена на основе опубликованной литературы. Мишень также может быть выбрана на основе ее белкового домена. Белковый домен - это строительные блоки, которые можно перестраивать для образования новых белков. Первоначально их можно изучать изолированно.
  • Отслеживание испытаний рентгеновской кристаллографии - рентгеновская кристаллография может использоваться для выявления трехмерной структуры белка. Но для того, чтобы использовать рентгеновские лучи для изучения кристаллов протеина, необходимо сформировать чистые кристаллы протеина, что может потребовать множества испытаний. Это приводит к необходимости отслеживать условия и результаты испытаний. Кроме того, контролируемые алгоритмы машинного обучения могут использоваться с сохраненными данными для определения условий, которые могут увеличить выход чистых кристаллов.
  • Анализ кристаллографических данных рентгеновского излучения. Дифракционная картина, полученная в результате бомбардировки электронами рентгеновскими лучами, представляет собой преобразование Фурье распределения электронной плотности. Существует потребность в алгоритмах, которые могут деконволютировать преобразование Фурье с частичной информацией (из-за отсутствия информации о фазе, поскольку детекторы могут измерять только амплитуду дифрагированных рентгеновских лучей, а не фазовые сдвиги). Технику экстраполяции, такую ​​как многоволновая аномальная дисперсия, можно использовать для создания карты электронной плотности, которая использует расположение атомов селена в качестве ориентира для определения остальной структуры. Стандартная модель Ball-and-Stick генерируется из карты электронной плотности.
  • Анализ данных спектроскопии ЯМР. Эксперименты по спектроскопии ядерного магнитного резонанса позволяют получить данные двух (или более высоких) измерений, причем каждый пик соответствует химической группе в образце. Методы оптимизации используются для преобразования спектров в трехмерные структуры.
  • Сопоставление структурной информации с функциональной информацией - Структурные исследования могут использоваться в качестве зонда для структурно-функциональной взаимосвязи.

Инструменты

Список инструментов структурной биоинформатики
Программное обеспечение Описание
И-ТАССЕР Прогнозирование трехмерной модели структуры белковых молекул по аминокислотным последовательностям.
МЧС Molecular Operating Environment (MOE) - это обширная платформа, включающая структурное моделирование белков, семейств белков и антител.
SBL Библиотека структурной биоинформатики: приложения для конечных пользователей и передовые алгоритмы
BALLView Молекулярное моделирование и визуализация
STING Визуализация и анализ
PyMOL Просмотр и моделирование
VMD Зритель, молекулярная динамика
Король С открытым исходным кодом Java kinemage зритель
STRIDE Определение вторичной структуры по координатам
MolProbity Веб-сервер проверки структуры
ПРОЧЕК Веб-сервис проверки структуры
CheShift Онлайн-приложение для проверки структуры белка
3D-mol.js Молекулярная программа просмотра веб-приложений, разработанных с использованием Javascript.
ПРОПКА Быстрое предсказание значений pKa белка на основе эмпирических соотношений структура / функция
КАРА Назначение компьютерного резонанса
Док-сервер Веб-сервер молекулярной стыковки
StarBiochem Программа просмотра белков на языке Java с функцией прямого поиска в базе данных белков.
ЛОПАТА Среда разработки приложений структурной протеомики
PocketSuite Веб-портал для различных веб-серверов для привязки анализа на уровне сайта. PocketSuite делится на:: PocketDepth (Предсказание сайта привязки)

PocketMatch (сравнение сайтов связывания), PocketAlign (выравнивание сайтов связывания) и PocketAnnotate (аннотация сайтов связывания).

MSL Библиотека программного обеспечения для молекулярного моделирования C ++ с открытым исходным кодом для реализации методов структурного анализа, прогнозирования и проектирования.
PSSpred Прогноз вторичной структуры белка
Протей Webtool для предложения пар мутаций
SDM Сервер для прогнозирования влияния мутаций на стабильность белков.

Смотрите также

использованная литература

дальнейшее чтение

Последняя правка сделана 2024-01-11 03:49:00
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте