Химическая база данных

редактировать

A Химическая база данных - это база данных, специально разработанная для хранения химической информации. Это информация о химических и кристаллических структурах, спектрах, реакциях и синтезах, а также теплофизических данных.

Содержание

1 Типы химических баз данных
- 1.1 База данных по биоактивности
- 1.2 Химические структуры
- 1.3 Литературные базы данных
- 1.4 Кристаллографические базы данных
- 1.5 База данных спектров ЯМР
- 1.6 База данных реакций
- 1.7 Теплофизическая база данных
2 Представление химической структуры
3 Поиск
- 3.1 Субструктура
- 3.2 Конформация
- 3.3 Giga Search
4 Дескриптора
5 Сходство
6 Регистрационные системы
7 Список систем регистрации химикатов
8 На базе Интернета
9 Инструменты
10 См. Также
11 Ссылки

Типы химических баз данных

Базы данных по биоактивности коррелируют структуры или другую химическую информацию с результаты биоактивности взяты из биоанализов из литературы, патентов и программ скрининга.
Имя Разработчик (и) Первоначальный выпуск
2016
PubChem-BioAssay NIH 2004
ChEMBL EMBL-EBI 2009

Имя	Разработчик (и)	Первоначальный выпуск
		2016
PubChem-BioAssay	NIH	2004
ChEMBL	EMBL-EBI	2009

Химические структуры

Химические структуры традиционно представлены линиями, обозначающими химические связи между атомами и нанесенными на бумагу (2D структурные формулы ). Хотя это идеальные визуальные представления для химика, они не подходят для вычислительного использования, особенно для поиска и хранилища. Небольшие молекулы (также называемые лигандами в приложениях для разработки лекарств) обычно представлены с помощью списков атомов и их соединений. Однако большие молекулы, такие как белки, более компактно представлены с использованием последовательностей их аминокислотных строительных блоков. Ожидается, что большие химические базы данных для структур будут обрабатывать хранение и поиск информации о миллионах молекул, занимающих терабайт физической памяти...

База данных литературы

Базы данных химической литературы соотнесите структуры или другую химическую информацию с соответствующими ссылками, такими как научные статьи или патенты. Этот тип базы данных включает STN, Scifinder и Reaxys. Ссылки на литературу также включены во многие базы данных, посвященные химическим характеристикам.

Кристаллографическая база данных

Кристаллографическая база данных хранит данные рентгеновской кристаллической структуры. Общие примеры включают банк данных по белкам и Кембриджскую структурную базу данных.

База данных спектров ЯМР

базы данных спектров ЯМР коррелируют химическую структуру с данными ЯМР. Эти базы данных часто включают другие характеристические данные, такие как FTIR и масс-спектрометрия.

База данных реакций

Большинство химических баз данных хранят информацию о стабильных молекулах, но в базах данных. для реакций также сохраняются промежуточные соединения и временно созданные нестабильные молекулы. Базы данных реакций содержат информацию о продуктах, исходных продуктах и механизмах реакции.

Теплофизическая база данных

Теплофизические данные - это информация о

фазовых равновесиях, включая равновесие пар-жидкость, растворимость газов в жидкостях, жидкостей в твердых телах (SLE), теплоты смешения, испарение и плавление.
калорийность, например теплоемкость, теплота образования и горение,
транспортные свойства, такие как вязкость и теплопроводность

Представление химической структуры

Есть два основные методы представления химических структур в цифровых базах данных

в виде таблиц соединений / матриц смежности / списков с дополнительной информацией о связях (ребра) и атрибутах атомов (узлы), например:
MDL Molfile, PDB, CML
В виде линейной строковой нотации на основе сначала глубина или обход ширины, например:
УЛЫБКИ / СМАРТ, SL N, WLN, InChI

Эти подходы были усовершенствованы, чтобы обеспечить представление стереохимических различий и зарядов, а также особых видов связи, таких как те, что мы видели в металлоорганических соединениях. Основным преимуществом компьютерного представления является возможность увеличения объема памяти и быстрого и гибкого поиска.

Поиск

Подструктура

Химики могут искать в базах данных по частям структур, частям их имен IUPAC, а также на основе ограничений свойств. Химические базы данных особенно отличаются от других баз данных общего назначения тем, что они поддерживают поиск по субструктуре. Этот вид поиска достигается путем поиска изоморфизма подграфов (иногда также называемого мономорфизмом ) и является широко изучаемым приложением теории графов. Алгоритмы поиска требуют больших вычислительных ресурсов, часто с временной сложностью O (n) или O (n) (где n - количество задействованных атомов). Интенсивный компонент поиска называется поиском по атомам (ABAS), при котором ищется отображение атомов субструктуры поиска и связей с целевой молекулой. Поиск ABAS обычно использует алгоритм Ульмана или его разновидности (например, SMSD ). Ускорение достигается за счет того, что часть времени на поисковые задачи сохраняется за счет использования предварительно вычисленной информации. Это предварительное вычисление обычно включает создание цепочек битов, представляющих наличие или отсутствие молекулярных фрагментов. Посмотрев на фрагменты, присутствующие в структуре поиска, можно исключить необходимость сравнения ABAS с целевыми молекулами, которые не обладают фрагментами, присутствующими в структуре поиска. Это исключение называется скринингом (не путать с процедурами скрининга, используемыми при открытии лекарств). Битовые строки, используемые для этих приложений, также называются структурными ключами. Производительность таких ключей зависит от выбора фрагментов, используемых для построения ключей, и вероятности их присутствия в молекулах базы данных. Другой вид ключа использует хэш-коды на основе фрагментов, полученных с помощью вычислений. Их называют «отпечатками пальцев», хотя этот термин иногда используется как синоним структурных ключей. Объем памяти, необходимый для хранения этих структурных ключей и отпечатков пальцев, может быть уменьшен за счет «складывания», что достигается путем объединения частей ключа с помощью побитовых операций и, таким образом, уменьшения общей длины.

Конформация

Поиск по соответствию трехмерной конформации молекул или заданию пространственных ограничений - еще одна функция, которая особенно полезна в дизайне лекарств. Поиск такого рода может быть очень затратным в вычислительном отношении. Было предложено много приближенных методов, например BCUTS, представления специальных функций, моменты инерции, гистограммы трассировки лучей, гистограммы максимального расстояния, мультипольные формы и многие другие.

Giga Search

Databases синтезируемых и виртуальных химикатов с каждым годом становится все больше, поэтому способность эффективно их добывать имеет решающее значение для проектов по открытию лекарств. MolCart Giga Search от MolSoft (http://www.molsoft.com/giga-search.html ) - это первый в истории метод, предназначенный для поиска субструктур в миллиардах химических веществ.

Дескрипторы

Все свойства молекул за пределами их структуры могут быть разделены на физико-химические или фармакологические атрибуты, также называемые дескрипторами. Вдобавок к этому существуют различные искусственные и более или менее стандартизированные системы именования молекул, которые дают более или менее двусмысленные имена и синонимы. Имя ИЮПАК обычно является хорошим выбором для представления структуры молекулы в виде как удобочитаемой, так и уникальной строки, хотя оно становится громоздким для более крупных молекул. Тривиальные имена, с другой стороны, изобилуют омонимами и синонимами и поэтому являются плохим выбором в качестве определяющего ключа базы данных. Хотя физико-химические дескрипторы, такие как молекулярная масса, (частичный ) заряд, растворимость и т. Д., В большинстве случаев могут быть вычислены непосредственно на основе структуры молекулы, фармакологические дескрипторы могут могут быть получены только косвенно с использованием многомерной статистики или экспериментальных (скрининг, биоанализ ) результатов. Все эти дескрипторы могут по причинам вычислительных затрат храниться вместе с представлением молекулы, что обычно и хранится.

Сходство

Не существует единого определения молекулярного сходства, однако концепция может быть определена в соответствии с применением и часто описывается как обратное мера расстояния в пространстве дескриптора. Две молекулы можно считать более похожими, например, если их разница в молекулярных массах меньше, чем по сравнению с другими. Множество других мер можно комбинировать для получения многомерной меры расстояния. Меры расстояния часто подразделяются на евклидовы меры и неевклидовы меры в зависимости от того, выполняется ли неравенство треугольника. Поиск субструктуры на основе максимального общего подграфа (MCS ) (мера сходства или расстояния) также очень распространен. MCS также используется для скрининга соединений, подобных лекарствам, путем попадания в молекулы, которые имеют общий подграф (подструктуру).

Химические вещества в базах данных могут быть сгруппированы в группы «похожих» молекул на основе сходства. И иерархический, и неиерархический подходы кластеризации могут применяться к химическим объектам с множеством атрибутов. Эти атрибуты или молекулярные свойства могут быть определены либо эмпирически, либо вычисленными дескрипторами . Один из наиболее популярных подходов к кластеризации - это.

В фармакологически ориентированных химических репозиториях сходство обычно определяется в терминах биологических эффектов соединений (ADME / tox), которые, в свою очередь, могут быть полуавтоматически выведены из аналогичных комбинаций физико-химических дескрипторов с использованием методов QSAR.

Системы регистрации

Системы баз данных для ведения уникальных записей о химических соединениях называются системами регистрации. Они часто используются для химической индексации, патентных систем и промышленных баз данных.

Регистрационные системы обычно обеспечивают уникальность химического вещества, представленного в базе данных, с помощью уникальных представлений. Применяя правила приоритета для генерации строковых нотаций, можно получить уникальные / 'канонические ' строковые представления, такие как 'канонические УЛЫБКИ '. Некоторые системы регистрации, такие как система CAS, используют алгоритмы для генерации уникальных хэш-кодов для достижения той же цели.

Ключевое различие между системой регистрации и простой химической базой данных заключается в способности точно представлять то, что известно, неизвестно и частично известно. Например, химическая база данных может хранить молекулу с стереохимией неопределенной, тогда как система химического реестра требует, чтобы регистратор указывал, является ли стереоконфигурация неизвестной, конкретной (известной) смесью или рацемической. Каждый из них будет считаться отдельной записью в системе химического реестра.

Системы регистрации также предварительно обрабатывают молекулы, чтобы не учитывать тривиальные различия, такие как различия в ионах галогена в химических веществах.

Примером может служить система регистрации Chemical Abstracts Service (CAS). См. Также регистрационный номер CAS.

Список систем регистрации химикатов

Веб-сайт

Имя	Разработчик (и)	Первоначальный выпуск
	Collaborative Drug Discovery	2018

Инструменты

Вычислительные представления обычно становятся прозрачными для химиков за счет графического отображения данных. Ввод данных также упрощается за счет использования редакторов химической структуры. Эти редакторы внутренне преобразуют графические данные в вычислительные представления.

Также существует множество алгоритмов взаимного преобразования различных форматов представления. Утилита с открытым исходным кодом для преобразования - OpenBabel. Эти алгоритмы поиска и преобразования реализуются либо в самой системе баз данных, либо, как сейчас наблюдается тенденция, реализованы в виде внешних компонентов, которые вписываются в стандартные системы реляционных баз данных. И Oracle, и системы на основе PostgreSQL используют технологию картриджей, которая допускает определенные пользователем типы данных. Они позволяют пользователю выполнять SQL запросы с химическими условиями поиска (например, запрос для поиска записей, содержащих фенильное кольцо в своей структуре, представленной в виде строки SMILES в столбце SMILESCOL, может быть

SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS ('c1ccccc1')

Алгоритмы преобразования имен IUPAC в представления структуры и наоборот также используются для извлечения структурной информации из текста. Однако возникают трудности из-за существования нескольких диалектов ИЮПАК. Ведется работа по созданию уникального стандарта ИЮПАК (см. InChI ).

См. Также

Ссылки