Файл таблицы химических веществ (файл CT) - это семейство текстовых форматов файлов химических веществ описывающие молекулы и химические реакции. Один формат, например, перечисляет каждый атом в молекуле, координаты x-y-z этого атома и связи между атомами.
В семействе существует несколько форматов файлов.
Форматы были созданы MDL Information Systems (MDL), которая была приобретена Symyx Technologies, затем слита с Accelrys Corp., и теперь называется BIOVIA, дочерняя компания Dassault Systemes из Dassault Group
Файл CT является открытым форматом, BIOVIA публикует его спецификацию.
Расширение имени файла | .mol |
---|---|
Тип интернет-носителя | химический / x-mdl-molfile |
Тип формата | химический формат файла |
MDL Molfile - это файл формат для хранения информации об атомах, связях, связях и координатах молекулы.
Molfile состоит из некоторой информации заголовка, таблицы соединений (CT), содержащей информацию об атомах, затем соединений и типов связей, за которыми следуют разделы для более сложной информации.
Molfile достаточно распространен, чтобы большинство, если не все, программные системы / приложения химинформатики могли читать формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторым вычислительным программным обеспечением, таким как Mathematica.
Текущая стандартная версия де-факто - molfile V2000; хотя в последнее время формат V3000 получил достаточно широкое распространение, чтобы создать потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.
L-Alanine | Строка заголовка (может быть пустым, но строка должна существовать) | Блок заголовка (3 строки) |
---|---|---|
ACD / Labs09071717443D | Строка отметки времени программы / файла (Имя исходной программы и отметка времени файла) | |
Экспортировано из ACD / Labs | Строка комментария (может быть пустым но линия должна существовать) | |
6 5 0 0 1 0 3 V2000 | Линия подсчета | Таблица соединений |
-0,6622 0,5342 0,0000 C 0 0 2 0 0 0 0,6622 -0,3000 0,0000 C 0 0 0 0 0 0 -0,7207 2,0817 0,0000 C 1 0 0 0 0 0 -1,8622 -0,3695 0,0000 N 0 3 0 0 0 0 0,6220 -1,8037 0,0000 O 0 0 0 0 0 0 1,9464 0,4244 0,0000 O 0 5 0 0 0 0 | Атомный блок (1 строка для каждого атома): x, y, z (в ангстрем ), элемент и т. Д. | |
1 2 1 0 0 0 1 3 1 1 0 0 1 4 1 0 0 0 2 5 2 0 0 0 2 6 1 0 0 0 | Блок связи (1 строка для каждой связи): 1-й атом, 2-й атом, тип и т. Д. | |
M CHG 2 4 1 6 -1 M ISO 1 3 13 | Блок свойств | |
M END | END line (ПРИМЕЧАНИЕ: некоторым программам не нравится пустая строка перед ore M END) | END |
Исходная строка подсчета имеет следующую спецификацию.
Значение | 6 | 6 | 0 | 0 | 0 | 1 | V2000 |
---|---|---|---|---|---|---|---|
Описание | количество атомов | количество связей | количество атомов в списке | Хиральный флаг, 1 = хиральный; 0 = нехиральный | количество записей стекстов | количество строк дополнительных свойств | версия мол |
Тип | [Generic] | [Generic] | [Query] | [Generic] | [ISIS / Desktop] | [Generic] |
Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует единственное molfile-приложение, которое содержит тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный молфил.
Обратите внимание, что «без структуры» помечается меткой «V3000» вместо метки версии «V2000». Помимо версии, в заголовок внесены еще два изменения:
В отличие от V2000 molfile, расширенный Rgroup molfile V3000 имеет тот же формат заголовка, что и не- Rgroup molfile.
L-аланин | Описание | Блок заголовка |
---|---|---|
GSMACCS-II07189510252D 1 0,00366 0,00000 0 | Заголовок с отметкой времени | |
Рисунок 1, J. Chem. Инф. Comput. Sci., Vol 32, No. 3., 1992 | Строка комментария | |
0 0 0 0 0 999 V3000 | Строка совместимости с V2000 | |
M V30 BEGIN CTAB | Таблица соединений | |
M V30 COUNTS 6 5 0 0 1 | Строка счета | |
M V30 BEGIN ATOM M V30 1 C -0,6622 0,5342 0 0 CFG = 2 M V30 2 C 0,6622 -0,3 0 0 M V30 3 C -0,7207 2,0817 0 0 МАССА = 13 M V30 4 N -1,8622 -0,3695 0 0 CHG = 1 M V30 5 O 0,622 -1,8037 0 0 M V30 6 O 1,9464 0,4244 0 0 CHG = -1 M V30 END ATOM | Блок атомов | |
M V30 BEGIN BOND M V30 1 1 1 2 M V30 2 1 1 3 CFG = 1 M V30 3 1 1 4 M V30 4 2 2 5 M V30 5 1 2 6 M V30 END BOND | Связующий блок | |
M V30 END CTAB M END |
Строка подсчета обязательна и должна быть первой. Он определяет количество атомов, связей, 3D-объектов и S-групп. Он также указывает, установлен ли флаг CHIRAL. По желанию, в строке подсчета можно указать молрегно. Это используется только тогда, когда regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки счетчиков:
M V30 COUNTS | na | nb | nsg | n3d | хиральный | [REGNO = regno] |
M V30 COUNTS | 6 | 5 | 0 | 0 | 1 | |
количество атомов | количество связей | количество Sгрупп | количество 3D ограничивает | , если 1 = молекула хиральная | молекула или модель regno |
расширение имени файла | .sd,.sdf |
---|---|
Тип Интернет-носителя | химический / x-mdl-sdfile |
Тип формата | химический формат файла |
SDF - один из семейства форматов файлов с химическими данными, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает файл структурных данных, а файлы SDF фактически обертывают формат molfile (MDL Molfile). Составные части разделяются строками, состоящими из четырех знаков доллара ($$$$). Особенностью формата SDF является его способность включать связанные данные.
Связанные элементы данных обозначаются следующим образом:
>XCA3464366> 5.825> Sigma> 499.611
Также поддерживаются многострочные элементы данных. Спецификация MDL SDF-формата требует, чтобы был вставлен символ жесткого возврата каретки, если длина одной строки любого текстового поля превышает 200 символов. Это требование часто нарушается на практике, поскольку многие строки SMILES и InChI превышают эту длину.
Существуют и другие, менее часто используемые форматы семейства: