Файл таблицы химических веществ

редактировать

Файл таблицы химических веществ (файл CT) - это семейство текстовых форматов файлов химических веществ описывающие молекулы и химические реакции. Один формат, например, перечисляет каждый атом в молекуле, координаты x-y-z этого атома и связи между атомами.

Содержание
  • 1 Форматы файлов
    • 1.1 Molfile
      • 1.1.1 Строка подсчета
    • 1.2 Расширенная таблица соединений (V3000)
      • 1.2.1 Строка подсчета
    • 1.3 SDF
    • 1.4 Другие форматы семейства
  • 2 См. Также
  • 3 Ссылки
  • 4 Внешние ссылки
Форматы файлов

В семействе существует несколько форматов файлов.

Форматы были созданы MDL Information Systems (MDL), которая была приобретена Symyx Technologies, затем слита с Accelrys Corp., и теперь называется BIOVIA, дочерняя компания Dassault Systemes из Dassault Group

Файл CT является открытым форматом, BIOVIA публикует его спецификацию.

Molfile

ctab
Расширение имени файла .mol ​​
Тип интернет-носителя химический / x-mdl-molfile
Тип форматахимический формат файла

MDL Molfile - это файл формат для хранения информации об атомах, связях, связях и координатах молекулы.

Molfile состоит из некоторой информации заголовка, таблицы соединений (CT), содержащей информацию об атомах, затем соединений и типов связей, за которыми следуют разделы для более сложной информации.

Molfile достаточно распространен, чтобы большинство, если не все, программные системы / приложения химинформатики могли читать формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторым вычислительным программным обеспечением, таким как Mathematica.

Текущая стандартная версия де-факто - molfile V2000; хотя в последнее время формат V3000 получил достаточно широкое распространение, чтобы создать потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.

Содержимое Molfile of L-Alanine
L-Alanine
Строка заголовка (может быть пустым, но строка должна существовать)Блок заголовка

(3 строки)

ACD / Labs09071717443D
Строка отметки времени программы / файла

(Имя исходной программы и отметка времени файла)

Экспортировано из ACD / Labs
Строка комментария (может быть пустым но линия должна существовать)
6 5 0 0 1 0 3 V2000
Линия подсчетаТаблица соединений
-0,6622 0,5342 0,0000 C 0 0 2 0 0 0 0,6622 -0,3000 0,0000 C 0 0 0 0 0 0 -0,7207 2,0817 0,0000 C 1 0 0 0 0 0 -1,8622 -0,3695 0,0000 N 0 3 0 0 0 0 0,6220 -1,8037 0,0000 O 0 0 0 0 0 0 1,9464 0,4244 0,0000 O 0 5 0 0 0 0
Атомный блок

(1 строка для каждого атома): x, y, z (в ангстрем ), элемент и т. Д.

1 2 1 0 0 0 1 3 1 1 0 0 1 4 1 0 0 0 2 5 2 0 0 0 2 6 1 0 0 0
Блок связи

(1 строка для каждой связи): 1-й атом, 2-й атом, тип и т. Д.

M CHG 2 4 1 6 -1 M ISO 1 3 13
Блок свойств
M END
END line

(ПРИМЕЧАНИЕ: некоторым программам не нравится пустая строка перед ore M END)

END

Строка подсчета

Исходная строка подсчета имеет следующую спецификацию.

Значение660001V2000
Описаниеколичество атомовколичество связейколичество атомов в спискеХиральный флаг, 1 = хиральный;

0 = нехиральный

количество записей стекстовколичество строк

дополнительных свойств

версия мол
Тип[Generic][Generic][Query][Generic][ISIS / Desktop][Generic]

Расширенное соединение Таблица (V3000)

Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует единственное molfile-приложение, которое содержит тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный молфил.

Обратите внимание, что «без структуры» помечается меткой «V3000» вместо метки версии «V2000». Помимо версии, в заголовок внесены еще два изменения:

  • Количество строк приложения всегда записывается как 999, независимо от того, сколько их на самом деле. (Все текущие считыватели проигнорируют счет и остановятся на M END.)
  • «Размерный код» поддерживается более явно. Таким образом, «3D» действительно означает 3D, хотя «2D» будет интерпретироваться как 3D, если будут найдены любые ненулевые Z-координаты.

В отличие от V2000 molfile, расширенный Rgroup molfile V3000 имеет тот же формат заголовка, что и не- Rgroup molfile.

L-аланин для mol.jpg
L-аланин
ОписаниеБлок заголовка
GSMACCS-II07189510252D 1 0,00366 0,00000 0
Заголовок с отметкой времени
Рисунок 1, J. Chem. Инф. Comput. Sci., Vol 32, No. 3., 1992
Строка комментария
0 0 0 0 0 999 V3000
Строка совместимости с V2000
M V30 BEGIN CTAB
Таблица соединений
M V30 COUNTS 6 5 0 0 1
Строка счета
M V30 BEGIN ATOM M V30 1 C -0,6622 0,5342 0 0 CFG = 2 M V30 2 C 0,6622 -0,3 0 0 M V30 3 C -0,7207 2,0817 0 0 МАССА = 13 M V30 4 N -1,8622 -0,3695 0 0 CHG = 1 M V30 5 O 0,622 -1,8037 0 0 M V30 6 O 1,9464 0,4244 0 0 CHG = -1 M V30 END ATOM
Блок атомов
M V30 BEGIN BOND M V30 1 1 1 2 M V30 2 1 1 3 CFG = 1 M V30 3 1 1 4 M V30 4 2 2 5 M V30 5 1 2 6 M V30 END BOND
Связующий блок
M V30 END CTAB M END

Строка подсчета

Строка подсчета обязательна и должна быть первой. Он определяет количество атомов, связей, 3D-объектов и S-групп. Он также указывает, установлен ли флаг CHIRAL. По желанию, в строке подсчета можно указать молрегно. Это используется только тогда, когда regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки счетчиков:

M V30 COUNTS na nb nsg n3d chiral
M V30 COUNTSnanbnsgn3dхиральный[REGNO = regno]
M V30 COUNTS65001
количество атомовколичество связейколичество Sгруппколичество 3D ограничивает, если 1 = молекула хиральнаямолекула или модель regno

SDF

ctab
расширение имени файла .sd,.sdf
Тип Интернет-носителя химический / x-mdl-sdfile
Тип форматахимический формат файла

SDF - один из семейства форматов файлов с химическими данными, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает файл структурных данных, а файлы SDF фактически обертывают формат molfile (MDL Molfile). Составные части разделяются строками, состоящими из четырех знаков доллара ($$$$). Особенностью формата SDF является его способность включать связанные данные.

Связанные элементы данных обозначаются следующим образом:

>XCA3464366>5.825>Sigma>499.611

Также поддерживаются многострочные элементы данных. Спецификация MDL SDF-формата требует, чтобы был вставлен символ жесткого возврата каретки, если длина одной строки любого текстового поля превышает 200 символов. Это требование часто нарушается на практике, поскольку многие строки SMILES и InChI превышают эту длину.

Другие форматы семейства

Существуют и другие, менее часто используемые форматы семейства:

  • RXNFile - для представления одной химической реакции;
  • RDFile - для представления списка записей со связанными данными. Каждая запись может содержать химические структуры, реакции, текстовые и табличные данные;
  • RGFile - для представления структур Маркуша (не рекомендуется, Molfile V3000 может представлять структуры Маркуша);
  • XDFile - для представления химической информации в формате XML.
См. также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-14 09:32:55
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте