Разработчик (и) | InChI Trust |
---|---|
Первоначальный выпуск | 15 апреля 2005 г. (2005-04-15) |
Стабильный выпуск | 1.05 / март 2017 г.; 3 года назад (2017-03) |
Операционная система | Microsoft Windows и Unix-подобная |
Платформа | IA-32 и x86-64 |
Размер | 4.3 MB |
Доступно на | английском языке |
Лицензия | IUPAC / InChI Trust License |
Веб-сайт | https://www.inchi-trust.org/ |
IUPAC Международный химический идентификатор (InChI или ) - текстовый идентификатор для химических веществ, разработанный для предоставления стандартного способа кодирования молекулярной информации и облегчения поиска такой информации. в базах данных и в сети. Формат и алгоритмы, изначально разработанные IUPAC (Международный союз чистой и прикладной химии) и NIST (Национальный институт стандартов и технологий) с 2000 по 2005 год, не являются собственностью компании.
Постоянное развитие стандарта поддерживается с 2010 г. некоммерческой организацией InChI Trust, членом которой является IUPAC. Текущая версия программного обеспечения - 1.05, выпущенная в январе 2017 года.
До 1.04 программное обеспечение было свободно доступно по лицензии open-source LGPL, но оно теперь использует специальную лицензию под названием IUPAC-InChI Trust License.
Идентификаторы описывают химические вещества в виде слоев информации - атомы и их связи связи, таутомерная информация, изотопная информация, стереохимия и информация о заряде электронов. Не все слои должны быть предоставлены; например, слой таутомера может быть опущен, если этот тип информации не имеет отношения к конкретному приложению.
InChI отличаются от широко используемых регистрационных номеров CAS в трех отношениях: во-первых, они свободно используются и не являются собственностью; во-вторых, они могут быть вычислены на основе структурной информации и не должны назначаться какой-либо организацией; и в-третьих, большая часть информации в InChI доступна для чтения человеком (с практикой).
InChI, таким образом, можно рассматривать как сродни общей и чрезвычайно формализованной версии названий IUPAC. Они могут выражать больше информации, чем более простая нотация SMILES, и отличаются тем, что каждая структура имеет уникальную строку InChI, что важно для приложений баз данных. Информация о 3-х мерных координатах атомов в InChI не представлена; для этой цели можно использовать такой формат, как PDB.
Алгоритм InChI преобразует входную структурную информацию в уникальный идентификатор InChI в трехэтапном процессе: нормализация (для удаления избыточной информации), канонизация (для создания уникальной числовой метки для каждого атома) и сериализация (для дать строку символов).
InChIKey, иногда называемый хешированным InChI, представляет собой сжатое цифровое представление InChI фиксированной длины (27 символов), которое не доступно для понимания человеком. Спецификация InChIKey была выпущена в сентябре 2007 года для облегчения поиска в Интернете химических соединений, поскольку это было проблематично с полноразмерным InChI. В отличие от InChI, InChIKey не уникален: хотя коллизии можно рассчитать как очень редкие, они случаются.
В январе 2009 года была выпущена последняя версия 1.02 программного обеспечения InChI. Это предоставило средства для генерации так называемого стандартного InChI, который не позволяет пользователю выбирать параметры при работе со стереохимией и таутомерными слоями строки InChI. Стандартный InChIKey является хешированной версией стандартной строки InChI. Стандартный InChI упростит сравнение строк и ключей InChI, сгенерированных различными группами и впоследствии доступных через различные источники, такие как базы данных и веб-ресурсы.
Тип Интернет-носителя | химический / x-inchi |
---|---|
Тип формата | химический формат файла |
Каждый InChI начинается со строки " InChI = ", за которым следует номер версии, в настоящее время 1. За ним следует буква S для стандартных InChI, которые представляют собой полностью стандартизованный вариант InChI, сохраняющий тот же уровень внимания к деталям структуры и те же соглашения для восприятие рисунка. Оставшаяся информация структурирована как последовательность уровней и подуровней, каждый из которых предоставляет один определенный тип информации. Слои и подслои разделяются разделителем «/» и начинаются с характерной буквы префикса (за исключением подслоя химической формулы основного слоя). Шесть слоев с важными подслоями:
Формат разделителя-префикса имеет то преимущество, что пользователь может легко использовать поиск с подстановочными знаками для поиска идентификаторов, которые совпадают только в определенных слоях.
Структурная формула | стандартный InChI |
---|---|
InChI = 1S / C2H6O / c1-2-3 / h3H, 2H2,1H3 | |
![]() | InChI = 1S / C6H8O6 / c7-1-2 (8) 5-3 (9) 4 (10) 6 (11) 12-5 / h2,5,7-8,10-11H, 1H2 / t2-, 5 + / m0 / s1 |
Сжатый 27-символьный InChIKey представляет собой хешированную версию полного InChI (с использованием SHA-256 алгоритм), предназначенный для упрощения поиска химических соединений в Интернете. Стандартный InChIKey является хешированным аналогом стандартного InChI . Большинство химических структур в Интернете до 2007 года были представлены в виде файлов GIF, в которых невозможно было найти химическое содержание. Полный InChI оказался слишком длинным для удобного поиска, поэтому был разработан InChIKey. Существует очень малая, но отличная от нуля вероятность того, что две разные молекулы имеют один и тот же InChIKey, но вероятность дублирования только первых 14 символов оценивается как только одно дублирование в 75 базах данных, каждая из которых содержит один миллиард уникальных структур. Поскольку все базы данных в настоящее время имеют менее 50 миллионов структур, такое дублирование в настоящее время представляется маловероятным. Недавнее исследование более подробно изучает частоту столкновений, обнаруживая, что экспериментальная частота столкновений соответствует теоретическим ожиданиям.
InChIKey состоит из трех частей, разделенных дефисом, из 14, 10 и одного символа (ов) соответственно, например XXXXXXXXXXXXXX-YYYYYYYYYY-Z
. Первые 14 символов являются результатом хэша информации о подключении InChI. Вторая часть состоит из 8 символов, являющихся результатом хеширования оставшихся слоев InChI, одного символа, указывающего тип InChIKey, и одного символа, указывающего версию используемого InChI. Наконец, один символ указывает протонирование.
Морфин имеет структуру, показанную справа. Стандартный InChI для морфина: InChI = 1S / C17H19NO3 / c1-18-7-6-17-10-3-5-13 (20) 16 (17) 21-15-12 (19) 4-2 -9 (14 (15) 17) 8-11 (10) 18 / h2-5,10-11,13,16,19-20H, 6-8H2,1H3 / t10-, 11 +, 13-, 16-, 17- / m0 / s1
и стандартным InChIKey для морфина является BQJCRHHNABKAKU-KBQPJGBKSA-N
.
Поскольку InChI не может быть реконструирован из InChIKey, InChIKey всегда требуется быть связанными с исходным InChI, чтобы вернуться к исходной структуре. InChI Resolvers действуют как служба поиска для создания этих ссылок, а прототипы услуг доступны в Национальном институте рака, службе UniChem в Европейском институте биоинформатики и PubChem. ChemSpider имел резолвер до июля 2015 года, когда он был выведен из эксплуатации.
Формат первоначально назывался IChI (химический идентификатор ИЮПАК), а затем переименован в июле 2004 года в INChI (химический идентификатор IUPAC-NIST) и в ноябре 2004 г. снова переименован в InChI (международный химический идентификатор IUPAC), товарный знак IUPAC.
Научное направление стандарта InChI осуществляется Подкомитетом IUPAC Division VIII, а финансирование подгрупп, исследующих и определяющих расширение стандарта, осуществляется обеими IUPAC и InChI Trust. InChI Trust финансирует разработку, тестирование и документирование InChI. Текущие расширения определены для обработки полимеров и смесей, структур Маркуша, реакций и металлоорганических соединений, а также один раз принятые Подкомитетом Дивизиона VIII, будут добавлены в алгоритм.
InChI был принят во многих больших и малых базах данных, включая ChemSpider, ChEMBL, База данных метаболома Голма, OpenPHACTS и PubChem. Однако принятие не является простым, и многие базы данных показывают несоответствие между химическими структурами и InChI, которые они содержат, что является проблемой для связывания баз данных.
![]() | Викиданные имеют свойство:
|