Хемометрика

редактировать

Хемометрика - это наука об извлечении информации из химических систем с помощью средств, управляемых данными. Хемометрика по своей природе является междисциплинарной, с использованием методов, часто используемых в основных дисциплинах анализа данных, таких как многомерная статистика, прикладная математика и информатика, для решения проблем. в химии, биохимии, медицине, биологии и химической инженерии. Таким образом, он отражает другие междисциплинарные области, такие как психометрия и эконометрика.

Содержание
  • 1 Введение
  • 2 Истоки
  • 3 Методы
    • 3.1 Многовариантная калибровка
    • 3.2 Классификация, распознавание образов, кластеризация
    • 3.3 Разрешение многомерной кривой
    • 3.4 Другие методы
  • 4 Ссылки
  • 5 Дополнительная литература
  • 6 Внешние ссылки
Введение

Хемометрика применяется для решения как описательных, так и прогнозных задач в экспериментальном естествознании, особенно в химии. В описательных приложениях свойства химических систем моделируются с целью изучения основных взаимосвязей и структуры системы (то есть понимания и идентификации модели). В прогностических приложениях свойства химических систем моделируются с целью предсказания новых свойств или поведения, представляющих интерес. В обоих случаях наборы данных могут быть небольшими, но часто очень большими и очень сложными, включая от сотен до тысяч переменных и от сотен до тысяч случаев или наблюдений.

Хемометрические методы особенно широко используются в аналитической химии и метаболомике, и разработка улучшенных хемометрических методов анализа также продолжает продвигать вперед уровень техники в аналитической химии. инструментарий и методология. Это дисциплина, ориентированная на приложения, и, таким образом, хотя стандартные хемометрические методологии очень широко используются в промышленности, академические группы занимаются постоянным развитием хемометрической теории, методов и разработки приложений.

Происхождение

Хотя можно утверждать, что даже самые ранние аналитические эксперименты в химии включали форму хемометрии, общепризнано, что эта область возникла в 1970-х годах, когда компьютеры стали все больше использоваться для научных исследований.. Термин «хемометрика» был придуман Сванте Волдом в заявке на грант в 1971 году, и вскоре после этого двумя пионерами в этой области было образовано Международное хемометрическое общество. Волд был профессором органической химии в Университете Умео, Швеция, а Ковальски был профессором аналитической химии в Вашингтонском университете в Сиэтле.

Многие ранние приложения включали многомерную классификацию, за ней последовали многочисленные приложения для количественного прогнозирования, а к концу 1970-х - началу 1980-х годов стали применяться самые разные химические анализы, управляемые данными и компьютером.

Многомерный анализ был критическим аспектом даже в самых ранних приложениях хемометрики. Данные инфракрасной и УФ / видимой спектроскопии часто исчисляются тысячами измерений на образец. Масс-спектрометрия, ядерный магнитный резонанс, атомная эмиссия / абсорбция и хроматографические эксперименты также по своей природе весьма многомерны. Было обнаружено, что структура этих данных способствует использованию таких методов, как анализ главных компонентов (PCA) и частичный метод наименьших квадратов (PLS). Это в первую очередь потому, что, хотя наборы данных могут быть очень многовариантными, присутствует сильная и часто линейная структура низкого ранга. PCA и PLS с течением времени показали себя очень эффективными при эмпирическом моделировании более химически интересной низкоранговой структуры, использовании взаимосвязей или «скрытых переменных» в данных и предоставлении альтернативных компактных систем координат для дальнейшего численного анализа, такого как регрессия ., кластеризация и распознавание образов. В частности, метод частичных наименьших квадратов активно использовался в хемометрических приложениях в течение многих лет, прежде чем он начал находить регулярное применение в других областях.

В течение 1980-х годов в этой области появилось три специализированных журнала: Journal of Chemometrics, Chemometrics and Intelligent Laboratory Systems и Journal of Chemical Information and Modeling. Эти журналы продолжают освещать как фундаментальные, так и методологические исследования в области хемометрии. В настоящее время большинство рутинных применений существующих хемометрических методов обычно публикуются в специализированных журналах (например, Applied Spectroscopy, Analytical Chemistry, Anal. Chim. Acta., Talanta). Несколько важных книг / монографий по хемометрике были также впервые опубликованы в 1980-х годах, в том числе первое издание «Факторного анализа в химии» Малиновского, «Хемометрика Шарафа, Ильмана и Ковальского», Massart et al. Хемометрика: учебник и многомерная калибровка Мартенса и Наеса.

В некоторых крупных областях хемометрических приложений появились новые области, такие как молекулярное моделирование и QSAR, хеминформатика, области «-омики» геномики, протеомики, метабономики и метаболомики, моделирования процессов и аналитики процессов технология.

Отчет о ранней истории хемометрики был опубликован в виде серии интервью Гелади и Эсбенсен.

Методы

Многовариантная калибровка

Многие химические проблемы и приложения хемометрии включают калибровку. Цель состоит в разработке моделей, которые можно использовать для прогнозирования интересующих свойств на основе измеренных свойств химической системы, таких как давление, расход, температура, инфракрасный, Рамановский, Спектры ЯМР и масс-спектры. Примеры включают разработку многомерных моделей, связывающих 1) многоволновую спектральную реакцию с концентрацией аналита, 2) молекулярные дескрипторы с биологической активностью, 3) многомерные условия / состояния процесса с характеристиками конечного продукта. Для этого процесса требуется набор данных калибровки или обучения, который включает эталонные значения для свойств, представляющих интерес для прогнозирования, и измеренные атрибуты, которые, как предполагается, соответствуют этим свойствам. Например, для случая 1) можно собрать данные из ряда образцов, включая концентрации интересующего аналита для каждого образца (эталона) и соответствующий инфракрасный спектр этого образца. Методы многомерной калибровки, такие как регрессия частичных наименьших квадратов или регрессия главных компонентов (и почти бесчисленное множество других методов), затем используются для построения математической модели, которая связывает многомерный отклик (спектр) с концентрацией исследуемого аналита, и такой Модель может быть использована для эффективного прогнозирования концентраций новых образцов.

Методы многомерной калибровки часто классифицируются как классические или обратные. Принципиальное различие между этими подходами состоит в том, что при классической калибровке модели решаются таким образом, что они являются оптимальными для описания измеренных аналитических откликов (например, спектров) и поэтому могут считаться оптимальными дескрипторами, тогда как в обратных методах модели решаются как оптимальные. в прогнозировании интересующих свойств (например, концентраций, оптимальных предикторов). Обратные методы обычно требуют меньших физических знаний о химической системе и, по крайней мере, теоретически обеспечивают превосходные предсказания в смысле среднеквадратичной ошибки, и, следовательно, обратные подходы, как правило, чаще применяются в современной многомерной калибровке.

Основные преимущества использования методов многомерной калибровки заключаются в том, что быстрые, дешевые или неразрушающие аналитические измерения (например, оптическая спектроскопия) могут использоваться для оценки свойств образца, что в противном случае потребовало бы затрат времени и средств. или разрушающий контроль (например, LC-MS ). Не менее важно и то, что многомерная калибровка позволяет проводить точный количественный анализ при сильном влиянии других аналитов. Селективность аналитического метода обеспечивается как математической калибровкой, так и методами аналитических измерений. Например, ближние инфракрасные спектры, которые являются чрезвычайно широкими и неселективными по сравнению с другими аналитическими методами (такими как инфракрасные или рамановские спектры), часто могут успешно использоваться в сочетании с тщательно разработанными многомерными методами калибровки для прогнозирования концентраций аналитов в очень сложные матрицы.

Классификация, распознавание образов, кластеризация

Методы контролируемой многомерной классификации тесно связаны с методами многомерной калибровки в том смысле, что калибровочный или обучающий набор используется для разработки математической модели, способной классифицировать будущие образцы. Методы, используемые в хемометрии, аналогичны тем, которые используются в других областях - многомерный дискриминантный анализ, логистическая регрессия, нейронные сети, деревья регрессии / классификации. Использование методов снижения ранга в сочетании с этими традиционными методами классификации является обычным делом в хемометрии, например дискриминантный анализ по основным компонентам или частичным наименьшим квадратам.

Семейство методов, называемое моделированием классов или одноклассовыми классификаторами, может создавать модели для отдельного интересующего класса. Такие методы особенно полезны в случае контроля качества и проверки подлинности продуктов.

Неконтролируемая классификация (также называемая кластерный анализ ) также обычно используется для обнаружения закономерностей в сложных наборах данных, и, опять же, многие из основных методов, используемых в хемометрии, являются общими для других областей, таких как машинная обучение и статистическое обучение.

Разрешение многомерной кривой

Выражаясь хемометрическим языком, разрешение многомерной кривой направлено на деконструкцию наборов данных с ограниченной или отсутствующей справочной информацией и системными знаниями. Некоторые из самых ранних работ по этим методам были выполнены Лотоном и Сильвестром в начале 1970-х годов. Эти подходы также называются самомодельным анализом смеси, слепым разделением источника / сигнала и спектральным рассмешиванием. Например, из набора данных, включающего спектры флуоресценции из серии образцов, каждый из которых содержит несколько флуорофоров, можно использовать методы разрешения многомерной кривой для извлечения спектров флуоресценции отдельных флуорофоров вместе с их относительными концентрациями в каждом из образцов, по существу, без перемешивания. общий спектр флуоресценции в вклады отдельных компонентов. Проблема обычно плохо определяется из-за вращательной неоднозначности (многие возможные решения могут эквивалентно представлять измеренные данные), поэтому часто применяются дополнительные ограничения, такие как неотрицательность, унимодальность или известные взаимосвязи между отдельными компонентами (например, кинетические или массовые ограничения).

Другие методы

Планирование экспериментов остается основной областью исследований в хемометрике, и несколько монографий специально посвящены планированию экспериментов в химических приложениях. Надежные принципы экспериментального дизайна были широко приняты в хемометрическом сообществе, хотя многие сложные эксперименты являются чисто наблюдательными, и контроль свойств и взаимосвязей образцов и свойств образцов практически невозможен.

Обработка сигналов также является важным компонентом почти всех хемометрических приложений, в частности, использование предварительной обработки сигналов для кондиционирования данных перед калибровкой или классификацией. Методы, обычно используемые в хемометрике, часто тесно связаны с методами, используемыми в смежных областях. Предварительная обработка сигнала может повлиять на способ интерпретации результатов окончательной обработки данных.

Характеристика характеристик и показатели качества Как и большинство областей физических наук, хемометрия ориентирована на количественные показатели, поэтому значительный упор делается на характеристику характеристик, выбор модели, верификацию и валидацию, а также показатели качества. Эффективность количественных моделей обычно определяется среднеквадратичной ошибкой при прогнозировании интересующего атрибута, а производительность классификаторов в виде пар истинно-положительная частота / ложноположительная частота (или полной кривой ROC). Недавний отчет Olivieri et al. обеспечивает всесторонний обзор показателей качества и оценки неопределенности при многомерной калибровке, включая многомерные определения селективности, чувствительности, SNR и оценки интервала прогнозирования. Выбор хемометрической модели обычно включает использование таких инструментов, как повторная выборка (включая бутстрап, перестановку, перекрестную проверку).

Многомерный статистический контроль процессов (MSPC), моделирование и оптимизация составляют значительную часть исторических хемометрических разработок. Спектроскопия успешно используется для онлайн-мониторинга производственных процессов в течение 30-40 лет, и эти данные процесса легко поддаются хемометрическому моделированию. В частности, с точки зрения MSPC, многостороннее моделирование периодических и непрерывных процессов становится все более распространенным в промышленности и остается активной областью исследований в области хемометрии и химической инженерии. Технологическая аналитическая химия, как ее первоначально называли, или новый термин технологическая аналитическая технология по-прежнему в значительной степени опирается на хемометрические методы и MSPC.

Многосторонние методы широко используются в хемометрических приложениях. Это расширения более высокого порядка более широко используемых методов. Например, в то время как анализ таблицы (матрицы или массива второго порядка) данных является рутинным в нескольких полях, многосторонние методы применяются к наборам данных, которые включают 3-й, 4-й или более высокие порядки. Данные этого типа очень распространены в химии, например, система жидкостной хроматографии / масс-спектрометрии (ЖХ-МС) генерирует большую матрицу данных (время элюирования в зависимости от m / z) для каждого анализируемого образца. Таким образом, данные из нескольких выборок составляют куб данных . Моделирование пакетного процесса включает в себя наборы данных, в которых время зависит от переменных процесса и номера партии. Многоходовые математические методы, применяемые к такого рода задачам, включают PARAFAC, трилинейную декомпозицию и многоходовые PLS и PCA.

Ссылки
Дополнительная литература
  • Beebe, K. R.; Pell, R.J.; Сишолц, М. Б. (1998). Хемометрика: Практическое руководство. Wiley.
  • Бреретон, Р. Г. (2007). Прикладная хемометрия для ученых. Wiley.
  • Браун, С.Д.; Tauler, R.; Вальчак Б., ред. (2009). Комплексная хемометрия: химический и биохимический анализ данных. Комплект 4 тома. Elsevier.
  • Гемперлин, П. Дж., Изд. (2006). Практическое руководство по хемометрике (2-е изд.). CRC Press.
  • Крамер, Р. (1998). Хемометрические методы количественного анализа. CRC Press.
  • Maeder, M.; Нойхольд, Ю.-М. (2007). Практический анализ данных в химии. Elsevier.
  • Марк, Х.; Уоркман, Дж. (2007). Хемометрика в спектроскопии. Academic Press-Elsevier.
  • Martens, H.; Наес, Т. (1989). Многовариантная калибровка. Wiley.
  • Massart, D.L.; Vandeginste, B.G.M.; Деминг, С. М.; Michotte, Y.; Кауфман, Л. (1988). Хемометрика: Учебник. Эльзевьер.
  • Отто, М. (2007). Хемометрика: статистика и компьютерные приложения в аналитической химии (2-е изд.). Wiley-VCH.
  • Vandeginste, B.G.M.; Massart, D. L.; Buydens, L.MC.; Де Йонг, S.; Lewi, P.J.; Смейерс-Вербеке Дж. (1998). Справочник по хемометрике и квалиметрии: часть A и часть B. Elsevier.
Внешние ссылки
Последняя правка сделана 2021-05-14 09:37:18
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте