Биомедицинский анализ текста

редактировать

Биомедицинский анализ текста (включая биомедицинскую обработку естественного языка или BioNLP ) относится к методам и исследованиям того, как интеллектуальный анализ текста может быть применен к текстам и литературе в областях биомедицины и молекулярной биологии. В качестве области исследования биомедицинский анализ текста включает идеи из обработки естественного языка, биоинформатики, медицинской информатики и компьютерной лингвистики. Стратегии, разработанные в ходе исследований в этой области, часто применяются к литературе по биомедицине и молекулярной биологии, доступной через такие службы, как PubMed.

Содержание
  • 1 Соображения
    • 1.1 Доступность аннотированного текста данные
    • 1.2 Вариация структуры данных
    • 1.3 Неопределенность
    • 1.4 Поддержка клинических потребностей
    • 1.5 Взаимодействие с клиническими системами
    • 1.6 Конфиденциальность пациента
  • 2 Процессы
    • 2.1 Распознавание именованных объектов
    • 2.2 Классификация и кластеризация документов
    • 2.3 Обнаружение взаимосвязей
    • 2.4 Обнаружение хеджирования
    • 2.5 Обнаружение претензий
    • 2.6 Извлечение информации
    • 2.7 Поиск информации и ответы на вопросы
  • 3 Ресурсы
    • 3.1 Корпуса
    • 3.2 Встраивание слов
  • 4 Приложения
    • 4.1 Идентификация кластера генов
    • 4.2 Взаимодействия белков
    • 4.3 Связи генов и болезней
    • 4.4 Связи генов и признаков
    • 4.5 Связи белков и болезней
      • 4.5.1 Применение анализа фраз к ассоциациям болезней
  • 5 Программное обеспечение являются инструментами
    • 5.1 Поисковые системы
    • 5.2 Системы анализа медицинских карт
    • 5.3 Структуры
    • 5.4 API
  • 6 Конференции
  • 7 Журналы
  • 8 Ссылки
  • 9 Дополнительная литература
  • 10 Внешние ссылки
Соображения

Применение подходов интеллектуального анализа текста к биомедицинскому тексту требует особых соображений, общих для данной предметной области.

Доступность аннотированных текстовых данных

На этом рисунке представлены некоторые характеристики корпуса биомедицинской литературы, подготовленной Westergaard et al. Корпус включает 15 миллионов полнотекстовых статей на английском языке. (a) Количество публикаций за год с 1823 по 2016 год. (b) Временное развитие в распределении шести различных тематических категорий с 1823 по 2016 год. (c) Увеличение количества страниц в статье за ​​период 1823–2016 гг.

Большие аннотированные корпуса, используемые при разработке и обучении методов анализа текста общего назначения (например, наборы диалога фильмов, обзоров продуктов или текста статей в Википедии) не относятся к биомедицинскому языку. Хотя они могут свидетельствовать об общих свойствах текста, таких как части речи, они редко содержат концепции, представляющие интерес для биологов или клиницистов. Таким образом, разработка новых методов идентификации особенностей биомедицинских документов требует сборки специализированных корпусов. Ресурсы, предназначенные для помощи в создании новых биомедицинских методов интеллектуального анализа текста, были разработаны с помощью задач «Информатика для интеграции биологии и прикроватных проблем» (i2b2) и исследователей в области биомедицинской информатики. Исследователи интеллектуального анализа текста часто комбинируют эти корпуса с контролируемыми словарями и онтологиями, доступными через Национальную медицинскую библиотеку Unified Medical Language System (UMLS) и Медицинские предметные заголовки (MeSH).

Методы на основе машинного обучения часто требуют очень больших наборов данных в качестве обучающих данных для построения полезных моделей. Ручное аннотирование больших корпусов текста невозможно. Таким образом, данные обучения могут быть результатом слабого наблюдения или чисто статистических методов.

Вариант структуры данных

Как и другие текстовые документы, биомедицинские документы содержат неструктурированные данные. Публикации исследований имеют разные форматы, содержат разные типы информации и перемежаются рисунками, таблицами и другим нетекстовым содержанием. Как неструктурированный текст, так и элементы частично структурированного документа, такие как таблицы, могут содержать важную информацию, которую следует анализировать. Клинические документы могут различаться по структуре и языку в разных отделениях и регионах. Другие типы биомедицинских текстов, такие как этикетки лекарств, могут соответствовать общим структурным рекомендациям, но не иметь дополнительных деталей.

Неопределенность

Биомедицинская литература содержит утверждения о наблюдениях, которые могут не являться утверждениями о фактах. Этот текст может выражать неуверенность или скептицизм по поводу заявлений. Без специальных адаптаций подходы интеллектуального анализа текста, разработанные для выявления утверждений в тексте, могут неправильно характеризовать эти «хеджированные» утверждения как факты.

Поддержка клинических потребностей

Приложения для биомедицинского анализа текста, разработанные для клинического использования, в идеале должны отражать потребности и запросы врачей. Это вызывает беспокойство в средах, где ожидается, что поддержка принятия клинических решений будет информативной и точной.

Взаимодействие с клиническими системами

Новые системы интеллектуального анализа текста должны работать с существующими стандартами, электронными медицинскими записями и базами данных. Были разработаны методы взаимодействия с клиническими системами, такими как LOINC, но для их внедрения и поддержки требуются значительные организационные усилия.

Конфиденциальность пациентов

Системы интеллектуального анализа текста, работающие с частными медицинскими данными должен уважать его безопасность и обеспечивать анонимность там, где это необходимо.

Процессы

Конкретные подзадачи вызывают особую озабоченность при обработке биомедицинского текста.

Распознавание именованных сущностей

Разработки в области биомедицинского анализа текста включают идентификацию биологических объектов с помощью именованного распознавания объектов, или NER. Имена и идентификаторы биомолекул, таких как белки и гены, химические соединения и лекарства, а также названия болезней - все это использовалось как сущность. Большинство методов распознавания сущностей поддерживаются предопределенными лингвистическими функциями или словарями, хотя методы, включающие глубокое обучение и встраивание слов, также были успешны в биомедицинском NER.

Документ классификация и кластеризация

Биомедицинские документы могут быть классифицированы или сгруппированы в зависимости от их содержания и тематики. При классификации категории документов указываются вручную, а при кластеризации документы формируются в отдельные группы, зависящие от алгоритма. Эти две задачи являются типичными для контролируемых и неконтролируемых методов, соответственно, но цель обеих - создание подмножеств документов на основе их отличительных признаков. Методы кластеризации биомедицинских документов основаны на кластеризации k-средних.

Обнаружение взаимосвязей

Биомедицинские документы описывают связи между концепциями, являются ли они взаимодействиями между биомолекулами, событиями, происходящими впоследствии с течением времени (т. Е. временные отношения) или причинные отношения. Методы интеллектуального анализа текста могут выполнять обнаружение связей для идентификации этих связей, часто совместно с распознаванием именованных объектов.

Обнаружение хеджирования

Проблема идентификации неопределенных или «хеджированных» заявлений решается посредством хеджирования обнаружение сигналов в биомедицинской литературе.

Обнаружение заявлений

Несколько исследователей разработали методы для выявления конкретных научных заявлений из литературы. На практике этот процесс включает в себя как выделение фраз и предложений, обозначающих основные аргументы, выдвинутые авторами документа (процесс, известный как анализ аргументов, с использованием инструментов, используемых в таких областях, как политология), так и сравнение утверждений с найти потенциальные противоречия между ними.

Извлечение информации

Извлечение информации или IE - это процесс автоматического определения структурированной информации из неструктурированного или частично структурированного текста. Процессы IE могут включать несколько или все вышеперечисленные действия, включая распознавание именованных сущностей, обнаружение взаимосвязей и классификацию документов, с общей целью перевода текста в более структурированную форму, такую ​​как содержимое шаблона или базы знаний .. В биомедицинской области IE используется для создания связей между концепциями, описанными в тексте, например, ген A подавляет ген B, а ген C участвует в заболевании G.Базы биомедицинских знаний, содержащие этот тип информации, обычно являются продуктами обширного ручного лечения, поэтому Замена ручных усилий автоматизированными методами остается важной областью исследований.

Поиск информации и ответы на вопросы

Биомедицинский анализ текста поддерживает приложения для идентификации документов и концепций, соответствующих поисковым запросам. Поисковые системы, такие как PubMed search, позволяют пользователям запрашивать базы данных литературы со словами или фразами, присутствующими в содержании документа, метаданными или индексами, такими как MeSH. Подобные подходы могут использоваться для поиска медицинской литературы. Для получения более детальных результатов некоторые приложения позволяют пользователям выполнять поиск с помощью запросов на естественном языке и определять конкретные биомедицинские связи.

16 марта 2020 года Национальная медицинская библиотека и другие запустили набор данных открытого исследования COVID-19 (CORD-19), чтобы включить интеллектуальный анализ текста из текущей литературы по новому вирусу. Набор данных размещен в рамках проекта Semantic Scholar Института ИИ Аллена. Среди других участников - Google, Microsoft Research, Центр безопасности и новых технологий и Инициатива Чана Цукерберга.

Ресурсы

Корпуса

В следующей таблице перечислены некоторые биомедицинские текстовые корпуса и их содержимое. Эти элементы включают аннотированные корпуса, источники литературы по биомедицинским исследованиям и ресурсы, часто используемые в качестве словарных и / или онтологических ссылок, такие как MeSH. Пункты, отмеченные «Да» в разделе «В свободном доступе», можно загрузить из общедоступного места.

Биомедицинские текстовые корпуса
Название корпусаАвторы или группаСодержаниеВ свободном доступеЦитирование
2006 i2b2 Deidentification and Smoking Задачаi2b2889 обезличенных сводок медицинских выписок с аннотациями для идентификации пациентов и особенностей статуса курения.Да, с регистрацией
2008 i2b2 Obesity Challengei2b21237 обезличенных медицинских выписок с аннотациями на наличие или отсутствие сопутствующих заболеваний ожирение.Да, с регистрацией
2009 i2b2 Medication Challengei2b21243 обезличенных резюме выписки из медицинских учреждений с аннотациями названий и деталей лекарств, включая дозировку, режим, частота, продолжительность, причина и наличие в списке или структуре повествования.Да, с регистрацией
2010 i2b2 Relations Challengei2b2Резюме медицинских выписок с аннотациями медицинских проблем, тестов, лечения и отношений между этими понятиями. Только часть этих записей данных доступна для использования в исследованиях из-за ограничений IRB.Да, с регистрацией
2011 i2b2 Coreference Challengei2b2978 обезличенных резюме выписок из медицинских учреждений, заметки о ходе работы и другие клинические отчеты, помеченные концепциями и Coreferences. Включает корпус ODIE.Да, с регистрацией
2012 i2b2 Temporal Relations Challengei2b2310 обезличенных сводок медицинских выписок с аннотациями для событий и временных отношений.Да, с регистрацией
2014 i2b2 De-ID Challengei2b21304 деидентифицированных продольных медицинских карты с аннотациями для защищенной медицинской информации (PHI).Да, с регистрацией
2014 i2b2 Факторы риска заболевания сердца Проблемаi2b21304 деидентифицированных продольных медицинских карты с аннотациями факторов риска для болезни сердечной артерии.Да, с регистрацией
AIMedBunescu et al.200 рефератов с аннотациями для белок-белковых взаимодействий, а также отрицательные примеры рефератов, не содержащих белок-белковых взаимодействий.Да
BioC-BioGRIDBioCreAtIvE 120 полных текстовых исследовательских статей с аннотациями для белок-белковых взаимодействий.Да
BioCreAtIvE 1BioCreAtIvE 15 000 предложений (10 000 обучающих и 5 000 тестовых) с аннотациями для названий белков и генов. 1000 полнотекстовых статей о биомедицинских исследованиях, аннотированных названиями белков и терминами генной онтологии.Да
BioCreAtIvE 2BioCreAtIvE 15 000 предложений (10 000 обучающих и 5 000 тестов, отличных от первого корпуса) с аннотациями для названий белков и генов. 542 реферата связаны с идентификаторами EntrezGene. Разнообразные исследовательские статьи с аннотациями по особенностям белок-белковых взаимодействий.Да
BioCreative V CDR Task Corpus (BC5CDR)BioCreAtIvE 1500 статей (заголовок и аннотация), опубликованных в 2014 году или позже, аннотировано 4 409 химических веществ, 5 818 заболеваний и 3116 взаимодействий химикатов и болезней.Да
BioInferPyysalo et al.1100 предложений из аннотаций биомедицинских исследований с аннотациями для отношений, именованных сущностей и синтаксических зависимостей.
BioScopeVincze et al.1 954 клинических отчета, 9 статей и 1 273 реферата с аннотациями для лингвистической области и терминов, обозначающих отрицание или неопределенность.Да
Определения сокращений распознавания биотекстаПроект BioText1000 рефератов по теме «дрожжи» с аннотациями сокращений и их значений.Да
Данные о взаимодействии белков и белков BioTextПроект BioText1322 предложения, описывающих взаимодействия белков и белков между ВИЧ-1 и человеческие белки, помеченные типами взаимодействия.Да
База данных сравнительной токсикогеномикиDavis et al.База данных вручную созданных ассоциаций между химическими веществами, генными продуктами, фенотипами, болезнями и воздействием окружающей среды.Да
CRAFTVerspoor et al.97 полнотекстовых биомедицинских публикаций с аннотациями лингвистических структур и биологических концепцийДа
GENIA CorpusПроект GENIA1999 аннотаций биомедицинских исследований на темы «человек», «клетки крови» и «факторы транскрипции» с аннотациями для частей речи, синтаксиса, терминов, событий, отношений и сопоставлений.Да
FamPlexБахман и др.Имена и семейства белков, связанные с уникальными идентификаторами. Включает наборы аффиксов .Да
FlySlip AbstractsFlySlip82 отрывка из исследований по Drosophila, помеченные названиями генов.Да
FlySlip Full PapersFlySlip5 исследовательских работ по Drosophila, аннотированных анафорическими связями между именными фразами относится к генам и биологически связанным объектам.Да
Спекулятивные предложения FlySlipFlySlipБолее 1500 предложений, помеченных как спекулятивные или не спекулятивные. Включает аннотации статей.Да
IEPADing et al.486 предложений из аннотаций биомедицинских исследований, аннотированных для пар сопутствующих химических веществ, включая белки.Нет
Корпус JNLPBAKim et al.Расширенная версия версии 3 корпуса GENIA для задач NER.Нет
Изучение языка в логике (LLL)Nédellec et al.77 предложений из исследовательских статей о бактерии Bacillus subtilis, аннотированных по взаимодействиям белок-ген.Да
Медицинские предметные рубрики (MeSH) Национальная медицинская библиотека Иерархически организованная терминология для индексации и каталогизации биомедицинских документов.Да
МетатезаврНациональная медицинская библиотека / UMLS 3,67 миллиона концептов и 14 миллионов названий концепций, сопоставленных между более чем 200 источниками биомедицинского словаря и идентификаторов.Да, с лицензионным соглашением UMLS
MIMIC-IIIЛаборатория вычислительной физиологии Массачусетского технологического институтане идентифицировала данные, связанные с 53 423 отдельными случаями госпитализации взрослых пациентов.Требуется обучение и официальный запрос доступа
ODIE CorpusSavova et al.180 клинических заметок с аннотациями 5992 кореференционных пар.Нет
OHSUMEDHersh et al.348 566 резюме биомедицинских исследований и индексирующая информация из MEDLINE, включая MeSH (по состоянию на 1991 г.).Да
PMC Подмножество открытого доступаНациональная медицинская библиотека / PubMed Central Более 2 миллионов исследовательских статей, обновляемых еженедельно.Да
RxNorm Национальная медицинская библиотека / UMLS Нормализованные названия клинических лекарств и упаковок лекарств с комбинированными ингредиентами, сильными сторонами и формой, а также назначенными типами из семантической сети.Да, с лицензионным соглашением UMLS
Семантическая сетьНациональная медицинская библиотека / UMLS Списки 133 семантических типов и 54 семантических отношений, охватывающих биомедицинские концепции и словарный запас.Да, с лицензионным соглашением UMLS
SPECIALIST LexiconNational Library of Medicine / UMLS Синтаксический лексикон биомедицинского и общего английского языка.Да
Устранение неоднозначности слов (WSD)Национальная медицинская библиотека / UMLS 203 неоднозначных слова и 37 888 автоматически извлеченных случаев их использования в публикациях биомедицинских исследований.Да, с лицензионным соглашением UMLS
YapexFranzén et al.200 аннотаций биомедицинских исследований с названиями белков.Нет

Вложения слов

Несколько групп разработали наборы биомедицинского словаря, сопоставленные с векторами действительных чисел, известные как векторы слов или вложения слов. Источники предварительно обученных встраиваний, специфичных для биомедицинского словаря, перечислены в таблице ниже. Большинство из них являются результатом модели word2vec, разработанной Миколовым и др., Или вариантов word2vec.

Биомедицинские вложения слов
Название набораАвторы или группаСодержание и источникЦитирование
BioASQword2vecBioASQВекторы, созданные word2vec из 10 876 004 рефератов на английском языке PubMed.
ресурсы bio.nlplab.orgPyysalo et al.Набор векторных слов, созданных с помощью различных подходов, обученных на тексте из PubMed и PubMed Central.
BioVecАсгари и МофрадВекторы для последовательностей генов и белков, обученные с использованием Swiss-Prot.
RadiologyReportEmbeddingBanerjee et al.Векторы, полученные с помощью word2vec из текста 10 000 радиологических отчетов.
Приложения
Блок-схема протокола интеллектуального анализа текста. Пример протокола интеллектуального анализа текста, используемого при изучении комплексов белок-белок, или стыковка белков.

Приложения интеллектуального анализа текста в биомедицинской области включают вычислительные подходы для помощи в исследованиях в стыковка белков, взаимодействия белков и ассоциации белок-заболевание.

Идентификация кластеров генов

Методы определения ассоциации кластеров генов получены с помощью микроматрицы были разработаны эксперименты с биологическим контекстом, предусмотренным соответствующей литературой.

Взаимодействия белков

Автоматическое извлечение взаимодействий белков и ассоциаций белков с функциональными концепциями (например, термины генной онтологии ). Поисковая машина PIE была разработана для выявления и возврата упоминаний белок-белковых взаимодействий из статей, проиндексированных по MEDLINE. Извлечение кинетических параметров из текста или субклеточного местоположения белков также решалось с помощью технологий извлечения информации и интеллектуального анализа текста.

Связи генов и болезней

Анализ текста может помощь в расстановке приоритетов генов или выявлении генов, которые, скорее всего, способствуют генетическому заболеванию. Одна группа сравнила несколько словарей, представлений и алгоритмов ранжирования для разработки критериев приоритизации генов.

Ассоциации генов и признаков

Группа сельскохозяйственных геномиков определила гены, относящиеся к коровам репродуктивные черты с использованием интеллектуального анализа текста, среди других подходов.

Ассоциации белков и болезней

Анализ текста позволяет беспристрастно оценить взаимосвязь белков и болезней в огромном количестве неструктурированных текстов. data.

Применение анализа фраз к ассоциациям заболеваний

В исследовании интеллектуального анализа текста собрана коллекция из 709 основных белков внеклеточного матрикса и связанных белков на основе двух баз данных: MatrixDB (matrixdb.univ-lyon1.fr ) и UniProt. Этот набор белков имел управляемый размер и богатый объем связанной информации, что делало его подходящим для применения инструментов интеллектуального анализа текста. Исследователи провели анализ фраз для перекрестного изучения отдельных белков внеклеточного матрикса в биомедицинской литературе, посвященной шести категориям сердечно-сосудистых заболеваний. Они использовали конвейер фразового анализа, контекстно-зависимую семантическую онлайн-аналитическую обработку (CaseOLAP), а затем семантически оценили все 709 белков в соответствии с их целостностью, популярностью и отличительностью, используя конвейер CaseOLAP. Исследование интеллектуального анализа текста подтвердило существующие взаимосвязи и предоставило информацию о ранее неизвестных биологических процессах в сердечно-сосудистой патофизиологии.

Программные инструменты

Поисковые системы

Поисковые системы, разработанные для поиска биомедицинской литературы, относящиеся к пользовательскому запросу, часто полагаются на подходы интеллектуального анализа текста. Общедоступные инструменты, специально предназначенные для исследовательской литературы, включают PubMed search, Europe PubMed Central search, GeneView и APSE. Аналогичным образом были разработаны поисковые системы и системы индексации, предназначенные для биомедицинских данных, включая DataMed и OmicsDI.

Некоторые поисковые системы, такие как Essie, OncoSearch, PubGene и GoPubMed ранее были общедоступными, но с тех пор были прекращены, устарели или интегрированы в коммерческие товары.

Системы анализа медицинских карт

Электронные медицинские карты (EMR) и электронные медицинские карты (EHR) собираются медицинским персоналом в ходе диагностики и лечения. Хотя эти записи обычно включают структурированные компоненты с предсказуемыми форматами и типами данных, остальные отчеты часто представляют собой произвольный текст. Для анализа этих фрагментов произвольного текста было разработано множество полных систем и инструментов. Система MedLEE изначально была разработана для анализа отчетов радиологии грудной клетки, но позже была расширена и на другие темы отчетов. Система клинического анализа текста и извлечения знаний, или cTAKES, аннотирует клинический текст с помощью словаря понятий. Система CLAMP предлагает аналогичные функции с удобным интерфейсом.

Фреймворки

Вычислительные фреймворки были разработаны для быстрого создания инструментов для задач биомедицинского анализа текста. SwellShark - это структура для биомедицинского NER, которая не требует данных, помеченных людьми, но использует ресурсы для слабого надзора (например, UMLS семантические типы). Платформа SparkText использует потоковую передачу данных Apache Spark, базу данных NoSQL и базовые методы машинного обучения для построения прогнозных моделей на основе научных статей.

API

Некоторые инструменты биомедицинского анализа текста и обработки естественного языка доступны через интерфейсы прикладного программирования или API. NOBLE Coder выполняет распознавание концепций через API.

Конференции

На следующих научных конференциях и семинарах проводятся дискуссии и презентации по достижениям в области биомедицинского анализа текстов. Большинство публикуют труды.

Конференции по биомедицинскому анализу текстов
Название конференцииСессияТруды
Ежегодное собрание Ассоциации компьютерной лингвистики (ACL)пленарное заседание и в рамках семинара BioNLP
семинар ACL BioNLP
ежегодное собрание Американской ассоциации медицинской информатики (AMIA)пленарное заседание
Интеллектуальные системы для молекулярных Биология (ISMB)на пленарном заседании и на семинарах по BioLINK и био-онтологиям
Международная конференция по биоинформатике и биомедицине (BIBM)
Международная конференция по управлению информацией и знаниями (CIKM) в рамках Международного семинара по интеллектуальному анализу данных и текстов в биомедицинской информатике (DTMBIO)
Ежегодное собрание Североамериканской ассоциации компьютерной лингвистики (NAACL)пленарное заседание и в рамках семинара BioNLP
Тихоокеанский симпозиум по биокомпьютингу (PSB)на пленарном заседании
Практик. ical Applications of Computational Biology Bioinformatics (PACBB)
Text REtrieval Conference (TREC) ранее как часть трека TREC Genomics ; по состоянию на 2018 год - часть Precision Medicine Track
Journals

Разнообразные академические журналы, публикующие рукописи по биологии и медицине, включают темы по интеллектуальному анализу текста и программному обеспечению обработки естественного языка. Некоторые журналы, в том числе Журнал Американской ассоциации медицинской информатики (JAMIA) и Журнал биомедицинской информатики, являются популярными публикациями по этим темам.

Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-05-12 06:52:10
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте