Apache cTAKES

редактировать

Apache cTAKES

Разработчик (и)	Apache Software Foundation

Стабильная версия	4.0.0 / 25 апреля 2017 г.; 3 года назад (2017-04-25)

Репозиторий	cTakes Repository
Написано на	Java, Scala
Операционная система	Кросс-платформенная
Тип	Обработка естественного языка, Биоинформатика, Анализ текста, Извлечение информации
Лицензия	Лицензия Apache 2.0
Веб-сайт	ctakes.apache.org

Apache cTAKES: система клинического анализа текста и извлечения знаний - это система обработки естественного языка (NLP) с открытым исходным кодом, которая извлекает клиническую информацию из электронная медицинская карта неструктурированный текст. Он обрабатывает клинические записи, идентифицируя типы клинических названий объектов - лекарства, болезни / расстройства, признаки / симптомы, анатомические участки и процедуры. Каждая именованная сущность имеет атрибуты для диапазона текста, кода отображения онтологии, контекста (семейная история, текущая, не связанная с пациентом) и отрицание / не отрицание.

cTAKES был построен с использованием UIMA Unstructured Структура архитектуры управления информацией и OpenNLP инструментарий обработки естественного языка.

Содержание

1 Компоненты
2 История
3 См. Также
4 Ссылки
5 Внешние links

Компоненты

Компоненты cTAKES специально обучены для клинической области и создают обширные лингвистические и семантические аннотации, которые могут использоваться системами поддержки принятия клинических решений и клиническими исследованиями.

Эти компоненты включают:

Идентификатор именованного раздела
Детектор границы предложения
Токенизатор на основе правил
Идентификатор форматированного списка
Нормализатор
Контекст зависимый токенизатор
тегер части речи
фразовый фрагмент
аннотатор поиска в словаре
аннотатор контекста
детектор отрицания
Детектор неопределенности
Детектор предмета
Анализатор зависимостей
идентификатор статуса курения пациента
Аннотатор упоминания наркотиков

История

Разработка of cTAKES началась в клинике Мэйо в 2006 году. В команду разработчиков во главе с доктором Гергана Савова и доктором Кристофером Чутом входили врачи, компьютерщики и инженеры-программисты. После развертывания cTAKES стал неотъемлемой частью инфраструктуры управления клиническими данными Mayo, обработав более 80 миллионов клинических записей.

Когда доктор Савова переехал в Бостонскую детскую больницу в начале 2010 года, Основная команда разработчиков выросла и стала включать членов. Дальнейшее внешнее сотрудничество включает:

Университет Колорадо
Университет Брандейса
Университет Питтсбурга
Калифорнийский университет в Сан-Диего

Такое сотрудничество расширило возможности cTAKES в другие области, такие как временные рассуждения, ответы на клинические вопросы и разрешение кореференций для клинической области.

В 2010 году программа cTAKES была принята программой i2b2 и является центральным компонентом программы SHARP Area 4.

В 2013 году cTAKES выпустили свой первый выпуск в качестве проекта инкубатора Apache: cTAKES 3.0.

В марте 2013 года cTAKES стал проектом верхнего уровня Apache (TLP).

См. Также

Ссылки

Внешние ссылки

Официальный сайт cTAKES
Страница информации о проекте Apache cTAKES из ASF
Резюме (JAMIA)
Консорциум Open Health Natural Language Processing (OHNLP)
Стратегические проекты перспективных ИТ-исследований в области здравоохранения (SHARP) Программа
Область 4 SHARP - Вторичное использование данных EHR
Консоль автоматического извлечения (ARC)
Извлечение текста информации о здоровье (HITEx) ) была разработана как часть проекта i2b2. Это основанный на правилах конвейер НЛП, основанный на структуре GATE, разработанной Информатика для интеграции биологии и прикроватной среды.
Инструментарий компьютерных исследований языка и образования (cleartk) (больше не поддерживается) был разработан в Университет Колорадо в Боулдере и предоставляет основу для разработки статистических компонентов НЛП на Java. Он построен на основе Apache UIMA.
NegEx - инструмента, разработанного в Университете Питтсбурга для обнаружения отрицательных терминов в клиническом тексте. Система использует триггерные термины как метод определения вероятных сценариев отрицания в предложении.
ConText ): расширение NegEx, которое также разработано Питтсбургским университетом. ConText расширяет NegEx, чтобы не только обнаруживать отрицаемые концепции, но также находить временные (недавние, исторические или гипотетические сценарии) и то, кто является Субъектом (опыта) (пациент или другой).
MetaMap (by Национальная медицинская библиотека США ): это комплексная система тегов, построенная на основе Unified Medical Language System. Для использования требуется действующее лицензионное соглашение UMLS Metathesaurus (и учетная запись).
MedEx - инструмент для извлечения информации о лекарствах из клинического текста. MedEx обрабатывает клинические записи с произвольным текстом для распознавания названий лекарств и сигнатурной информации, такой как доза, частота, способ введения и продолжительность приема лекарств. Использование бесплатно с лицензией UMLS. Это отдельное приложение для Linux и Windows.
SecTag (иерархия тегов разделов): распознает заголовки разделов заметок с использованием методов NLP, байесовского, коррекции орфографии и оценки. Использование бесплатно с лицензией UMLS или LOINC.
(Stanford Named Entity Recognizer (NER) ): NER Стэнфорда - это модель последовательности условных случайных полей вместе с хорошо спроектированными функциями для распознавания именованных сущностей на английском и немецком языках..
(Stanford CoreNLP ) - это интегрированный набор инструментов обработки естественного языка для английского языка в Java, включая токенизацию, тегирование части речи, распознавание именованных сущностей, синтаксический анализ и сопоставление.