Автоматическое извлечение контента

редактировать

Автоматическое извлечение контента (ACE ) - это исследовательская программа для разработки передовых технологий извлечения информации , организованная NIST с 1999 по 2008 год, после MUC и предыдущая Конференция по анализу текста.

Содержание

1 Цели и усилия
2 Темы и упражнения
3 Ссылки
4 Внешние ссылки

Цели и усилия

В целом, программа ACE мотивирована теми же проблемами, что и предшествующая ей программа MUC, и решает их. Программа ACE, однако, определяет цели исследования в терминах целевых объектов (то есть сущностей, отношений и событий), а не в терминах слов в тексте. Например, задача так называемой «именованной сущности», как определено в MUC, состоит в том, чтобы идентифицировать те слова (на странице), которые являются именами сущностей. В ACE, с другой стороны, соответствующая задача состоит в том, чтобы идентифицировать названный объект. Это другая задача, более абстрактная и включающая более явный вывод при выработке ответа. На самом деле задача состоит в том, чтобы обнаружить вещи, которых «нет».

Хотя программа ACE направлена на извлечение информации из источников аудио и изображение в дополнение к чистому тексту, исследовательские усилия ограничиваются извлечением информации из текста. Фактическое преобразование аудио- и графических данных в текст не является частью исследований ACE, хотя обработка выходных данных ASR и OCR таких преобразователей входит.

Усилия включают:

подробное определение исследовательских задач,
сбор и аннотирование данных, необходимых для обучения, развития и оценки,
поддержку исследования оценкой инструменты и.

Темы и упражнения

Для текста на естественном языке задача ACE состоит в том, чтобы обнаружить:

объекты, упомянутые в тексте, например: лица, организации, местоположения, объекты, оружие, транспортные средства и геополитические объекты.
отношения между объектами, например: человек A является менеджером компании B. Типы отношений включают: роль, часть, местоположение, близкие и социальные.
события, упомянутые в тексте, такие как: взаимодействие, движение, передача, создание и разрушение.

Программа относится к английскому, арабскому и китайский тексты.

Корпус ACE является одним из стандартных тестов для тестирования новых алгоритмов извлечения информации .

Ссылки

Джордж Доддингтон @ NIS T, Alexis Mitchell @ LD C, Mark Przybocki @ NIS T, Lance Ramshaw @ BB N, Stephanie Strassel @ LD C, Ralph Weischedel @ BB N. Программа автоматического извлечения контента (ACE) - задачи, данные и оценка. 2004

Внешние ссылки

MUC - предшественник ACE.
ACE (LDC)
ACE (NIST)