Автоматическое извлечение контента (ACE ) - это исследовательская программа для разработки передовых технологий извлечения информации , организованная NIST с 1999 по 2008 год, после MUC и предыдущая Конференция по анализу текста.
В целом, программа ACE мотивирована теми же проблемами, что и предшествующая ей программа MUC, и решает их. Программа ACE, однако, определяет цели исследования в терминах целевых объектов (то есть сущностей, отношений и событий), а не в терминах слов в тексте. Например, задача так называемой «именованной сущности», как определено в MUC, состоит в том, чтобы идентифицировать те слова (на странице), которые являются именами сущностей. В ACE, с другой стороны, соответствующая задача состоит в том, чтобы идентифицировать названный объект. Это другая задача, более абстрактная и включающая более явный вывод при выработке ответа. На самом деле задача состоит в том, чтобы обнаружить вещи, которых «нет».
Хотя программа ACE направлена на извлечение информации из источников аудио и изображение в дополнение к чистому тексту, исследовательские усилия ограничиваются извлечением информации из текста. Фактическое преобразование аудио- и графических данных в текст не является частью исследований ACE, хотя обработка выходных данных ASR и OCR таких преобразователей входит.
Усилия включают:
Для текста на естественном языке задача ACE состоит в том, чтобы обнаружить:
Программа относится к английскому, арабскому и китайский тексты.
Корпус ACE является одним из стандартных тестов для тестирования новых алгоритмов извлечения информации .