Автоматическое извлечение контента

редактировать

Автоматическое извлечение контента (ACE ) - это исследовательская программа для разработки передовых технологий извлечения информации , организованная NIST с 1999 по 2008 год, после MUC и предыдущая Конференция по анализу текста.

Содержание
  • 1 Цели и усилия
  • 2 Темы и упражнения
  • 3 Ссылки
  • 4 Внешние ссылки
Цели и усилия

В целом, программа ACE мотивирована теми же проблемами, что и предшествующая ей программа MUC, и решает их. Программа ACE, однако, определяет цели исследования в терминах целевых объектов (то есть сущностей, отношений и событий), а не в терминах слов в тексте. Например, задача так называемой «именованной сущности», как определено в MUC, состоит в том, чтобы идентифицировать те слова (на странице), которые являются именами сущностей. В ACE, с другой стороны, соответствующая задача состоит в том, чтобы идентифицировать названный объект. Это другая задача, более абстрактная и включающая более явный вывод при выработке ответа. На самом деле задача состоит в том, чтобы обнаружить вещи, которых «нет».

Хотя программа ACE направлена ​​на извлечение информации из источников аудио и изображение в дополнение к чистому тексту, исследовательские усилия ограничиваются извлечением информации из текста. Фактическое преобразование аудио- и графических данных в текст не является частью исследований ACE, хотя обработка выходных данных ASR и OCR таких преобразователей входит.

Усилия включают:

  • подробное определение исследовательских задач,
  • сбор и аннотирование данных, необходимых для обучения, развития и оценки,
  • поддержку исследования оценкой инструменты и.
Темы и упражнения

Для текста на естественном языке задача ACE состоит в том, чтобы обнаружить:

  1. объекты, упомянутые в тексте, например: лица, организации, местоположения, объекты, оружие, транспортные средства и геополитические объекты.
  2. отношения между объектами, например: человек A является менеджером компании B. Типы отношений включают: роль, часть, местоположение, близкие и социальные.
  3. события, упомянутые в тексте, такие как: взаимодействие, движение, передача, создание и разрушение.

Программа относится к английскому, арабскому и китайский тексты.

Корпус ACE является одним из стандартных тестов для тестирования новых алгоритмов извлечения информации .

Ссылки
Внешние ссылки
  • MUC - предшественник ACE.
  • ACE (LDC)
  • ACE (NIST)
Последняя правка сделана 2021-06-12 19:18:25
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте