Общая архитектура для текстовой инженерии

редактировать
GATE
Главное окно GATE Developer v5 Главное окно GATE Developer v5
Разработчик (и) Исследовательская группа GATE, Департамент. Компьютерные науки, Университет Шеффилда
Первый выпуск1995 г.; 25 лет назад (1995)
Стабильный выпуск 8.6 (10 июня 2019 г.; 16 месяцев назад (2019-06-10))
Предварительный выпуск 8.5 (2 ноября 2020 г. (выпущены ночные сборки) каждый день))
Репозиторий Измените это в Wikidata
Написано наJava
Операционная система Межплатформенность
Доступно наанглийском
Типе Анализ текста Извлечение информации
Лицензия LGPL
Веб-сайтgate.ac.uk

Общая архитектура для текстовой инженерии или GATE - это набор инструментов Java, изначально разработанный в Университете Шеффилда начиная с 1995 года и сейчас используется во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих задач обработки естественного языка, включая извлечение информации на многих языках.

GATE сравнивали с NLTK, R и RapidMiner. Помимо того, что он широко используется сам по себе, он составляет основу семантической платформы KIM.

Сообщество GATE и исследования участвовали в нескольких европейских исследовательских проектах, включая NeOn, Media-Campaign, Musing, LIRICS. и KnowledgeWeb, а также многие другие проекты.

По состоянию на 28 мая 2011 года 881 человек числится в списке рассылки Gate-users на SourceForge.net, и с момента перехода проекта на SourceForge в 2005 году зарегистрировано 111932 загрузки с SourceForge. Статья «GATE: среда и графическая среда разработки для надежных инструментов и приложений НЛП» получила более 800 ссылок за семь лет после публикации (по данным Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE, включают «Создание поисковых приложений: Lucene, LingPipe и Gate» Ману Кончади и «Введение в лингвистическую аннотацию и текстовую аналитику» Грэма Уилкока.

Содержание
  • 1 Возможности
  • 2 GATE Developer
  • 3 GATE Mímir
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки
Возможности

GATE включает система извлечения информации, называемая ANNIE (Почти новая система извлечения информации ), которая представляет собой набор модулей, содержащих токенизатор, gazetteer, разделитель предложений , часть речевого теггера, именованный объект преобразователь и тегер coreference. ANNIE можно использовать как есть, чтобы обеспечить базовую функциональность извлечения информации или предоставить отправную точку для более конкретных задач.

В настоящее время в GATE обрабатываются следующие языки: английский, китайский, арабский, болгарский, французский, немецкий, хинди, итальянский, кебуанский, румынский, русский, Датский.

Плагины включены для машинного обучения с Weka, RASP, MAXENT, SVM Light, а также для интеграции LIBSVM и встроенного -house реализация перцептрона, для управления онтологиями, такими как WordNet, для запросов поисковых систем, таких как Google или Yahoo, для части речи с тегами с помощью Brill или TreeTagger и многих других. Также доступны многие внешние плагины для обработки, например tweets.

GATE принимает ввод в различных форматах, таких как TXT, HTML, XML, Doc, Документы PDF и Java Serial, PostgreSQL, Lucene, Oracle Базы данных с помощью RDBMS хранение над преобразователями JDBC.

JAPE используется в GATE для управления аннотациями к тексту. Документация представлена ​​в Руководстве пользователя GATE. Учебное пособие также было написано Press Association Images.

Разработчик GATE
Главное окно GATE 5.

На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. Розовым цветом выделены аннотации гиперссылок из файла HTML. Правый список - это список наборов аннотаций, а нижняя таблица - это список аннотаций. В центре находится окно редактора аннотаций.

GATE Mímir

GATE генерирует огромное количество информации, включая: текст на естественном языке, семантические аннотации и онтологическая информация. Иногда данные сами по себе являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL.

См. Также
  • Бесплатно и с открытым исходным кодом программный портал
Ссылки
  1. ^Языки, упомянутые на http://gate.ac.uk/gate/plugins/, включают арабский, болгарский, кебуанский, китайский, французский, немецкий, хинди, итальянский, румынский и русский.
  2. ^"Анализ текста с открытым исходным кодом, Сет Граймс - BeyeNETWORK". Дата обращения 17 декабря 2016.
  3. ^Попов, Борислав; Кирьяков, Атанас; Огнянов, Дамян; Манов, Димитар; Кирилов, Ангел (1 сентября 2004 г.). «КИМ - семантическая платформа для извлечения и поиска информации». Инженерия естественного языка. 10 (3–4): 375–392. doi : 10.1017 / S135132490400347X. Получено 17 декабря 2016 г. - через Cambridge Core.
  4. ^"GATE". Проверено 17 декабря 2016 г.
  5. ^«GATE: среда и графическая среда разработки для надежных инструментов и приложений НЛП», Каннингем Х., Мейнард Д., Бончева К. и Таблан В. (В материалах 40-й юбилейной встречи Ассоциации компьютерной лингвистики, 2002 г.)
  6. ^"GATE.ac.uk - sale / tao / split.html". Дата обращения 17 декабря 2016.
  7. ^Кончады, Ману. Создание приложений для поиска: Lucene, LingPipe и Gate. Издательство Мустру. 2008.
  8. ^Уилкок, Грэм (1 января 2009 г.). Введение в лингвистическую аннотацию и текстовую аналитику. Издатели Morgan Claypool. ISBN 9781598297386. Получено 17 декабря 2016 г. из Google Книг.
  9. ^"GATE.ac.uk - wiki / twitie.html". Проверено 17 декабря 2016 г.
  10. ^"GATE.ac.uk - sale / tao / splitch8.html". Проверено 17 декабря 2016 г.
  11. ^Таккер, Дхавалкумар (17 июля 2009 г.). «Реализация семантической паутины: учебник по грамматике JAPE». Проверено 17 декабря 2016 г.
Внешние ссылки
Последняя правка сделана 2021-05-21 14:26:26
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте