Главное окно GATE Developer v5 | |
Разработчик (и) | Исследовательская группа GATE, Департамент. Компьютерные науки, Университет Шеффилда |
---|---|
Первый выпуск | 1995 г.; 25 лет назад (1995) |
Стабильный выпуск | 8.6 (10 июня 2019 г.; 16 месяцев назад (2019-06-10)) |
Предварительный выпуск | 8.5 (2 ноября 2020 г. (выпущены ночные сборки) каждый день)) |
Репозиторий | |
Написано на | Java |
Операционная система | Межплатформенность |
Доступно на | английском |
Типе | Анализ текста Извлечение информации |
Лицензия | LGPL |
Веб-сайт | gate.ac.uk |
Общая архитектура для текстовой инженерии или GATE - это набор инструментов Java, изначально разработанный в Университете Шеффилда начиная с 1995 года и сейчас используется во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих задач обработки естественного языка, включая извлечение информации на многих языках.
GATE сравнивали с NLTK, R и RapidMiner. Помимо того, что он широко используется сам по себе, он составляет основу семантической платформы KIM.
Сообщество GATE и исследования участвовали в нескольких европейских исследовательских проектах, включая NeOn, Media-Campaign, Musing, LIRICS. и KnowledgeWeb, а также многие другие проекты.
По состоянию на 28 мая 2011 года 881 человек числится в списке рассылки Gate-users на SourceForge.net, и с момента перехода проекта на SourceForge в 2005 году зарегистрировано 111932 загрузки с SourceForge. Статья «GATE: среда и графическая среда разработки для надежных инструментов и приложений НЛП» получила более 800 ссылок за семь лет после публикации (по данным Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE, включают «Создание поисковых приложений: Lucene, LingPipe и Gate» Ману Кончади и «Введение в лингвистическую аннотацию и текстовую аналитику» Грэма Уилкока.
GATE включает система извлечения информации, называемая ANNIE (Почти новая система извлечения информации ), которая представляет собой набор модулей, содержащих токенизатор, gazetteer, разделитель предложений , часть речевого теггера, именованный объект преобразователь и тегер coreference. ANNIE можно использовать как есть, чтобы обеспечить базовую функциональность извлечения информации или предоставить отправную точку для более конкретных задач.
В настоящее время в GATE обрабатываются следующие языки: английский, китайский, арабский, болгарский, французский, немецкий, хинди, итальянский, кебуанский, румынский, русский, Датский.
Плагины включены для машинного обучения с Weka, RASP, MAXENT, SVM Light, а также для интеграции LIBSVM и встроенного -house реализация перцептрона, для управления онтологиями, такими как WordNet, для запросов поисковых систем, таких как Google или Yahoo, для части речи с тегами с помощью Brill или TreeTagger и многих других. Также доступны многие внешние плагины для обработки, например tweets.
GATE принимает ввод в различных форматах, таких как TXT, HTML, XML, Doc, Документы PDF и Java Serial, PostgreSQL, Lucene, Oracle Базы данных с помощью RDBMS хранение над преобразователями JDBC.
JAPE используется в GATE для управления аннотациями к тексту. Документация представлена в Руководстве пользователя GATE. Учебное пособие также было написано Press Association Images.
На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. Розовым цветом выделены аннотации гиперссылок из файла HTML. Правый список - это список наборов аннотаций, а нижняя таблица - это список аннотаций. В центре находится окно редактора аннотаций.
GATE генерирует огромное количество информации, включая: текст на естественном языке, семантические аннотации и онтологическая информация. Иногда данные сами по себе являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL.