UBY

редактировать

UBY
Версия	1.7
Framework	Java
Тип	Многоязычный лексико-семантический ресурс
Лицензия	Бесплатные лицензии на программное обеспечение, сочетание лицензий для включенных ресурсов
Веб-сайт	https://www.ukp.tu-darmstadt.de/data/lexical-resources/uby

UBY - это крупномасштабный лексический семантический ресурс для обработки естественного языка (NLP), разработанный в лаборатории повсеместной обработки знаний (UKP) факультета компьютерных наук Технического университета Дармштадта. UBY основан на стандартной структуре лексической разметки (LMF) ISO и объединяет информацию из нескольких созданных экспертами и совместно созданных ресурсов для английского и немецкого языков.

UBY применяет подход выравнивания смысла слов (подполе значения смысла слов ) для объединения информации о существительных и глаголах. В настоящее время UBY содержит 12 интегрированных ресурсов на английском и немецком языках.

Содержание

1 Включенные ресурсы
2 Формат
3 Доступность и версии
4 UBY и BabelNet
5 Приложения
6 См. Также
7 Внешние ссылки
8 Ссылки

Включенные ресурсы

Ресурсы на английском языке: WordNet, Викисловарь, Википедия, FrameNet, VerbNet, OmegaWiki
Немецкие ресурсы: Немецкая Википедия, Немецкий Викисловарь, ОнтоВикисловарь, GermaNet и IMSLex-Subcat
Многоязычные ресурсы: OmegaWiki.

Формат

UBY-LMF - это формат для стандартизации лексических ресурсов для обработки естественного языка (NLP). UBY-LMF соответствует стандарту ISO для лексиконов: LMF, разработан в рамках ISO-TC37 и представляет собой так называемую сериализацию этого абстрактного стандарта. В соответствии с LMF, все атрибуты и другие лингвистические термины, представленные в UBY-LMF, относятся к стандартизированным описаниям их значений в ISOCat.

Доступность, а версии

UBY доступен как часть открытого ресурса репозиторий DKPro. DKPro UBY - это среда Java для создания и доступа к смысловым лексическим ресурсам в соответствии с моделью лексики UBY-LMF. Несмотря на то, что код UBY лицензируется на основе сочетания бесплатных лицензий, таких как GPL и CC by SA, некоторые из включенных ресурсов находятся под разными лицензиями, например только для академического использования..

Существует также версия UBY для семантической паутины, которая называется лимонUby. лимонUby основан на модели лимона, предложенной в проекте Monnet. лимон - это модель для моделирования лексики и машиночитаемых словарей, связанная с семантической сетью и облаком связанных данных.

UBY против BabelNet

BabelNet - это автоматически лексико-семантический ресурс, который связывает Wikipedia с наиболее популярными вычислительными лексиконами, такими как WordNet. На первый взгляд, UBY и BabelNet кажутся идентичными и конкурентоспособными проектами; однако эти два ресурса придерживаются разной философии. На начальном этапе BabelNet была основана в первую очередь на согласовании WordNet и Википедии, что по самой природе Википедии подразумевает сильное внимание существительным и особенно именованным объектам. Позже фокус BabelNet был смещен в сторону других частей речи. Однако UBY с самого начала был сфокусирован на информации о глаголах, особенно на синтаксической информации, которая содержится в ресурсах, таких как VerbNet или FrameNet. Еще одно важное отличие состоит в том, что UBY моделирует другие ресурсы полностью и независимо друг от друга, так что UBY можно использовать в качестве полной замены каждого из содержащихся ресурсов. Коллективный доступ к множеству ресурсов обеспечивается за счет согласования доступных ресурсов. Более того, модель LMF в UBY обеспечивает единый способ доступа как для всех, так и для отдельных ресурсов. Между тем, BabelNet следует подходу, аналогичному WordNet, и записывает выбранные типы информации в так называемые Babel Synsets. Это делает доступ и обработку знаний более удобными, однако стирает границы между связанными базами знаний. Кроме того, BabelNet обогащает исходные ресурсы, например, предоставляя автоматически созданные переводы для концепций, которые не лексикализованы на определенном языке. Хотя это обеспечивает значительное расширение охвата многоязычных приложений, автоматический вывод информации всегда подвержен определенной степени ошибок.

Таким образом, из-за перечисленных различий между двумя ресурсами использование одного или другого может быть предпочтительным в зависимости от конкретного сценария приложения. Фактически, эти два ресурса можно использовать для предоставления обширных лексикографических знаний, особенно если они связаны друг с другом. Открытая и хорошо задокументированная структура этих двух ресурсов является важной вехой для достижения этой цели.

Приложения

UBY успешно использовался в различных задачах НЛП, таких как Устранение неоднозначности слов, кластеризация смысла слов, маркировка смысла глагола и классификация текста. UBY также вдохновил другие проекты по автоматическому построению лексико-семантических ресурсов. Кроме того, лимонUby использовался для улучшения результатов машинного перевода, особенно для поиска переводов неизвестных слов.

См. Также

Внешние ссылки

Ссылки