WordNet

редактировать

Вычислительная лексика английского языка

WordNet
Снимок определения WordNet самого себя.
Разработчик (и)	Принстонский университет
Первоначальный выпуск	середина 1980-х гг.

Стабильный выпуск	3.1 / июнь 2011 г.; 9 лет назад (2011-06)

Написано на	Prolog
Операционная система	Unix, Linux, Solaris, Windows
Размер	16 МБ (включая 155 327 слов, организованных в 175 979 синсетов для всего 207 016 пар смысловых слов)
Доступно на	Более 200 языков
Тип	Лексическая база данных
Лицензия	BSD-подобный
Веб-сайт	wordnet.princeton.edu

WordNet - это лексическая база данных семантических отношений между словами на более чем 200 языках. WordNet связывает слов в семантические отношения, включая синонимы, гипонимы и меронимы. Синонимы сгруппированы в синсеты с краткими определениями и примерами использования. Таким образом, WordNet можно рассматривать как комбинацию и расширение словаря и тезауруса. Хотя он доступен для пользователей через веб-браузер, его основное использование - в приложениях автоматического анализа текста и искусственного интеллекта. WordNet был впервые создан на английском языке, а инструменты программного обеспечения для базы данных и английского WordNet были выпущены под лицензией BSD и являются свободно доступны для загрузки с этого веб-сайта WordNet.

Содержание

1 История и члены команды
2 Содержание базы данных
3 Структура знаний
4 Психолингвистические аспекты
5 Как лексическая онтология
6 Ограничения
- 6.1 Оскорбительное содержание
- 6.2 Лицензионные и открытые WordNets
7 Приложения
8 Интерфейсы
9 Связанные проекты и расширения
- 9.1 Глобальная ассоциация WordNet
- 9.2 Другие языки
- 9.3 Связанные данные
- 9.4 Связанные проекты
10 Распространение
11 См. также
12 Ссылки
13 Внешние ссылки

История и члены команды

WordNet был впервые создан на английском языке только в Cognitive Science Лаборатория Принстонского университета под руководством психолога профессора Джорджа Армитиджа Миллера с 1985 года и руководит ею в последние годы Автор Christiane Fellbaum. Первоначально проект финансировался Управлением военно-морских исследований США, а затем и другими правительственными учреждениями США, включая DARPA, Национальный научный фонд, Управление подрывных технологий <99.>(бывшее направление перспективных исследований и разработок) и REFLEX. Джордж Миллер и Кристиана Феллбаум были награждены премией Антонио Замполли 2006 года за свою работу с WordNet.

Глобальная ассоциация WordNet - это некоммерческая организация, которая предоставляет платформу для обсуждения, обмена и подключения WordNets для всех языков мира, а также имеет Christiane Fellbaum и Piek Th.J.M. Фоссен и сопрезиденты.

Содержимое базы данных

Пример записи «Гамбургер» в WordNet

База данных содержит 155 327 слов, организованных в 175 979 синсетов, всего 207 016 смысловых пар; в сжатой форме его размер составляет около 12 мегабайт.

WordNet включает лексические категории существительные, глаголы, прилагательные и наречия, но игнорируют предлоги, определители и другие служебные слова.

Слова из одной и той же лексической категории, которые примерно синонимичны, группируются в синсеты. Синсеты включают симплексные слова, а также словосочетания , такие как «поесть вне дома» и «автомобильный пул». Разные смыслы многозначной словоформы присваиваются разным синсетам. Значение синсета дополнительно поясняется с помощью краткого определения и одного или нескольких примеров использования. Пример прилагательного синсет:

хороший, правильный, спелый - (наиболее подходящий или правильный для конкретной цели; «хорошее время для посадки помидоров»; «подходящее время для действий»; «время для великих социологических changes ")

Все синсеты связаны с другими наборами посредством семантических отношений. Эти отношения, не все общие для всех лексических категорий, включают:

Существительные
- гиперонимы : Y является гипернимом X, если каждый X является (разновидностью) Y (canine является гиперонимом собака )
- гипонимы : Y - это гипоним X, если каждый Y является (разновидностью) X (собака - это гипоним собаки)
- термины координат: Y - член координат X, если X и Y имеют общий гипероним (волк - это координата собаки, а собака - координата волка)
- мероним : Y - мероним X, если Y является частью X (окно мероним строительства)
- холоним : Y - холоним X, если X является частью Y (здание - холоним окна)
Глаголы
- гипероним: глагол Y является гиперонимом глагол X, если действие X является (разновидностью) Y (воспринимать является гиперонимом слова "слушать")
- тропоним : глагол Y является тропонимом глагола X, если действие Y выполняет X в каким-то образом (шепелявить - тропоним говорить)
- влечет : глагол Y влечет за собой X, если, делая X, вы должны делать Y (спать - это entai led by to snore)
- координировать термины: эти глаголы имеют общий гипероним (шепелявить и кричать)

Эти семантические отношения сохраняются между всеми членами связанных синсетов. Отдельные члены синсета (слова) также могут быть связаны лексическими отношениями. Например, (в одном смысле) существительное «директор» связано (в одном смысле) с глаголом «прямой», от которого оно образовано, посредством «морфосемантической» связи.

Морфологические функции программного обеспечения, распространяемого с базой данных, пытаются вывести лемму или основную форму слова из введенных пользователем данных. Неправильные формы хранятся в списке, и поиск «съел» вернет, например, «есть».

Структура знаний

И существительные, и глаголы организованы в иерархии, определяемые отношениями hypernym или IS A. Например, одно значение слова «собака» встречается в соответствии с гиперонимной иерархией; слова на том же уровне представляют членов синсета. Каждый набор синонимов имеет уникальный индекс.

собака, домашняя собака, Canis familis
- canine, canid
  - carnivore
    - плацентарный, плацентарный млекопитающий, eutherian, eutherian млекопитающий
      - млекопитающее
        позвоночное, черепное
        хордовое
        животное, одушевленное существо, зверь, животное, существо, фауна
        ...

На верхнем уровне эти иерархии организованы в 25 "деревьев" для начинающих для существительных и 15 для глаголов (называемых лексикографическими файлами на уровне обслуживания). Все они связаны с уникальным синсетом для начинающих, "entity". Иерархия существительных намного глубже иерархии глаголов

Прилагательные не организованы в иерархические деревья. Вместо этого два «центральных» антонима, таких как «горячий» и «холодный», образуют бинарные полюса, тогда как «спутниковые» синонимы, такие как «дымящийся» и «холодный», соединяются со своими соответствующими полюсами через отношения «подобия». Таким образом, прилагательные можно представить как «гантели», а не как «деревья».

Психолингвистические аспекты

Первоначальной целью проекта WordNet было создание лексической базы данных, которая согласовывалась бы с теориями семантической памяти человека, разработанными в конце 1960-х годов. Психологические эксперименты показали, что говорящие организовали свои знания концепций экономическим, иерархическим образом. Время поиска, необходимое для доступа к концептуальным знаниям, казалось, напрямую связано с количеством иерархий, которые говорящему необходимо «пройти», чтобы получить доступ к знаниям. Таким образом, выступающие могли быстрее проверить, что канарейки могут петь, потому что канарейка - певчая птица, но потребовалось немного больше времени, чтобы убедиться, что канарейки могут летать (где они должны были получить доступ к понятию «птица» на более высоком уровне), и еще больше времени, чтобы убедиться, что у канарейки есть кожа (требуется поиск на нескольких уровнях гипонимии, вплоть до «животного»). Хотя такие психолингвистические эксперименты и лежащие в их основе теории подвергались критике, некоторые из организации WordNet согласуются с экспериментальными данными. Например, аномная афазия выборочно влияет на способность говорящих произносить слова из определенной семантической категории, иерархии WordNet. Антонимные прилагательные (центральные прилагательные WordNet в структуре гантелей) встречаются гораздо чаще, чем случайность, факт, который, как было установлено, справедлив для многих языков.

В качестве лексической онтологии

WordNet иногда называют онтологией, постоянным заявлением, которого не делают его создатели. Отношения гипероним / гипоним среди синсетов существительных можно интерпретировать как отношения специализации между концептуальными категориями. Другими словами, WordNet можно интерпретировать и использовать как лексическую онтологию в смысле информатики. Однако такая онтология должна быть исправлена перед использованием, потому что она содержит сотни основных семантических несоответствий; например, есть: (i) общие специализации для исключительных категорий и (ii) избыточность в иерархии специализаций. Более того, преобразование WordNet в лексическую онтологию, используемую для представления знаний, обычно также должно включать (i) различение отношений специализации на отношения subtypeOf и instanceOf и (ii) привязку интуитивно понятных уникальных идентификаторов к каждой категории. Хотя такие исправления и преобразования были выполнены и задокументированы как часть интеграции WordNet 1.7 в совместно обновляемую базу знаний WebKB-2, большинство проектов утверждают, что повторно используют WordNet для приложений, основанных на знаниях (обычно, поиск информации, ориентированный на знания).) просто повторно используйте его напрямую.

WordNet также был преобразован в формальную спецификацию с помощью гибридной восходящей и нисходящей методологии для автоматического извлечения ассоциативных отношений из WordNet и интерпретации этих ассоциаций в терминах набора концептуальных отношений, формально определено в базовой онтологии DOLCE.

. В большинстве работ, в которых утверждается, что WordNet интегрирован в онтологии, содержимое WordNet не просто исправлялось, когда это казалось необходимым; вместо этого WordNet был сильно переинтерпретирован и обновлен по мере необходимости. Так было, например, когда онтология верхнего уровня WordNet была реструктурирована в соответствии с подходом на основе OntoClean или когда WordNet использовался в качестве основного источника для построения нижних классов онтологии SENSUS..

Ограничения

Наиболее широко обсуждаемое ограничение WordNet (и связанных ресурсов, таких как ImageNet ) заключается в том, что некоторые из семантических отношений больше подходят для конкретные концепции, чем абстрактные концепции. Например, легко создать отношения гипонимов / гиперонимов, чтобы зафиксировать, что «хвойное дерево » является типом «дерево », «дерево» - типом «растение », а« растение »- это тип« организма », но трудно разделить эмоции, такие как« страх »или« счастье », на столь же глубокие и четко определенные гипонимы / гиперным отношениям.

Многие концепции WordNet специфичны для определенных языков, и наиболее точное соответствие между языками составляет 94%. Синонимы, гипонимы, меронимы и антонимы встречаются на всех языках, где есть WordNet, но другие семантические отношения зависят от языка. Это ограничивает взаимодействие между языками. Однако он также делает WordNet ресурсом для выделения и изучения различий между языками, поэтому это не обязательно ограничение для всех случаев использования.

WordNet не включает информацию об этимологии или произношении слов и содержит только ограниченную информацию об использовании. WordNet стремится охватить большинство повседневных слов и не включает много предметной терминологии.

WordNet - это наиболее часто используемый вычислительный лексикон английского языка для устранения неоднозначности слов (WSD), задачи, направленной на присвоение контекстно-зависимых значений (т. Е. Элементов синсета) словам в тексте.. Однако утверждалось, что WordNet кодирует слишком мелкие смысловые различия. Эта проблема не позволяет системам WSD достичь уровня производительности, сопоставимого с производительностью людей, которые не всегда соглашаются, когда сталкиваются с задачей выбора смысла из словаря, который соответствует слову в контексте. Проблема детализации была решена путем предложения методов кластеризации, которые автоматически группируют сходные значения одного и того же слова.

Оскорбительное содержание

WordNet включает слова, которые можно воспринимать как уничижительный или оскорбительный. Интерпретация слова может меняться с течением времени и в зависимости от социальных групп, поэтому WordNet не всегда может определить слово как «уничижительное » или « наступление "изолированно". Следовательно, люди, использующие WordNet, должны применять свои собственные методы для определения оскорбительных или уничижительных слов.

Однако это ограничение распространяется и на другие лексические ресурсы, такие как словари и тезаурусы, которые также содержат уничижительные и оскорбительные слова. Некоторые словари указывают слова, которые являются уничижительными, но не включают все контексты, в которых слова могут быть приемлемыми или оскорбительными для различных социальных групп. Поэтому люди, использующие словари, должны применять свои собственные методы для выявления всех оскорбительных слов.

Лицензированные и открытые сети WordNets

Некоторые сети слов были впоследствии созданы для других языков. В опросе 2012 года перечислены сети слов и их доступность. Стремясь распространить использование WordNets, глобальное сообщество WordNet медленно перелицензировало свои WordNet в открытый домен, где исследователи и разработчики могут легко получить доступ и использовать WordNets в качестве языковых ресурсов для предоставления онтологических и лексические знания в задачах Обработка естественного языка.

Open Multilingual WordNet предоставляет доступ к открытым лицензированным сетям слов на различных языках, все они связаны с Princeton Wordnet of English (PWN). Цель состоит в том, чтобы упростить использование сетей слов на нескольких языках.

Приложения

WordNet использовался для ряда целей в информационных системах, включая устранение многозначности слов, поиск информации, автоматическая классификация текста, автоматическое суммирование текста, машинный перевод и даже автоматическое создание кроссвордов.

Обычно WordNet используется для определения сходства между словами. Были предложены различные алгоритмы, в том числе измерение расстояния между словами и наборами синхросигналов в структуре графа WordNet, например, путем подсчета количества ребер среди наборов синхросигналов. Интуиция подсказывает, что чем ближе два слова или синсета, тем ближе их значение. Ряд алгоритмов подобия слов на основе WordNet реализован в пакете Perl под названием WordNet :: Similarity и в пакете Python под названием NLTK. Другие более сложные методы подобия на основе WordNet включают ADW, реализация которого доступна в Java. WordNet также может использоваться для связывания других словарей.

Интерфейсы

Princeton ведет список связанных проектов, который включает ссылки на некоторые из широко используемых интерфейсов прикладного программирования доступен для доступа к WordNet с использованием различных языков программирования и сред.

Связанные проекты и расширения

WordNet подключен к нескольким базам данных Semantic Web. WordNet также часто повторно используется через сопоставления между наборами синтаксиса WordNet и категориями из онтологий. Чаще всего отображаются только категории верхнего уровня WordNet.

Глобальная ассоциация WordNet

Глобальная ассоциация WordNet (GWA) - это общественная некоммерческая организация, которая предоставляет платформу для обсуждения, обмена и соединения сетей WordNet для всех языков мира. GWA также способствует стандартизации сетей слов в разных языках, чтобы обеспечить единообразие при перечислении синсетов в человеческих языках. GWA ведет список сетей слов, разработанных по всему миру.

Другие языки

арабский WordNet : WordNet для арабского языка.
Arabic Ontology, лингвистическая онтология, имеющая такую же
В рамках проекта BalkaNet были созданы сети WordNets для шести европейских языков (болгарский, чешский, греческий, румынский, турецкий и сербский). Для этого проекта был разработан бесплатный редактор WordNet на основе XML. Этот редактор - VisDic - больше не находится в активной разработке, но все еще используется для создания различных WordNets. Его преемник, DEBVisDic, является клиент-серверным приложением и в настоящее время используется для редактирования нескольких WordNets (голландский в проекте Cornetto, польский, венгерский, несколько африканских языков, китайский).
BulNet - болгарская версия WordNet разработан на кафедре компьютерной лингвистики Института болгарского языка Болгарской академии наук.
CWN (китайский Wordnet или 中文詞彙網路) при поддержке Национального университета Тайваня.
В рамках проекта EuroWordNet были созданы сети WordNets для нескольких европейских языков и объединены их вместе; однако они не доступны в свободном доступе. Проект Global Wordnet пытается координировать создание и объединение «сетей слов» для всех языков. Oxford University Press, издатель Оксфордского словаря английского языка, озвучил планы по созданию собственных онлайн-конкурент WordNet.
FinnWordNet - это финская версия WordNet, где были переведены все статьи оригинального английского WordNet.
GermaNet - это немецкая версия WordNet, разработанная Тюбингенским университетом.
IndoWordNet - это связанная лексическая база знаний из словарных сетей 18 запланированных языков Индии, а именно, ассамский, бангла, Бодо, гуджарати, хинди, каннада, кашмирский, конкани, малаялам, мэйтей (манипури), маратхи, непальский, Одиа, пенджаби, Санскрит, тамильский, телугу и урду.
JAWS (просто еще одно подмножество WordNet), еще одна французская версия WordNet, построенная с использованием t Викисловарь и семантические пространства
WordNet Bahasa : WordNet для малайского и индонезийского языков, разработанный Технологический университет Наньяна.
Малаялам WordNet, разработанный Кочинский университет науки и технологий.
Многоязычный центральный репозиторий (MCR) интегрируется в ту же платформу EuroWordNet, как и английский язык с испанского, каталонского, баскского, галисийского и португальского языков.
Проект MultiWordNet, многоязычный WordNet, нацеленный на создание итальянской WordNet. согласовано с Princeton WordNet.
OpenDutchWordNet, голландская лексико-семантическая база данных.
OpenWN-PT - бразильская португальская версия оригинальной WordNet, свободно доступная для загрузки по лицензии CC-BY-SA.
plWordNet - это польскоязычная версия WordNet, разработанная Вроцлавским технологическим университетом.
PolNet - это польскоязычная версия WordNet, разработанная Университетом Адама Мицкевича в Познани (распространяется под CC BY-NC-ND 3.0 вшей nse).

Такие проекты, как BalkaNet и EuroWordNet, сделали возможным создание автономных сетей слов, связанных с исходной. Одним из таких проектов стал русский WordNet под патронатом Петербургский государственный университет средств коммуникации под руководством С.А. Яблонского или Русснет от Санкт-Петербургского государственного университета

UWN - это автоматически построенная многоязычная база лексических знаний, расширяющая WordNet чтобы охватить более миллиона слов на разных языках.
WOLF (WordNet Libre du Français), французская версия WordNet.

Связанные данные

BabelNet, очень большой многоязычный семантическая сеть с миллионами концепций, полученных путем интеграции WordNet и Википедии с использованием алгоритма автоматического сопоставления.
Онтология SUMO создала сопоставление между всеми синсетами WordNet (включая существительные, глаголы, прилагательные и наречия) и классы SUMO. Последнее добавление сопоставлений предоставляет ссылки на все более конкретные термины в онтологии уровня MId (MILO), которая расширяет SUMO.
OpenCyc, открытая онтология и база знаний повседневных знаний здравого смысла, содержит 12 000 терминов, связанных с наборами синонимов WordNet.
DOLCE - первый модуль библиотеки базовых онтологий WonderWeb (WFOL). Эта верхняя онтология была разработана в свете строгих онтологических принципов, вдохновленных философской традицией, с четкой ориентацией на язык и познание. OntoWordNet - это результат экспериментального согласования верхнего уровня WordNet с DOLCE. Предполагается, что такое согласование может привести к «онтологически подслащенному» WordNet, который должен быть концептуально более строгим, когнитивно прозрачным и эффективно используемым в нескольких приложениях.
DBpedia, база данных структурированной информации, связана с WordNet.
eXtended WordNet - это проект Техасского университета в Далласе, который направлен на улучшение WordNet путем семантического анализа глосс, что позволяет сделать информацию, содержащуюся в эти определения доступны для систем автоматической обработки знаний. Он находится в свободном доступе под лицензией, аналогичной WordNet.
В рамках проекта GCIDE был создан словарь путем объединения общедоступного словаря Вебстера с 1913 года. с некоторыми определениями WordNet и материалами, предоставленными добровольцами. Он был выпущен под лицензией copyleft GPL.
ImageNet - это база данных изображений, организованная в соответствии с иерархией WordNet (в настоящее время только существительные), в которой изображен каждый узел иерархии. сотнями и тысячами изображений. В настоящее время он имеет в среднем более 500 изображений на узел.
BioWordnet, биомедицинское расширение Wordnet было прекращено из-за проблем со стабильностью по сравнению с версиями.
WikiTax2WordNet, сопоставление между наборами синсетов WordNet и 165>Категории Википедии.
WordNet ++, ресурс, включающий более миллионов семантических границ, собранных из Википедии, и соединяющих пары наборов синсетов WordNet.
SentiWordNet, ресурс для поддержки приложений сбора мнений, полученных путем тегирования всех наборов синтаксических данных WordNet 3.0 в соответствии с их предполагаемой степенью положительности, отрицательности и нейтральности.
ColorDict - это Android-приложение для мобильных телефонов, использующих базу данных Wordnet и другие, например Википедию.
UBY-LMF база данных 10 ресурсов, включая WordNet.

Связанные проекты

FrameNet - это лексическая база данных, которая имеет некоторое сходство с WordNet и ссылается на нее.
Структура лексической разметки (LMF) - это указанный стандарт ISO в пределах ISO / TC37, чтобы определить общую стандартизированную структуру для построения лексиконов, включая WordNet. Подмножество LMF для Wordnet называется Wordnet-LMF. В рамках проекта KYOTO был создан экземпляр.
Программа UNL - это проект под эгидой UNO, направленный на консолидацию лексико-семантических данных многих языков для использования в машинном переводе и извлечение информации системы.

Распространение

База данных WordNet распространяется в виде пакета словарей (обычно в виде одного файла) для следующего программного обеспечения:

См. Также

Ссылки

Внешние ссылки

Официальный сайт
" Малаялам WordNet ". Информационные технологии. Кочинский университет науки и технологий.
Пилато, Мария. Тезаурус прилагательных, усилителей, отрицаний (AIN). Итальянские настроения.