Узкое место приобретения знаний, возможно, является основным препятствием для решения проблема устранения неоднозначности (WSD). Неконтролируемое обучение методы основаны на знаниях о значениях слов, которые едва ли сформулированы в словарях и лексических базах данных. Методы контролируемого обучения в значительной степени зависят от наличия вручную аннотированных примеров для каждого смысла слова, требование, которое пока может быть выполнено только для нескольких слов в целях тестирования, как это сделано в Senseval упражнения.
Содержание
- 1 Существующие методы
- 2 Резюме
- 2.1 Оптимистичные результаты
- 2.2 Трудности
- 2.3 Будущее
- 3 Ссылки
Существующие методы
Следовательно, один из наиболее многообещающих тенденций в исследовании WSD является использование самого большого из когда-либо доступных, World Wide Web, для автоматического получения лексической информации. WSD традиционно понимается как технология разработки промежуточного языка, которая может улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые машины в Интернете реализуют простые и надежные методы IR, которые можно успешно использовать при добыче информации в Интернете для использования в WSD.
Самый прямой способ использования Интернета (и других корпусов ) для повышения производительности WSD - это автоматическое получение корпусов с тегами смысла, основного ресурса для кормления контролируемых Алгоритмы WSD. Хотя это далеко не обычное дело в литературе по WSD, уже был предложен ряд различных и эффективных стратегий для достижения этой цели. Вот некоторые из этих стратегий:
- получение путем прямого веб-поиска (поиск одноименных синонимов, гиперонимов, гипонимов, проанализированных слов и т. Д.),
- алгоритм Яровского (самонастройка),
- получение через веб-каталоги и
- получение через свидетельства межъязыкового значения.
Резюме
Оптимистичные результаты
Рассмотренное автоматическое извлечение примеров для обучения алгоритмов контролируемого обучения на сегодняшний день является наиболее изученным подходом к поиску в Интернете для устранения неоднозначности слов. Некоторые результаты, безусловно, обнадеживают:
- В некоторых экспериментах качество веб-данных для WSD совпадает с качеством помеченных людьми примеров. Это случай однообразных родственников плюс самозагрузка с использованием техники Semcor Seed и примеров, взятых из каталогов ODP Web. В первом случае, однако, необходимы семена-примеры размера Semcor (и доступны только для английского языка), и он был протестирован только с очень ограниченным набором существительных; во втором случае охват весьма ограничен, и пока не ясно, можно ли его расширить без ущерба для качества извлеченных примеров.
- Было показано, что распространенная техника контролируемого обучения, обученная исключительно с Веб-данные могут получить лучшие результаты, чем все неконтролируемые системы WSD, которые участвовали в Senseval-2.
- Веб-примеры внесли значительный вклад в лучшую систему всех слов для английского языка Senseval-2.
Трудности
Однако есть несколько открытых исследовательских проблем, связанных с использованием веб-примеров в WSD:
- Высокая точность в извлеченных примерах (т. Е. Правильное назначение смысла для примеров) не обязательно приводит к хорошим контролируемым результатам WSD ( т.е. примеры, возможно, бесполезны для обучения).
- Наиболее полная оценка веб-примеров для контролируемого WSD показывает, что обучение с использованием веб-данных лучше, чем неконтролируемые методы, но результаты, тем не менее, далеки от результатов, полученных вручную -помеченные данные и даже не превосходят базовый уровень наиболее часто встречающегося.
- Результаты не всегда воспроизводимы; одинаковые или похожие методы могут привести к разным результатам в разных экспериментах. Сравните, например, Михалча (2002) с Агирре и Мартинесом (2004) или Агирре и Мартинес (2000) с Михалча и Молдован (1999). Результаты с веб-данными кажутся очень чувствительными к небольшим различиям в алгоритме обучения, к тому, когда был извлечен корпус (поисковые системы постоянно меняются), и к небольшим эвристическим проблемам (например, различия в фильтрах для исключения части полученных примеров).
- Результаты сильно зависят от систематической ошибки (т. Е. От относительной частоты примеров в каждом смысле слова). Неясно, является ли это просто проблемой веб-данных или внутренней проблемой методов контролируемого обучения, или просто проблемой того, как оцениваются системы WSD (действительно, тестирование с довольно небольшими данными Senseval может переоценить смысловые распределения по сравнению с полученными смысловыми распределениями. из всей сети в виде корпуса).
- В любом случае веб-данные имеют внутреннюю предвзятость, поскольку запросы к поисковым системам напрямую ограничивают контекст извлеченных примеров. Существуют подходы, которые облегчают эту проблему, такие как использование нескольких различных начальных значений / запросов для каждого чувства или присвоение смыслов веб-каталогам с последующим сканированием каталогов в поисках примеров; но эта проблема, тем не менее, далека от решения.
- После создания корпуса веб-примеров не совсем ясно, безопасно ли его распространение с юридической точки зрения.
Будущее
Помимо автоматического получения примеров из Интернета, есть еще несколько экспериментов WSD, которые извлекли выгоду из Интернета:
- Интернет как социальная сеть успешно использовался для совместной аннотации корпуса (OMWE, Open Mind Word Expert project), который уже использовался в трех задачах Senseval-3 (английский, румынский и многоязычный).
- Интернет использовался для обогащения смыслов WordNet информацией о предметной области: подписями тем и веб-каталогами, которые, в свою очередь, успешно использовались для WSD.
- Кроме того, некоторые исследования извлекли пользу из семантической информации, содержащейся в Википедии.
Однако очевидно, что большинство возможности исследования остаются в значительной степени неизученными. Например, мало что известно о том, как использовать лексическую информацию, извлеченную из Интернета, в системах WSD, основанных на знаниях; Кроме того, трудно найти системы, использующие параллельные корпуса с веб-майнингом для WSD, хотя уже существуют эффективные алгоритмы, использующие параллельные корпуса в WSD.
Ссылки