Автоматическое получение корпусов с сенсорными тегами

редактировать

Узкое место приобретения знаний, возможно, является основным препятствием для решения проблема устранения неоднозначности (WSD). Неконтролируемое обучение методы основаны на знаниях о значениях слов, которые едва ли сформулированы в словарях и лексических базах данных. Методы контролируемого обучения в значительной степени зависят от наличия вручную аннотированных примеров для каждого смысла слова, требование, которое пока может быть выполнено только для нескольких слов в целях тестирования, как это сделано в Senseval упражнения.

Содержание

1 Существующие методы
2 Резюме
- 2.1 Оптимистичные результаты
- 2.2 Трудности
- 2.3 Будущее
3 Ссылки

Существующие методы

Следовательно, один из наиболее многообещающих тенденций в исследовании WSD является использование самого большого из когда-либо доступных, World Wide Web, для автоматического получения лексической информации. WSD традиционно понимается как технология разработки промежуточного языка, которая может улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые машины в Интернете реализуют простые и надежные методы IR, которые можно успешно использовать при добыче информации в Интернете для использования в WSD.

Самый прямой способ использования Интернета (и других корпусов ) для повышения производительности WSD - это автоматическое получение корпусов с тегами смысла, основного ресурса для кормления контролируемых Алгоритмы WSD. Хотя это далеко не обычное дело в литературе по WSD, уже был предложен ряд различных и эффективных стратегий для достижения этой цели. Вот некоторые из этих стратегий:

получение путем прямого веб-поиска (поиск одноименных синонимов, гиперонимов, гипонимов, проанализированных слов и т. Д.),
алгоритм Яровского (самонастройка),
получение через веб-каталоги и
получение через свидетельства межъязыкового значения.

Резюме

Оптимистичные результаты

Рассмотренное автоматическое извлечение примеров для обучения алгоритмов контролируемого обучения на сегодняшний день является наиболее изученным подходом к поиску в Интернете для устранения неоднозначности слов. Некоторые результаты, безусловно, обнадеживают:

В некоторых экспериментах качество веб-данных для WSD совпадает с качеством помеченных людьми примеров. Это случай однообразных родственников плюс самозагрузка с использованием техники Semcor Seed и примеров, взятых из каталогов ODP Web. В первом случае, однако, необходимы семена-примеры размера Semcor (и доступны только для английского языка), и он был протестирован только с очень ограниченным набором существительных; во втором случае охват весьма ограничен, и пока не ясно, можно ли его расширить без ущерба для качества извлеченных примеров.
Было показано, что распространенная техника контролируемого обучения, обученная исключительно с Веб-данные могут получить лучшие результаты, чем все неконтролируемые системы WSD, которые участвовали в Senseval-2.
Веб-примеры внесли значительный вклад в лучшую систему всех слов для английского языка Senseval-2.

Трудности

Однако есть несколько открытых исследовательских проблем, связанных с использованием веб-примеров в WSD:

Высокая точность в извлеченных примерах (т. Е. Правильное назначение смысла для примеров) не обязательно приводит к хорошим контролируемым результатам WSD ( т.е. примеры, возможно, бесполезны для обучения).
Наиболее полная оценка веб-примеров для контролируемого WSD показывает, что обучение с использованием веб-данных лучше, чем неконтролируемые методы, но результаты, тем не менее, далеки от результатов, полученных вручную -помеченные данные и даже не превосходят базовый уровень наиболее часто встречающегося.
Результаты не всегда воспроизводимы; одинаковые или похожие методы могут привести к разным результатам в разных экспериментах. Сравните, например, Михалча (2002) с Агирре и Мартинесом (2004) или Агирре и Мартинес (2000) с Михалча и Молдован (1999). Результаты с веб-данными кажутся очень чувствительными к небольшим различиям в алгоритме обучения, к тому, когда был извлечен корпус (поисковые системы постоянно меняются), и к небольшим эвристическим проблемам (например, различия в фильтрах для исключения части полученных примеров).
Результаты сильно зависят от систематической ошибки (т. Е. От относительной частоты примеров в каждом смысле слова). Неясно, является ли это просто проблемой веб-данных или внутренней проблемой методов контролируемого обучения, или просто проблемой того, как оцениваются системы WSD (действительно, тестирование с довольно небольшими данными Senseval может переоценить смысловые распределения по сравнению с полученными смысловыми распределениями. из всей сети в виде корпуса).
В любом случае веб-данные имеют внутреннюю предвзятость, поскольку запросы к поисковым системам напрямую ограничивают контекст извлеченных примеров. Существуют подходы, которые облегчают эту проблему, такие как использование нескольких различных начальных значений / запросов для каждого чувства или присвоение смыслов веб-каталогам с последующим сканированием каталогов в поисках примеров; но эта проблема, тем не менее, далека от решения.
После создания корпуса веб-примеров не совсем ясно, безопасно ли его распространение с юридической точки зрения.

Будущее

Помимо автоматического получения примеров из Интернета, есть еще несколько экспериментов WSD, которые извлекли выгоду из Интернета:

Интернет как социальная сеть успешно использовался для совместной аннотации корпуса (OMWE, Open Mind Word Expert project), который уже использовался в трех задачах Senseval-3 (английский, румынский и многоязычный).
Интернет использовался для обогащения смыслов WordNet информацией о предметной области: подписями тем и веб-каталогами, которые, в свою очередь, успешно использовались для WSD.
Кроме того, некоторые исследования извлекли пользу из семантической информации, содержащейся в Википедии.

Однако очевидно, что большинство возможности исследования остаются в значительной степени неизученными. Например, мало что известно о том, как использовать лексическую информацию, извлеченную из Интернета, в системах WSD, основанных на знаниях; Кроме того, трудно найти системы, использующие параллельные корпуса с веб-майнингом для WSD, хотя уже существуют эффективные алгоритмы, использующие параллельные корпуса в WSD.

Ссылки