Пометка части речи на основе скользящего окна используется для части- of-speech тег текст.
Высокий процент слов в естественном языке - это слова, которые вне контекста могут быть отнесены к более чем одной части речи. Процент этих неоднозначных слов обычно составляет около 30%, хотя это сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработки естественного языка. Например, в машинном переводе изменение части речи слова может резко изменить его перевод.
Тегеры части речи на основе скользящего окна - это программы, которые назначают одну часть речи данной лексической форме слова, просматривая «окно» фиксированного размера слов вокруг слова, чтобы быть устранена неоднозначность.
Двумя основными преимуществами этого подхода являются:
- Можно автоматически обучать тегировщик, избавляясь от необходимости вручную добавлять теги к корпусу.
- Тегер может быть реализован как конечный автомат (машина Мили )
Формальное определение
Пусть
- набор грамматических тегов приложения, которые - это набор всех возможных тегов, которые могут быть назначены слову, и пусть
- словарь приложения. Пусть
- функция для морфологического анализа, которая присваивает каждому его набор возможных тегов, , это может быть реализуется полной лексикой или морфологическим анализатором. Пусть
набор классов слов, которые в общим будет раздел из с ограничением, что для каждого все слова получат один и тот же набор тегов, то есть все слова в каждый класс слов принадлежит к одному и тому же классу неоднозначности.
Обычно строится таким образом, что для часто встречающихся слов каждый класс слов содержит одно слово, а для низкочастотных слов каждое слово class соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для часто встречающихся неоднозначных слов и не требует слишком большого количества параметров для теггера.
С помощью этих определений можно сформулировать проблему следующим образом: Для данного текста каждому слову присваивается слово class (либо с помощью лексики, либо с помощью морфологического анализатора), чтобы получить неоднозначное текст с тегами . Задача теггера - получить текст с тегами (с ) так же правильно, как возможный.
Статистический теггер ищет наиболее вероятный тег для текста с неоднозначными тегами :
Используя формулу Байеса, это преобразуется в:
где - вероятность того, что конкретный тег (синтаксический вероятность) и - вероятность того, что этот тег соответствует тексту (лексическая вероятность).
В модели Маркова эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:
где и - символы-разделители.
Лексические вероятности не зависят от контекста:
Одной из форм тегирования является аппроксимация первой формулы вероятности:
где - правильный контекст размера .
Таким образом, алгоритм скользящего окна должен учитывать только контекст размером . Для большинства приложений . Например, чтобы пометить неоднозначное слово «беги» в предложении «Он бежит от опасности», необходимо учитывать только теги слов «Он» и «от».
Дополнительная литература
- Санчес-Вильямил, Э., Форкада, М. Л., и Карраско, Р. С. (2005). «Неконтролируемое обучение конечного тега части речи с скользящим окном ». Lecture Notes in Computer Science / Lecture Notes in Artificial Intelligence, vol. 3230, стр. 454-463