Лемматизация

редактировать

Лемматизация (or лемматизация ) в лингвистике - это процесс группирования вместе изменяемых форм слова, чтобы их можно было проанализировать как единый элемент, идентифицированный по словарной лемме или словарной форме.

В компьютерной лингвистике лемматизация - это алгоритмический процесс определения леммы слова на основе от предполагаемого значения. В отличие от корня, лемматизация зависит от правильного определения предполагаемой части речи и значения слова в предложении, а также в рамках более крупного контекста, окружающего это предложение., например, соседние предложения или даже весь документ. В результате разработка эффективных алгоритмов лемматизации является открытой областью исследований.

Содержание

  • 1 Описание
  • 2 Алгоритмы
  • 3 Реализации
  • 4 Использование в биомедицине
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки

Описание

Во многих языках слова появляются в нескольких формах склонения. Например, в английском языке глагол «ходить» может выглядеть как «ходить», «гулять», «ходить» или «ходить». Базовая форма «прогулка», которую можно найти в словаре, называется леммой для слова. Связь основной формы с частью речи часто называется лексемой слова.

Лемматизация тесно связана с основанием. Разница в том, что стеммер оперирует одним словом без знания контекста и, следовательно, не может различать слова, которые имеют разное значение в зависимости от части речи. Однако стеммеры, как правило, проще в установке и работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в информационно-поисковых системах, определение границ улучшает точность повторения запроса или истинно положительную скорость по сравнению с лемматизацией. Тем не менее, стемминг снижает точность или истинное отрицательное значение для таких систем.

Например:

  1. Слово «лучше» имеет в качестве леммы «хорошо». Эта ссылка пропускается из-за стемминга, так как для этого требуется поиск в словаре.
  2. Слово «прогулка» является базовой формой слова «ходьба», и, следовательно, оно совпадает как в стемминге, так и в лемматизации. 57>
  3. Слово «встреча» может быть как основной формой существительного, так и формой глагола («встречаться») в зависимости от контекста; например, «на нашей последней встрече» или «Мы снова встречаемся завтра». В отличие от стемминга, лемматизация пытается выбрать правильную лемму в зависимости от контекста.

Программное обеспечение для индексирования документов, такое как Lucene, может сохранять базовый формат слова без знания значения, но только с учетом грамматики словообразования правила. Само слово с корнем может быть недопустимым: слово «ленивый», как видно из приведенного ниже примера, происходит от слова «lazi» во многих словах. Это связано с тем, что цель выделения не состоит в том, чтобы создать соответствующую лемму - это более сложная задача, требующая знания контекста. Основная цель создания корней - сопоставить разные формы слова с одной формой. Как алгоритм, основанный на правилах, зависящий только от написания слова, он жертвует точностью, чтобы, например, когда слово «лень» преобразовано в «ленивый», оно имело ту же основу, что и «ленивый».

Алгоритмы

Тривиальный способ выполнить лемматизацию - это простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но система на основе правил потребуется для других случаев, например, в языках с длинными составными словами. Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса.

Реализации

Доступно несколько экземпляров лемматизаторов:

Использование в биомедицине

Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специальной программы лемматизации для биомедицины и может повысить точность практических задач извлечения информации.

См. Также

Ссылки

Внешние ссылки

Найдите лемматизация в Wiktionary, бесплатном словаре.
Последняя правка сделана 2021-05-26 05:59:57
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте