Сегментация текста

редактировать

Сегментация текста - это процесс разделения письменного текста на значимые блоки, такие как слова, предложения или темы. Этот термин применяется как к умственным процессам, используемым людьми при чтении текста, так и к искусственным процессам, реализованным в компьютерах, которые являются предметом обработки естественного языка. Проблема нетривиальна, потому что, хотя некоторые письменные языки имеют явные маркеры границ слов, такие как пространство слов письменного английского языка и отличительные начальные, средние и конечные буквы формы арабского, такие сигналы иногда неоднозначны. и присутствует не на всех письменных языках.

Сравните сегментацию речи, процесс разделения речи на лингвистически значимые части.

Содержание

1 Проблемы сегментации
- 1.1 Сегментация слов
- 1.2 Сегментация по намерениям
- 1.3 Сегментация предложений
- 1.4 Сегментация тем
- 1.5 Другие проблемы сегментации
2 Подходы к автоматической сегментации
3 См. Также
4 Ссылки

Проблемы сегментации

Сегментация слов

Сегментация слов - это проблема разделения строки письменной речи на составляющие ее слова.

В английском и многих других языках, использующих ту или иную форму латинского алфавита, пробел является хорошим приближением разделителя слов (word разделитель ), хотя это понятие имеет ограничения из-за вариативности, с которой языки в эмоциональном отношении рассматривают словосочетания и соединения. Многие составные существительные в английском языке написаны по-разному (например, ice box = ice-box = icebox ; pig sty = pig-sty = pigsty ) с соответствующим различия в том, думают ли о них говорящие как существительные или как отдельные существительные; Существуют тенденции в том, как устанавливаются нормы, например, открытые соединения часто имеют тенденцию к застыванию в соответствии с широко распространенными соглашениями, но вариации остаются системными. Напротив, составные существительные немецкого языка демонстрируют меньшее орфографическое разнообразие, а затвердевание является более сильной нормой.

Однако эквивалент символа пробела не встречается во всех письменных сценариях, и без него сегментация слов представляет собой сложную проблему. Языки, в которых нет тривиального процесса сегментации слов, включают китайский, японский, где разделены предложения, но не слова, тайский и лаосский, где фразы и предложения, но не слова разделяются, а вьетнамский, где разделяются слоги, но не слова.

Однако в некоторых системах письма, таких как скрипт геэз, используемый для амхарского и тигринья среди других языков, слова явно разграничены (по крайней мере, исторически) с непробельным символом.

Консорциум Unicode опубликовал Стандартное приложение по сегментации текста, в котором исследуются вопросы сегментации в текстах с несколькими скриптами.

Разделение слов - это процесс анализа конкатенированного текста (т. Е. Текста, не содержащего пробелов или других разделителей слов), чтобы определить, где существуют разрывы слов.

Разделение слов может также относиться к процессу расстановки переносов.

Намеренная сегментация

Намеренная сегментация - это проблема разделения написанных слов на ключевые фразы (2 или более групп слов).

В английском и всех других языках основное намерение или желание идентифицируется и становится краеугольным камнем сегментации намерения ключевой фразы. Основной продукт / услуга, идея, действие или мысль закрепляют ключевую фразу.

«[Все вещи состоят из атомов ]. [Маленькие частицы, которые движутся] [в постоянном движении ], [притягивая каждую другое ] [когда они находятся на небольшом расстоянии друг от друга], [но отталкивают ] [когда зажаты ] [в друг друга ] ".

Сегментация предложений

Сегментация предложений - это проблема разделения строки письменного языка на составляющие предложения. В английском и некоторых других языках использование знаков препинания, особенно точка / точка, является разумным приближением. Однако даже в английском языке эта проблема не является тривиальной из-за использования символа полной остановки для сокращений, которые также могут или не могут завершать предложение. Например, мистер не является его собственным предложением в «Мистер Смит пошел в магазины на Джонс-стрит». При обработке обычного текста таблицы сокращений, содержащие точки, могут помочь предотвратить неправильное назначение границ предложений.

Как и в случае сегментации слов, не все письменные языки содержат знаки препинания, которые полезны для приближения границ предложения.

Сегментация темы

Анализ темы состоит из двух основных задач: определение темы и сегментация текста. В то время как первый представляет собой простую классификацию определенного текста, последний случай подразумевает, что документ может содержать несколько тем, и задача компьютерной сегментации текста может заключаться в автоматическом обнаружении этих тем и соответствующем сегментировании текста. Границы темы могут быть видны из заголовков разделов и абзацев. В других случаях необходимо использовать методы, аналогичные тем, которые используются в классификации документов.

Сегментация текста на темы или повороты беседы могут быть полезны в некоторых задачах естественной обработки. : он может значительно улучшить поиск информации или распознавание речи (путем более точного индексирования / распознавания документов или предоставления в результате конкретной части документа, соответствующей запросу). Это также необходимо в системах слежения и текстовом обобщении проблем.

Было испробовано много разных подходов: например, HMM, лексические цепочки, сходство отрывков с использованием слова одновременное появление, кластеризация, тематическое моделирование и т. Д.

Это довольно неоднозначная задача - люди, оценивающие системы сегментации текста, часто различаются по границам тем. Следовательно, оценка текстового сегмента также является сложной задачей.

Другие проблемы сегментации

Могут потребоваться процессы для сегментации текста на сегменты, помимо упомянутых, включая морфемы (задача, обычно называемая морфологический анализ ) или абзацы.

Подходы к автоматической сегментации

Автоматическая сегментация - это проблема обработки естественного языка реализации компьютерного процесса для сегментации текста.

Когда знаки препинания и аналогичные подсказки не всегда доступны, задача сегментации часто требует довольно нетривиальных методов, таких как статистическое принятие решений, большие словари, а также учет синтаксических и семантических ограничений. Эффективные системы обработки естественного языка и инструменты сегментации текста обычно работают с текстом в определенных областях и источниках. Например, обработка текста, используемого в медицинских записях, представляет собой совсем другую проблему, чем обработка новостных статей или рекламы недвижимости.

Процесс разработки инструментов сегментации текста начинается со сбора большого корпуса текста в домене приложения. Существует два общих подхода:

Ручной анализ текста и написание специального программного обеспечения
Аннотируйте образец корпуса с информацией о границах и используйте машинное обучение

Некоторые системы сегментации текста используют любую разметку, например HTML и знакомые форматы документов, такие как PDF, чтобы предоставить дополнительные доказательства границ предложений и абзацев.

См. Также

Ссылки