Упрощение текста

редактировать

Упрощение текста - это операция, используемая в обработке естественного языка для изменения, улучшения, классифицировать или иным образом обработать существующий корпус удобочитаемого текста таким образом, чтобы грамматика и структура прозы были значительно упрощены, в то время как лежащие в основе значение и информация остались прежними. Упрощение текста - важная область исследований, потому что естественные человеческие языки обычно содержат большие словари и сложные составные конструкции, которые нелегко обработать с помощью автоматизации. Что касается уменьшения языкового разнообразия, семантическое сжатие может использоваться для ограничения и упрощения набора слов, используемых в данных текстах.

Содержание

  • 1 Пример
  • 2 См. Также
  • 3 Ссылки
  • 4 Внешние ссылки

Пример

Упрощение текста проиллюстрировано на примере из Siddharthan (2006). Первое предложение содержит два относительных придаточных предложения и одну соединенную глагольную фразу. Система упрощения текста призвана упростить первое предложение до второго.

  • Устойчивости меди, как отметил аналитик, также способствовал отчет агентов по закупкам Чикаго, который предшествует полному отчету агентов по закупкам, который должен выйти сегодня, и дает представление о том, что может содержать полный отчет.
  • Также, как отметил аналитик, вклад агентов по закупкам в Чикаго внес свой вклад в повышение устойчивости меди. Отчет по Чикаго предшествует полному отчету агентов по закупкам. Отчет Чикаго дает представление о том, что может содержать полный отчет. Полный отчет должен быть опубликован сегодня.

Один из подходов к упрощению текста - это лексическое упрощение с помощью лексической замены, двухэтапный процесс, состоящий из определения сложных слов и их замены более простыми синонимы. Ключевой проблемой здесь является определение сложных слов, которое выполняется классификатором машинного обучения, обученным на помеченных данных. Усовершенствованием по сравнению с классическими методами применения двоичных меток к словам, как простым, так и сложным, является то, что они требуют от разработчиков меток сортировать слова в порядке сложности; это приводит к большей согласованности результирующих меток.

См. также

Литература

  • Вэй Сюй, Крис Каллисон-Берч и Кортни Наполс. «Проблемы современных исследований по упрощению текста ». В трудах Ассоциации компьютерной лингвистики (TACL), том 3, 2015 г., страницы 283–297.
  • Адвайт Сиддхартхан. «Синтаксическое упрощение и согласованность текста ». In Research on Language and Computing, Volume 4, Issue 1, Jun 2006, Pages 77–109, Springer Science, Нидерланды.
  • Сиддхарта Йонналагадда, Луис Тари, Йорг Хакенберг, Читта Барал и Грасиела Гонсалес. На пути к эффективному упрощению предложений для автоматической обработки биомедицинского текста. В Proc. NAACL-HLT 2009, Боулдер, США, июнь. [1]

Внешние ссылки

Последняя правка сделана 2021-06-10 03:39:08
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте