Упрощение текста - это операция, используемая в обработке естественного языка для изменения, улучшения, классифицировать или иным образом обработать существующий корпус удобочитаемого текста таким образом, чтобы грамматика и структура прозы были значительно упрощены, в то время как лежащие в основе значение и информация остались прежними. Упрощение текста - важная область исследований, потому что естественные человеческие языки обычно содержат большие словари и сложные составные конструкции, которые нелегко обработать с помощью автоматизации. Что касается уменьшения языкового разнообразия, семантическое сжатие может использоваться для ограничения и упрощения набора слов, используемых в данных текстах.
Упрощение текста проиллюстрировано на примере из Siddharthan (2006). Первое предложение содержит два относительных придаточных предложения и одну соединенную глагольную фразу. Система упрощения текста призвана упростить первое предложение до второго.
Один из подходов к упрощению текста - это лексическое упрощение с помощью лексической замены, двухэтапный процесс, состоящий из определения сложных слов и их замены более простыми синонимы. Ключевой проблемой здесь является определение сложных слов, которое выполняется классификатором машинного обучения, обученным на помеченных данных. Усовершенствованием по сравнению с классическими методами применения двоичных меток к словам, как простым, так и сложным, является то, что они требуют от разработчиков меток сортировать слова в порядке сложности; это приводит к большей согласованности результирующих меток.