В обработке естественного языка, семантическое сжатие - это процесс сжатия лексика, используемая для создания текстового документа (или набора документов) за счет уменьшения языковой неоднородности при сохранении текстовой семантики. В результате одни и те же идеи могут быть представлены меньшим набором слов.
В большинстве приложений семантическое сжатие представляет собой сжатие с потерями, то есть повышенная многословность не компенсирует лексическое сжатие, и исходный документ не может быть восстановлен в обратном процессе.
Семантическое сжатие в основном достигается в два этапа с использованием частотных словарей и семантической сети :
Шаг 1 требует объединения частот слов и информации о семантических отношениях, в частности, гипонимии. Двигаясь вверх по иерархии слов, совокупная частота понятий вычисляется путем добавления суммы частот гипонимов к частоте их гиперонимов: где является гиперонимом . Затем выбирается желаемое количество слов с максимальной совокупной частотой для построения целевого лексикона.
На втором этапе правила сопоставления сжатия определяются для оставшихся слов, чтобы обрабатывать каждое появление менее частого гипонима как его гипероним в выходном тексте.
Приведенный ниже фрагмент текста был обработан семантическим сжатием. Слова, выделенные жирным шрифтом, были заменены их гиперонимами.
Они оба гнездо строят социальные насекомые, но бумажные осы и мед пчелыорганизуют свои колоний
очень разными способами . В новом исследовании исследователи сообщают, что, несмотря на свои различия, эти насекомые полагаются на одну и ту же сеть генов для управления своим социальным поведением . Труды Королевского общества B : Биологические науки. Мед пчелы и бумажные осы разделены более чем 100 миллионами лет
эволюции, и есть разительные различия в том, как они делятся работа по поддержанию колонии .
Процедура выводит следующий текст:
Они оба являются объектом зданием насекомым, но насекомые и мед насекомыеорганизуют свои биологические группы
в очень разную структуру . В новом исследовании исследователи сообщают, что, несмотря на различие мнений, эти насекомые действуют по одной и той же сети генов, управляя своим партийным поведением . Исследование появляется в работе института бактерий биологических наук. Мед насекомых и насекомых разделены более чем сотней миллионов лет
органических процессов, и существуют серьезные различия во мнениях в том, как они разделить работу по утверждению биологической группы .
Естественная тенденция сохранять лаконичность выражений естественного языка может быть воспринята как форма неявного семантического сжатия, опуская бессмысленные слова или избыточные значимые слова (особенно, чтобы избежать плеоназмов ).
В модели векторного пространства сжатие словаря приводит к сокращению размерность, что приводит к меньшей вычислительной сложности и положительно влияет на эффективность.
Семантическое сжатие выгодно в задачах поиска информации, повышая их эффективность ( с точки зрения как точности, так и отзыва). Это связано с более точными дескрипторами (уменьшенное влияние языкового разнообразия - ограниченный язык красный undancy, шаг к контролируемому словарю).
Как и в приведенном выше примере, можно отображать вывод как естественный текст (повторное применение флексии, добавление стоп-слов).