Семантическое сжатие

редактировать

В обработке естественного языка, семантическое сжатие - это процесс сжатия лексика, используемая для создания текстового документа (или набора документов) за счет уменьшения языковой неоднородности при сохранении текстовой семантики. В результате одни и те же идеи могут быть представлены меньшим набором слов.

В большинстве приложений семантическое сжатие представляет собой сжатие с потерями, то есть повышенная многословность не компенсирует лексическое сжатие, и исходный документ не может быть восстановлен в обратном процессе.

Содержание

1 По обобщению
2 Неявное семантическое сжатие
3 Приложения и преимущества
4 См. Также
5 Ссылки
6 Внешние ссылки

По обобщению

Семантическое сжатие в основном достигается в два этапа с использованием частотных словарей и семантической сети :

, определяющих совокупную частоту терминов для идентификации целевого словаря,
заменяя менее часто встречающиеся термины их гиперонимы (обобщение ) из целевой лексики.

Шаг 1 требует объединения частот слов и информации о семантических отношениях, в частности, гипонимии. Двигаясь вверх по иерархии слов, совокупная частота понятий вычисляется путем добавления суммы частот гипонимов к частоте их гиперонимов: $cumf (ki) = f (ki) + ∑ jcumf (kj) {\ displaystyle cumf (k_ {i}) = f (k_ {i}) + \ sum _ {j} cumf (k_ {j})}$ $диплом f (k_ {i}) = f (k_ {i}) + \ sum_ {j} cum f (k_ {j})$ где $ki {\ displaystyle k_ {i}}$ $k _ {{i}}$ является гиперонимом $kj {\ displaystyle k_ {j}}$ $k_ {j }$ . Затем выбирается желаемое количество слов с максимальной совокупной частотой для построения целевого лексикона.

На втором этапе правила сопоставления сжатия определяются для оставшихся слов, чтобы обрабатывать каждое появление менее частого гипонима как его гипероним в выходном тексте.

Пример

Приведенный ниже фрагмент текста был обработан семантическим сжатием. Слова, выделенные жирным шрифтом, были заменены их гиперонимами.

Они оба гнездо строят социальные насекомые, но бумажные осы и мед пчелыорганизуют свои колоний

очень разными способами . В новом исследовании исследователи сообщают, что, несмотря на свои различия, эти насекомые полагаются на одну и ту же сеть генов для управления своим социальным поведением . Труды Королевского общества B : Биологические науки. Мед пчелы и бумажные осы разделены более чем 100 миллионами лет

эволюции, и есть разительные различия в том, как они делятся работа по поддержанию колонии .

Процедура выводит следующий текст:

Они оба являются объектом зданием насекомым, но насекомые и мед насекомыеорганизуют свои биологические группы

в очень разную структуру . В новом исследовании исследователи сообщают, что, несмотря на различие мнений, эти насекомые действуют по одной и той же сети генов, управляя своим партийным поведением . Исследование появляется в работе института бактерий биологических наук. Мед насекомых и насекомых разделены более чем сотней миллионов лет

органических процессов, и существуют серьезные различия во мнениях в том, как они разделить работу по утверждению биологической группы .

Неявное семантическое сжатие

Естественная тенденция сохранять лаконичность выражений естественного языка может быть воспринята как форма неявного семантического сжатия, опуская бессмысленные слова или избыточные значимые слова (особенно, чтобы избежать плеоназмов ).

Применения и преимущества

В модели векторного пространства сжатие словаря приводит к сокращению размерность, что приводит к меньшей вычислительной сложности и положительно влияет на эффективность.

Семантическое сжатие выгодно в задачах поиска информации, повышая их эффективность ( с точки зрения как точности, так и отзыва). Это связано с более точными дескрипторами (уменьшенное влияние языкового разнообразия - ограниченный язык красный undancy, шаг к контролируемому словарю).

Как и в приведенном выше примере, можно отображать вывод как естественный текст (повторное применение флексии, добавление стоп-слов).

См. Также

Ссылки

^D. Цегларек, К. Ханевич, В. Рутковски, Семантическое сжатие для специализированных систем поиска информации, Достижения в области интеллектуальной информации и систем баз данных, т. 283, стр. 111-121, 2010
^Н. Перцова Н. О типах семантической компрессии текста, COLING '82 Труды 9-й конференции по компьютерной лингвистике, т. 2, стр. 229-231, 1982
^Д. Цегларек, К. Ханевич, В. Рутковски, Качество семантического сжатия в классификации Труды 2-й Международной конференции по вычислительному коллективному разуму: технологии и приложения, т. 1, стр. 162-171, 2010

Внешние ссылки

Семантическое сжатие на веб-сайте проекта SENECA (Семантические сети и категоризация)