Автоматическое суммирование

редактировать

Автоматическое суммирование - это процесс сокращения набора данных с помощью вычислений для создания подмножества (сводка ), который представляет собой наиболее актуальную информацию в исходном содержании.

Помимо текста, можно также резюмировать изображения и видео. Обобщение текста позволяет находить наиболее информативные предложения в документе; суммирование изображений находит наиболее репрезентативные изображения в коллекции изображений; при резюмировании видео извлекаются наиболее важные кадры из видеоконтента.

Содержание

1 Подходы
- 1.1 Резюмирование на основе извлечения
- 1.2 Резюмирование на основе абстракций
- 1.3 Вспомогательное резюмирование
2 Приложения и системы для обобщения
- 2.1 Краткое изложение ключевых фраз
  - 2.1.1 Подходы к обучению с учителем
  - 2.1.2 Подход без учителя: TextRank
- 2.2 Обобщение документа
  - 2.2.1 Подходы к обучению с учителем
  - 2.2.2 Максимальная энтропия резюмирование на основе
  - 2.2.3 TextRank и LexRank
  - 2.2.4 Резюмирование нескольких документов
    - 2.2.4.1 Включение разнообразия
- 2.3 Субмодульные функции как общие инструменты для реферирования
- 2.4 Приложения
3 Методы оценки
- 3.1 Внутренняя и внешняя оценка
- 3.2 Межтекстовая и внутритекстовая
- 3.3 Специфические для предметной области и независимые от предметной области методы реферирования
- 3.4 Качественная оценка итогов
4 История
5 См. Также
6 Ссылки
7 Дополнительная литература

Подходы

Существует два общих подхода к автоматическому реферированию: извлечение и абстракция.

резюмирование на основе извлечений

Здесь контент извлекается из исходных данных, но извлеченный контент никоим образом не изменяется. Примеры извлеченного контента включают ключевые фразы, которые можно использовать для «пометки» или индексации текстового документа, или ключевые предложения (включая заголовки), которые вместе составляют аннотацию и репрезентативные изображения или видеофрагменты, как указано выше. Для текста извлечение аналогично процедура беглого просмотра, где краткое изложение (если доступно), заголовки и подзаголовки, рисунки, первый и последний абзацы раздела и, возможно, первое и последнее предложение в абзаце читаются перед выбором. чтобы подробно прочитать весь документ. Другие примеры извлечения, которые показывают ключевые слова с точки клинической значимости (включая пациента / проблему, вмешательство и результат).

Резюмирование на основе абстракций

Это применяется в основном для текста. Абстрактивные методы внутреннее семантическое представление контента, используя это представление для создания резюме, более близкого к тому, что может выразить человек. Абстракция может преобразовывать извлеченный путем перефразирования разделов исходного документа, чтобы сжать текст сильнее, чем извлечение. Такое преобразование в вычислительном отношении намного сложнее, чем извлечение, поскольку включает в себя как обработка естественного языка, так и часто глубокое понимание области исходного в тех случаях, когда исходный документ относится к специальной области знаний. «Перефразирование» еще сложнее применить к изображениям и видео, поэтому большинства реферирования экстрактивными.

Вспомогательное реферирование

Подходы, нацеленные на более высокое качество реферирования, основываются на совместных усилиях программного обеспечения и человека. В машинном суммировании методы человека выделяют отрывки-кандидаты для включения (в которые человек выделяет или удаляет текст). В суммировании с помощью машины с автоматическим управлением - результат обработки программного обеспечения, выполняемый человеком, аналогично редактированию вывода автоматического перевода с помощью Google Translate.

Приложения и системы для реферирования

Существует два типа экстрактивного реферирования в зависимости от того, на чем фокусируется программа реферирования. Первое - это обобщение, которое используется для получения общего резюме или реферата коллекции (будь то документы, наборы изображений, видео, новости и т. Д.). Второй - это суммирование по запросу, иногда называемое суммирование на основе запроса, которое суммирует объекты, специфичные для запроса. Системы реферирования могут создать как релевантные для запроса текстовые сводки, так и общие сводки, генерируемые машиной, в зависимости от того, что нужно пользователю.

Примером проблемы реферирования является реферирование документа, при котором делается попытка автоматически создать реферат из данного документа. Иногда один может быть заинтересован в создании резюме из одного исходного документа, в то время как другие могут использовать несколько исходных документов (например, кластер статей по одной и той же теме). Эта проблема называется резюмированием нескольких документов. Связанное приложение подводит итоги новостных статей. Представьте себе систему, которая автоматически собирает новостные статьи по заданной теме (из Интернета) и кратко представляет последние новости в виде резюме.

Обобщение коллекции изображений - еще один пример применения автоматического суммирования. Он заключается в выборе репрезентативного набора изображений из большего набора изображений. Резюме в этом контексте для показа наиболее репрезентативных изображений результатов в системе исследования коллекции изображений . Обобщение видео - это связанная область, в которой система автоматически создает трейлер длинного видео. У этого также есть приложения в потребительских или личных видео, где можно пропустить скучные или повторяющиеся действия. Точно так же в видео наблюдения следует вести активную деятельность и подозрительную, игнорируя при этом все скучные кадры.

На очень высоком уровне алгоритмы реферирования пытаются найти подмножества объектов (например, набор предложений или набор изображений), которые охватывают информацию всего набора. Это также называется основным набором. Эти алгоритмы моделируют такие понятия, как разнообразие, охват, информация и репрезентативность резюме. Методы поиска на основе поиска рефлексов релевантность сводки запроса. Некоторые методы и алгоритмы, которые естественным образом моделируют проблемы реферирования: TextRank и PageRank, функция субмодульного набора, процесс детерминантной точки, максимальная предельная релевантность (MMR) и т. Д.

извлечение ключевой фразы

Задача следующая. Вам дается отрывок текста, например журнальная статья, и вы должны составить список ключевых слов или ключевых фраз [фраз], отражающих основные темы, обсуждаемые в тексте. В случае исследовательских статей многие инструменты встроенные ключевые слова, но в большинстве случаев отсутствуют ранее существующие ключевые слова. Например, к новостным статьям редко добавляются ключевые фразы. Рассмотрим пример текста из новостной статьи:

«Инженерный корпус армии, спешащий выполнить обещание президента Буша защитить Новый Орлеан к началу сезона ураганов 2006 года, в прошлом году установил неисправные насосы для защиты от наблюдения, невзирая на предупреждения от собственного эксперта, что оборудование» выйдет из строя во время шторма, согласно документам, полученным Associated Press ».

Средство извлечения ключевой фразы может выбрать «Инженерный корпус армии», «Президент Буш», «Новый Орлеан» и «неисправное наводнение». -управление насосами »как ключевые фразы. Они взяты прямо из текста. Напротив, абстрактная система ключевых фраз каким-то усваивает контент и генерирует ключевые слова, которые не появляются в тексте, но более напоминают то, что может произвести человек, например, «политическая халатность» или «неадекватная защита от наводнения». Абстракция требует глубокого понимания текста, что усложняет работу компьютерной системы. Ключевые фразы имеют множество применений. Они могут включить просмотр документов, предоставив краткую сводку, улучшить поиск информации (если для документов назначены ключевые фразы, пользователь может выполнять поиск по ключевым фразе для достижения более надежных результатов, чем полнотекстовый поиск ) и может быть установка для индексных записей для большого текстового корпуса.

В зависимости от ключевых слов и ключевых слов, слов или фраз, извлечение ключевых слов является очень темой.

Подходы к контролируемому обучению

С начала работы Терни, многие исследователи подошли к извлечению ключевой фразы как к проблеме контролируемого машинного обучения. Учитывая документ, мы создаем пример для каждой униграммы, биграммы и триграммы, найденных в тексте (хотя возможны и другие текстовые единицы, как обсуждается ниже). Затем мы вычисляем характеристики, описывающие каждый пример (например, начинается ли фраза с заглавной буквы?). Мы предполагаем, что для набора рекламных объявлений по ключевым фразам. Используя следующие ключевые фразы, мы можем присвоить примерам положительные или отрицательные ярлыки. Затем мы изучаем классификатор, который может различать положительные и отрицательные примеры в зависимости от характеристик. Некоторые классификаторы представляют двоичную классификацию для тестового примера, в то время как другие присваивают вероятность того, что это ключевая фраза. Например, в приведенном выше тексте мы бы хотели узнать правило, согласно которому с начальными заглавными буквами, скорее всего, будут ключевыми буквами. После обучениящегося мы можем выбрать следующие ключевые фразы для тестовых документов образом. Мы применяем ту же стратегию создания примеров к тестовым документам, а затем прогоняем каждый пример через учащегося. Мы можем определить ключевые фразы, глядя на решения или вероятности бинарной системы, полученные из нашей изученной модели. Если указаны вероятности, для выбора ключевых фраз используется порог. Экстракторы ключевых фраз обычно оцениваются по точности и полноте. Точность определяет, сколько из предложенных ключевых фраз действительно верны. Напоминание измеряет, сколько настоящих ключевых фраз предложила ваша система. Эти два показателя можно объединить в F-балл, который представляет собой гармоническое среднее из двух (F = 2PR / (P + R)). Соответствие между предложенными ключевыми фразами и известными ключевыми фразами можно проверить после выделения корня или применения другой нормализации текста.

Разработка контролируемой системы извлечения ключевых фраз включает выбор нескольких вариантов (некоторые из них применимы и к неконтролируемым). Первый выбор - это именно то, как создавать примеры. Терни и другие использовали все возможные униграммы, биграммы и триграммы без знаков препинания и после удаления стоп-слов. Халт показал, что можно выбрать некоторое улучшение, выбрав в качестве последовательного токенов, соответствующие определенным шаблонам тегов части речи. В идеале механизм генерации примеров все известные помеченные ключевые фразы в качестве кандидатов, хотя часто это не так. Например, если мы используем только униграммы, биграммы и триграммы, мы никогда не сможем извлечь четыре ключевую фразу, содержащую слова. Таким образом, может пострадать отзыв. Однако создание слишком большого количества примеров также может привести к низкой точности.

Также необходимо создать функции, которые используют примеры и достаточно информативны, чтобы алгоритму обучения отличать ключевые фразы от неключевых. Обычно функции включают различную частоту терминов (например, содержат все заглавные буквы) и т. П., Пример, относительное положение первого вхождения, различные логические синтаксические функции (например, содержат все заглавные буквы) и т. Д. В статье Терни используется около 12 таких функций. Халт использует сокращенный набор функций, которые были признаны наиболее успешными в работе KEA (алгоритм извлечения ключевых фраз), взятой из основополагающей статьи Терни.

В конце концов, система должна будет вернуть список ключевых слов для тестового документа, поэтому нам нужно иметь способ ограничить количество. Методы ансамбля (т. Е. Использование голосов от нескольких классификаторов) использовались для получения числовых оценок, которые могут быть пороговыми значениями, чтобы обеспечить заданное количество ключевых фраз. Это метод, используя Терни с деревьями решений C4.5. Халт использовал единственный двоичный классификатор, поэтому алгоритм обучения неявно определяет соответствующее число.

После создания примеров и функций нужен способ научиться предсказывать ключевые фразы. Можно использовать практически любой контролируемый алгоритм обучения, как такие деревья решений, Наивный Байес и индукция правил. В случае алгоритма GenEx Терни, генетический алгоритм используется для изучения параметров алгоритма извлечения ключевых фраз, зависящей от домена. Средство извлечения следует серии эвристик для определения ключевых фраз. Генетический алгоритм оптимизирует параметры этой эвристики в отношении производительности обучающих документов с известными ключевыми фразами.

Неконтролируемый подход: TextRank

Другой алгоритм извлечения ключевой фразы - TextRank. Хотя контролируемые методы обладают некоторыми хорошими свойствами, такими как способность создавать интерпретируемые правила для того, какие функции показывают ключевые фразу, они также требуют большого количества обучающих данных. Требуется много документов с известными ключевыми фразами. Кроме того, демонстрирует некоторые результаты Терни, которые демонстрируют процесс извлечения для этой области. Неконтролируемое извлечение ключевых фраз устраняет необходимость в обучающих данных. Он подходит к проблеме под другим углом. Вместо того, чтобы попытаться изучить явные особенности, ключевые ключевые фразы, алгоритм TextRank использует самого себя для определения ключевых фраз, которые кажутся «центральными» в тексте так же, как PageRank выбирает важные веб-страницы. Напомним, это основано на понятии «престиж» или «рекомендация» из социальных сетей. Таким образом, TextRank вообще не полагается на какие-либо предыдущие обучающие данные, может быть запущен с любым произвольным фрагментом текста. Таким образом, алгоритм легко переносится на новые области и языки.

TextRank - это алгоритм ранжирования на основе графа общего назначения для NLP. По сути, он запускает PageRank на графике, специально разработанном для конкретных задач НЛП. Для извлечения ключевой фразы он строит граф, используя некоторый набор текстовых единиц в качестве вершин. Края основаны на некоторой мере семантического или лексического сходства между вершинами текстовых единиц. В отличие от PageRank, края обычно неориентированы и могут быть взвешены,чтобы отразить степень сходства. Он используется для формирования стохастической матрицы с коэффициентом затухания (как в «модели случайного серфера»), а ранжирование по вершинам получается путем нахождения собственного вектора, соответствующим собственному значению 1 (т. Е. стационарное распределение случайного блуждания на графике).

Вершины должны соответствовать тому, что мы хотим ранжировать. Потенциально, мы могли бы сделать что-то подобное контролируемым методам и создать вершину для каждой униграммы, биграммы, триграммы и т. Д. Затем, чтобы граф оставался отдельным маленьким, авторы решили ранжировать униграммы на первом этапе, а затем включить вторую стадию, который объединяет соседние униграммы с высоким рейтингом в фразе из нескольких. У этого есть приятный побочный эффект, позволяющий создавать ключевые слова произвольной длины. Например, если мы ранжируем униграммы и обнаруживаем, что «продвинутый», «естественный», «язык» и «обработка» все получают высокие оценки, то мы бы посмотрели на исходный текст и увидели, что эти слова появляются, и создадим окончательный ключевую фразу, используя все четыре вместе. Обратите внимание, что униграммы, размещенные на графике, можно отфильтровать по части речи. Авторы встречаются, что лучше всего использовать прилагательные и существительные. Таким образом, на этом этапе в игру вступают некоторые лингвистические знания.

Края создаются на основе слова одновременного появления в этом приложении TextRank. Две вершины соединяются ребром, если униграммы появляются в окне размера N в исходном тексте. N обычно составляет около 2–10. Таким образом, «естественный» и «язык» могут быть связаны в тексте о НЛП. «Естественный» и «обработка» также будут связаны, потому что оба они появятся в одной строке из N слов. Эти грани основаны на понятии «текст единства » и на идее, что слова, которые появляются рядом друг с другом, вероятно, связаны значимым образом и «рекомендуют» друг друга читателю.

Поскольку этот метод просто ранжирует отдельные вершины, нам нужен способ порогового значения или создания ограниченного количества ключевых фраз. Выбранный метод состоит в том, чтобы установить счетчик T как определяемую пользователем долю от общего числа вершин в графе. Затем выбираются верхние T вершин / униграмм на основе их стационарных вероятностей. Затем применяется этап постобработки для слияния соседних экземпляров этих Т-униграмм. В результате потенциально может быть создано более или менее T финальных ключевых фраз, но их количество должно быть примерно пропорционально длине исходного текста.

Изначально непонятно, почему применение PageRank к графу совместной встречаемости приводит к появлению полезных ключевых фраз. Об этом можно подумать следующим образом. Слово, которое встречается несколько раз в тексте, может иметь много разных соседей. Например, в тексте о машинном обучении униграмма «обучение» может сочетаться с «машинным», «контролируемым», «неконтролируемым» и «частично контролируемым» в четырех разных предложениях. Таким образом, «обучающая» вершина будет центральным «хабом», который соединяется с этими другими модифицирующими словами. Использование PageRank / TextRank на графике может дать высокий рейтинг «обучения». Точно так же, если текст содержит фразу «контролируемая классификация», тогда будет разница между «контролируемой» и «классификацией». Если «классификация» появляется в нескольких других местах и, таким образом, имеет много соседей, ее важность будет повышать важность «контролируемой». Если он получит высокий ранг, он будет выбран как одна из лучших униграммов T вместе с «обучением» и, вероятно, «классификацией». На последнем этапе постобработки мы использовали ключевые фразы «обучение с учителем» и «классификация с учителем».

Короче говоря, граф совместной встречаемости будет содержать плотно связанные области для терминов, которые появляются часто и в разных контекстах. Случайное блуждание на этом графе будет иметь стационарное распределение, которое приписывает большие вероятности членам в центрах кластеров. Это похоже на то, как сильно связанные веб-страницы получают высокие рейтинги по PageRank. Этот подход также использовался при обобщении документов, рассмотренном ниже.

Резюмирование документа

Подобно извлечению ключевой фразы, реферирование документа направлено на выявление сути текста. Единственная реальная разница в том, что теперь мы имеем дело с более крупными текстовыми единицами - целыми предложениями, а не словами и фразами.

Прежде чем углубляться в детали некоторых методов реферирования, мы упомянем, как обычно оцениваются системы реферирования. Чаще всего используется так называемый показатель ROUGE (ориентированный на отзыв дублер для оценки листинга). Это основанная на отзыве мера, которая определяет, насколько хорошо созданная системой сводка охватывает контент, представленный в однойтехнико-экономическое обоснование (PDF).

Энни, Луи (2009). Оценка достоверности результатов для автоматического обобщения.

Елена, Льорет и Мануэль, Паломар (2009). Сложные вопросы автоматического обобщения: определение релевантности и оценка на основе качества.

Эндрю, Голдберг (2007). Автоматическое обобщение.

Алрехами, Хасан (2017). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Автоматическое извлечение ключевых фраз. Достижения в интеллектуальных системах и вычислениях. 650 . С. 222–235. DOI : 10.1007 / 978-3-319-66939-7_19. ISBN 978-3-319-66938-0.

Эндрес-Ниггемейер, Бриджит (1998). Обобщение информации. ISBN 978-3-540-63735-6.

Марку, Даниэль (2000). Теория и практика разбора и обобщения дискурса. ISBN 978-0-262-13372-2.

Мани, Индерджит (2001). Автоматическое обобщение. ISBN 978-1-58811-060-2.

Хафф, Джейсон (2010). AutoSummarize., концептуальное изображение с использованием программного обеспечения автоматического суммирования в Microsoft Word 2008.

Lehmam, Abderrafih (2010). Essential summarizer: инновационное программное обеспечение для автоматического реферирования текста на двадцати языках - Цифровая библиотека ACM. Riao '10. стр. 216–217., опубликовано в Proceeding RIAO'10 Adaptivity, Personalization and Fusion of Heterogenic, CID Paris, France

Сяоцзинь, Чжу, Эндрю Голдберг, Юрген Ван Гаэль и Дэвид Анджевски (2007). Повышение разнообразия в рейтинге с помощью увлекательных случайных блужданий (PDF)., алгоритм GRASSHOPPER

Миранда-Хименес, Сабино, Гельбух, Александр и Сидоров, Григорий (2013). «Обобщение концептуальных графиков для задачи автоматического обобщения». Концептуальные структуры для исследований и образования STEM. Конспект лекций по информатике. 7735 . С. 245–253. DOI : 10.1007 / 978-3-642-35786-2_18. ISBN 978-3-642-35785-5., Концептуальные структуры для исследований и образования в области STEM.