Концептуальный поиск

редактировать

A концептуальный поиск (или концептуальный поиск ) - это автоматический поиск информации метод, который используется для поиска в электронном виде неструктурированного текста (например, цифровых архивов, электронной почты, научной литературы и т. д.) информации, концептуально аналогичной информации, предоставленной при поиске запрос. Другими словами, идеи, выраженные в информации, полученной в ответ на поисковый запрос concept, относятся к идеям, содержащимся в тексте запроса.

Содержание

  • 1 Разработка
  • 2 Подходы
    • 2.1 Вспомогательные структуры
    • 2.2 Локальная статистика совместной встречаемости
    • 2.3 Методы преобразования
  • 3 Использование
  • 4 Эффективный поиск
  • 5 Отзыв о релевантности
  • 6 Рекомендации по оценке концептуальной поисковой системы
  • 7 Конференции и форумы
  • 8 См. Также
  • 9 Ссылки
  • 10 Внешние ссылки

Разработка

Методы концептуального поиска были разработаны из-за ограничений, налагаемых классическими логическими технологиями поиска по ключевым словам при работе с большими неструктурированными цифровыми коллекциями текста. Поиск по ключевым словам часто дает результаты, которые включают много нерелевантных элементов (ложные срабатывания ) или исключают слишком много релевантных элементов (ложноотрицательные результаты) из-за эффектов синонимии и многозначности.. Синонимия означает, что одно из двух или более слов на одном языке имеет одно и то же значение, а многозначность означает, что многие отдельные слова имеют более одного значения.

Многозначность - серьезное препятствие для всех компьютерных систем, которые пытаются иметь дело с человеческим языком. В английском языке наиболее часто используемые термины имеют несколько общих значений. Например, слово «огонь» может означать: горение; прекратить работу; запускать или возбуждать (как в fire up). Для 200 наиболее многозначных английских терминов типичный глагол имеет более двенадцати общих значений или смыслов. Типичное существительное из этого набора имеет более восьми общих значений. Для 2000 наиболее многозначных терминов в английском языке типичный глагол имеет более восьми общих значений, а типичное существительное - более пяти.

Помимо проблем многозначности и синонимии, поиск по ключевым словам может случайно исключить неправильно написанные слова, а также варианты основ (или корней) слов (например, удар или удар). Поиск по ключевым словам также подвержен ошибкам, вызванным процессами сканирования оптического распознавания символов (OCR), которые могут вносить случайные ошибки в текст документов (часто называемый зашумленным текстом ) в процессе сканирования.

Концептуальный поиск может преодолеть эти проблемы, используя устранение неоднозначности слов (WSD) и другие методы, которые помогают определить фактические значения слов и лежащие в их основе концепции, а не просто сопоставляя символьные строки, такие как технологии поиска по ключевым словам.

Подходы

В целом, поиск информации исследования и технологии можно разделить на две широкие категории: семантические и статистические. Информационно-поисковые системы, попадающие в семантическую категорию, будут пытаться реализовать некоторую степень синтаксического и семантического анализа текста естественного языка, который может предоставить пользователь (также см. вычислительный языкознание ). Системы, попадающие в статистическую категорию, будут находить результаты на основе статистических показателей того, насколько близко они соответствуют запросу. Однако системы семантической категории также часто полагаются на статистические методы, помогающие им находить и извлекать информацию.

В усилиях по обеспечению систем поиска информации с возможностями семантической обработки в основном использовались три разных подхода:

Вспомогательные структуры

Разнообразные методы, основанные на искусственный интеллект (AI) и обработка естественного языка (NLP) были применены к семантической обработке, и большинство из них полагались на использование вспомогательных структур, таких как контролируемые словари и онтологии. Управляемые словари (словари и тезаурусы) и онтологии позволяют включать в запросы более широкие термины, более узкие термины и связанные термины. Управляемые словари - это один из способов преодоления некоторых из наиболее серьезных ограничений Логические запросы по ключевым словам. Более Спустя годы были созданы дополнительные вспомогательные структуры, представляющие общий интерес, такие как большие наборы синонимов WordNet. Было показано, что концептуальный поиск, основанный на вспомогательных структурах, таких как WordNet, может быть эффективно реализован путем повторного использования моделей поиска и структур данных классического поиска информации. Более поздние подходы реализовали грамматики для расширения диапазона семантических конструкций. В последние годы также было реализовано создание моделей данных, которые представляют наборы концепций в определенной области (онтологии предметной области) и которые могут включать отношения между терминами.

Созданные вручную контролируемые словари вносят вклад в эффективность и полноту операций поиска информации и анализа связанного текста, но они работают лучше всего, когда темы узко определены, а терминология стандартизирована. Управляемые словари требуют обширного человеческого участия и контроля, чтобы идти в ногу со стремительным развитием языка. Они также не очень подходят для растущих объемов неструктурированного текста, охватывающего неограниченное количество тем и содержащих тысячи уникальных терминов, потому что необходимо постоянно вводить новые термины и темы. Управляемые словари также склонны фиксировать определенное мировоззрение в определенный момент времени, что затрудняет их изменение при изменении концепций в определенной тематической области.

Локальная статистика совместной встречаемости

Информационно-поисковые системы, использующие этот подход, подсчитывают количество раз, когда группы терминов появляются вместе (совместно) в пределах скользящего окна терминов или предложений (например, ± 5 предложений или ± 50 слов) в пределах документ. Он основан на идее, что слова, которые встречаются вместе в одном контексте, имеют схожие значения. Он локален в том смысле, что скользящее окно терминов и предложений, используемых для определения совместной встречаемости терминов, относительно невелико.

Этот подход прост, но он захватывает только небольшую часть семантической информации, содержащейся в коллекции текста. На самом базовом уровне многочисленные эксперименты показали, что примерно только информации, содержащейся в тексте, носит локальный характер. Кроме того, чтобы быть наиболее эффективным, этот метод требует предварительных знаний о содержании текста, что может быть затруднено с большими неструктурированными коллекциями документов.

Методы преобразования

Некоторые из наиболее эффективных подходы к семантической обработке основаны на использовании методов математического преобразования. Методы разложения матрицы оказались наиболее успешными. Некоторые широко используемые методы разложения матриц включают следующее:

Методы разложения матриц управляются данными, что позволяет избежать многие недостатки связаны с вспомогательными конструкциями. Они также глобальны по своей природе, что означает, что они способны к гораздо более надежному извлечению информации и представлению семантической информации, чем методы, основанные на локальной статистике совместной встречаемости.

Анализ независимых компонентов - это метод метод, который создает разреженные представления в автоматическом режиме, а подходы с полудискретной и неотрицательной матрицей жертвуют точностью представления, чтобы уменьшить вычислительную сложность.

Разложение по сингулярным значениям (SVD) впервые было применено к тексту в Bell Labs в конце 1980-х. Он был использован в качестве основы для техники, называемой скрытой семантической индексацией (LSI), из-за ее способности находить семантическое значение, которое скрыто в коллекции текста. Сначала внедрение SVD было медленным из-за требований к ресурсам, необходимых для работы с большими наборами данных. Однако в последние годы использование LSI значительно расширилось, поскольку более ранние проблемы масштабируемости и производительности были преодолены и даже были открыты. LSI используется во множестве приложений для поиска информации и обработки текста, хотя его основное применение было для поиска концепций и автоматической категоризации документов.

Использует

  • eDiscovery - на основе концепций Технологии поиска все чаще используются для обнаружения электронных документов (EDD или eDiscovery), чтобы помочь предприятиям подготовиться к судебным разбирательствам. В eDiscovery возможность кластеризации, категоризации и поиска в больших коллекциях неструктурированного текста на концептуальной основе намного эффективнее традиционных методов линейного просмотра. Поиск на основе концепций становится все более надежным и эффективным методом поиска, который с большей вероятностью даст релевантные результаты, чем поиск по ключевым словам или логическим поискам.
  • Enterprise Search и Enterprise Content Management (ECM) - Концептуальные технологии поиска широко используются в поисковой системе предприятия. По мере роста объема информации на предприятии возможность кластеризации, категоризации и поиска в больших коллекциях неструктурированного текста на концептуальной основе стала важной. В 2004 году Gartner Group подсчитала, что профессионалы тратят 30 процентов своего времени на поиск, извлечение и управление информацией. Исследовательская компания IDC обнаружила, что корпорация с 2000 сотрудниками может сэкономить до 30 миллионов долларов в год за счет сокращения времени, которое сотрудники тратят на поиск информации и дублирование существующих документов.
  • Content-Based Image Retrieval (CBIR) - Контентные подходы используются для семантического поиска оцифрованных изображений и видео из больших визуальных массивов. Одной из первых систем поиска изображений на основе контента, решающих семантическую проблему, была поисковая машина ImageScape. В этой системе пользователь мог делать прямые запросы для множества визуальных объектов, таких как небо, деревья, вода и т. Д., Используя пространственно расположенные значки в индексе WWW, содержащем более десяти миллионов изображений и видео с использованием ключевых кадров. Система использовала теорию информации, чтобы определить лучшие характеристики для минимизации неопределенности в классификации. Семантический пробел часто упоминается в отношении CBIR. Семантический разрыв относится к разрыву между информацией, которую можно извлечь из визуальных данных, и интерпретацией, которую те же данные имеют для пользователя в данной ситуации. Семинар ACM SIGMM по поиску мультимедийной информации посвящен исследованиям CBIR.
  • Мультимедиа и публикации - концептуальный поиск используется в мультимедийной и издательской отраслях, чтобы предоставить пользователям доступ к новостям, техническим информация и знания в предметной области, поступающие из различных неструктурированных источников. Контентные методы поиска мультимедийной информации (MIR) стали особенно важными, когда текстовые аннотации отсутствуют или неполны.
  • Электронные библиотеки и архивы - изображения, видео, музыка и текстовые элементы в электронных библиотеках и цифровых архивах не используются. становятся доступными для больших групп пользователей (особенно в Интернете) благодаря использованию концептуальных методов поиска. Например, Executive Daily Brief (EDB), продукт для мониторинга и оповещения о деловой информации, разработанный EBSCO Publishing, использует концептуальную технологию поиска, чтобы предоставить корпоративным конечным пользователям доступ к цифровой библиотеке, содержащей широкий спектр бизнес-контента. Аналогичным образом проект Music Genome Project породил Pandora, которая использует концептуальный поиск для спонтанного создания индивидуальных музыкальных библиотек или виртуальных радиостанций.
  • Genomic Information Retrieval (GIR) - Genomic Information Retrieval ( GIR) использует концептуальные методы поиска, применяемые к базам данных геномной литературы, чтобы преодолеть неоднозначность научной литературы.
  • Кадровое обеспечение и подбор персонала - Многие кадровые и кадровые организации приняли концептуальные технологии поиска для получения высоко релевантных результатов поиска резюме которые обеспечивают более точные и релевантные резюме кандидатов, чем результаты по слабо связанным ключевым словам.

Эффективный поиск

Эффективность концептуального поиска может зависеть от множества элементов, включая набор данных, в котором выполняется поиск, и используемую поисковую систему для обработки запросов и отображения результатов. Однако большинство концептуальных поисковых систем лучше всего подходят для определенных типов запросов:

  • Эффективные запросы состоят из достаточного количества текста, чтобы адекватно передать предполагаемые концепции. Эффективные запросы могут включать полные предложения, абзацы или даже целые документы. Запросы, состоящие всего из нескольких слов, с меньшей вероятностью дадут наиболее релевантные результаты.
  • Эффективные запросы не включают в запрос понятия, которые не являются объектом поиска. Включение слишком большого количества несвязанных понятий в запрос может отрицательно повлиять на релевантность элементов результатов. Например, поиск информации о лодках на реке Миссисипи с большей вероятностью даст релевантные результаты, чем поиск лодок на реке Миссисипи в дождливый день в середине лета 1967 года.
  • Эффективные запросы выражаются в полнотекстовом стиле на естественном языке, аналогичном стилю документов, в которых выполняется поиск. Например, использование запросов, состоящих из отрывков из вводного учебника по естествознанию, не будет столь же эффективным для поиска концепций, если поисковый набор данных состоит из продвинутых научных текстов уровня колледжа. Существенные запросы, которые лучше представляют общие концепции, стили и язык элементов, для которых выполняется запрос, обычно более эффективны.

Как и в случае со всеми поисковыми стратегиями, опытные поисковики обычно уточняют свои запросы с помощью нескольких поисков, начиная с начальный исходный запрос для получения концептуально релевантных результатов, которые затем можно использовать для составления и / или уточнения дополнительных запросов для получения все более релевантных результатов. В зависимости от поисковой системы использование концепций запроса, найденных в документах результатов, может быть таким же простым, как выбор документа и выполнение аналогичной функции поиска. Изменение запроса путем добавления терминов и понятий для повышения релевантности результатов называется расширением запроса. Использование онтологий, таких как WordNet, было изучено для расширения запросов с помощью концептуально связанных слов.

Отзыв о релевантности

Отзыв о релевантности - это функция, которая помогает пользователям определить, результаты, полученные по их запросам, соответствуют их информационным потребностям. Другими словами, релевантность оценивается относительно потребности в информации, а не запроса. Документ актуален, если он отвечает заявленной потребности в информации, а не потому, что он просто содержит все слова в запросе. Это способ вовлечь пользователей в процесс поиска, чтобы улучшить конечный набор результатов. Пользователи могут уточнить свои запросы на основе своих первоначальных результатов, чтобы улучшить качество своих конечных результатов.

В общем, релевантность поиска концепций относится к степени сходства между концепциями, выраженными в запросе, и концепциями, содержащимися в результатах, возвращаемых по запросу. Чем больше концепции в результатах похожи на концепции, содержащиеся в запросе, тем более релевантными считаются результаты. Результаты обычно ранжируются и сортируются по релевантности, так что наиболее релевантные результаты находятся вверху списка результатов, а наименее релевантные результаты - внизу списка.

Обратная связь по релевантности оказалась очень эффективной для повышения релевантности результатов. Поиск концепций снижает риск пропуска важных элементов результатов, потому что все элементы, связанные с концепциями в запросе, будут возвращены независимо от того, содержат ли они те же слова, что и в запросе.

Ранжирование будет продолжено быть частью любой современной информационно-поисковой системы. Однако проблемы разнородных данных, масштаба и нетрадиционных типов дискурса, отраженные в тексте, наряду с тем фактом, что поисковые системы будут все больше и больше становиться интегрированными компонентами сложных процессов управления информацией, а не просто автономными системами, потребуют новых видов. ответов системы на запрос. Например, одна из проблем с ранжированными списками заключается в том, что они могут не выявить связи, существующие между некоторыми элементами результатов.

Рекомендации по оценке концептуальной поисковой системы

  1. Элементы результатов должны иметь отношение к информации необходимость выражается концепциями, содержащимися в операторах запроса, даже если терминология, используемая элементами результатов, отличается от терминологии, используемой в запросе.
  2. Элементы результатов должны быть отсортированы и ранжированы по релевантности.
  3. Соответствующие элементы результатов следует быстро находить и отображать. Даже сложные запросы должны довольно быстро возвращать релевантные результаты.
  4. Длина запроса не должна быть фиксированной, т. Е. Запрос может быть сколь угодно длинным. В качестве запроса можно отправить предложение, абзац или даже весь документ.
  5. Концептуальный запрос не требует специального или сложного синтаксиса. Концепции, содержащиеся в запросе, могут быть четко и четко выражены без использования каких-либо специальных правил.
  6. Должны быть разрешены комбинированные запросы с использованием концепций, ключевых слов и метаданных.
  7. Соответствующие части элементов результатов должны быть можно использовать в качестве текста запроса, просто выбрав элемент и указав поисковой системе найти похожие элементы.
  8. Индексы, готовые к запросам, должны создаваться относительно быстро.
  9. Поисковая система должна быть способна выполнять федеративную поиски. Объединенный поиск позволяет использовать концептуальные запросы для одновременного поиска информации в нескольких источниках данных, которые затем объединяются, сортируются и отображаются в результатах.
  10. На концептуальный поиск не должны влиять орфографические ошибки, типографические ошибки или Ошибки сканирования OCR в тексте запроса или в тексте набора данных, в котором выполняется поиск.

Конференции и форумы

Формализованная оценка поисковой системы продолжается уже много лет. Например, Конференция по поиску текста (TREC) была начата в 1992 году для поддержки исследований в сообществе поиска информации путем предоставления инфраструктуры, необходимой для крупномасштабной оценки методологий поиска текста. Большинство современных коммерческих поисковых систем включают технологию, впервые разработанную в TREC.

В 1997 году был запущен японский аналог TREC, названный Национальным институтом информатики Test Collection для IR-систем (NTCIR). NTCIR проводит серию оценочных семинаров для исследований в области поиска информации, ответов на вопросы, резюмирования текста и т. Д. Европейская серия семинаров под названием Cross Language Evaluation Forum (CLEF) была начата в 2001 году для содействия исследованиям в области многоязычия. доступ к информации. В 2002 г. была учреждена Инициатива по оценке поиска XML (INEX) для оценки ориентированных на контент систем поиска XML.

Точность и отзыв являются двумя традиционными показателями эффективности систем поиска информации. Точность - это та часть полученных документов результатов, которая имеет отношение к информационным потребностям пользователя. Отзыв определяется как доля релевантных документов во всей коллекции, которые возвращаются как документы результатов.

Хотя семинары и общедоступные тестовые коллекции, используемые для тестирования и оценки поисковых систем, предоставили существенное понимание того, как управляется информация Полученная и извлеченная, эта область лишь поверхностно коснулась проблем, с которыми люди и организации сталкиваются при поиске, управлении и использовании информации сейчас, когда доступно так много информации. Научные данные о том, как люди используют доступные им сегодня информационные инструменты, все еще неполны, потому что экспериментальные исследовательские методики не успевают за быстрыми темпами изменений. Многие проблемы, такие как контекстный поиск, управление личной информацией, интеграция информации и поддержка задач, все еще требуют решения.

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-15 08:49:06
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте