A концептуальный поиск (или концептуальный поиск ) - это автоматический поиск информации метод, который используется для поиска в электронном виде неструктурированного текста (например, цифровых архивов, электронной почты, научной литературы и т. д.) информации, концептуально аналогичной информации, предоставленной при поиске запрос. Другими словами, идеи, выраженные в информации, полученной в ответ на поисковый запрос concept, относятся к идеям, содержащимся в тексте запроса.
Методы концептуального поиска были разработаны из-за ограничений, налагаемых классическими логическими технологиями поиска по ключевым словам при работе с большими неструктурированными цифровыми коллекциями текста. Поиск по ключевым словам часто дает результаты, которые включают много нерелевантных элементов (ложные срабатывания ) или исключают слишком много релевантных элементов (ложноотрицательные результаты) из-за эффектов синонимии и многозначности.. Синонимия означает, что одно из двух или более слов на одном языке имеет одно и то же значение, а многозначность означает, что многие отдельные слова имеют более одного значения.
Многозначность - серьезное препятствие для всех компьютерных систем, которые пытаются иметь дело с человеческим языком. В английском языке наиболее часто используемые термины имеют несколько общих значений. Например, слово «огонь» может означать: горение; прекратить работу; запускать или возбуждать (как в fire up). Для 200 наиболее многозначных английских терминов типичный глагол имеет более двенадцати общих значений или смыслов. Типичное существительное из этого набора имеет более восьми общих значений. Для 2000 наиболее многозначных терминов в английском языке типичный глагол имеет более восьми общих значений, а типичное существительное - более пяти.
Помимо проблем многозначности и синонимии, поиск по ключевым словам может случайно исключить неправильно написанные слова, а также варианты основ (или корней) слов (например, удар или удар). Поиск по ключевым словам также подвержен ошибкам, вызванным процессами сканирования оптического распознавания символов (OCR), которые могут вносить случайные ошибки в текст документов (часто называемый зашумленным текстом ) в процессе сканирования.
Концептуальный поиск может преодолеть эти проблемы, используя устранение неоднозначности слов (WSD) и другие методы, которые помогают определить фактические значения слов и лежащие в их основе концепции, а не просто сопоставляя символьные строки, такие как технологии поиска по ключевым словам.
В целом, поиск информации исследования и технологии можно разделить на две широкие категории: семантические и статистические. Информационно-поисковые системы, попадающие в семантическую категорию, будут пытаться реализовать некоторую степень синтаксического и семантического анализа текста естественного языка, который может предоставить пользователь (также см. вычислительный языкознание ). Системы, попадающие в статистическую категорию, будут находить результаты на основе статистических показателей того, насколько близко они соответствуют запросу. Однако системы семантической категории также часто полагаются на статистические методы, помогающие им находить и извлекать информацию.
В усилиях по обеспечению систем поиска информации с возможностями семантической обработки в основном использовались три разных подхода:
Разнообразные методы, основанные на искусственный интеллект (AI) и обработка естественного языка (NLP) были применены к семантической обработке, и большинство из них полагались на использование вспомогательных структур, таких как контролируемые словари и онтологии. Управляемые словари (словари и тезаурусы) и онтологии позволяют включать в запросы более широкие термины, более узкие термины и связанные термины. Управляемые словари - это один из способов преодоления некоторых из наиболее серьезных ограничений Логические запросы по ключевым словам. Более Спустя годы были созданы дополнительные вспомогательные структуры, представляющие общий интерес, такие как большие наборы синонимов WordNet. Было показано, что концептуальный поиск, основанный на вспомогательных структурах, таких как WordNet, может быть эффективно реализован путем повторного использования моделей поиска и структур данных классического поиска информации. Более поздние подходы реализовали грамматики для расширения диапазона семантических конструкций. В последние годы также было реализовано создание моделей данных, которые представляют наборы концепций в определенной области (онтологии предметной области) и которые могут включать отношения между терминами.
Созданные вручную контролируемые словари вносят вклад в эффективность и полноту операций поиска информации и анализа связанного текста, но они работают лучше всего, когда темы узко определены, а терминология стандартизирована. Управляемые словари требуют обширного человеческого участия и контроля, чтобы идти в ногу со стремительным развитием языка. Они также не очень подходят для растущих объемов неструктурированного текста, охватывающего неограниченное количество тем и содержащих тысячи уникальных терминов, потому что необходимо постоянно вводить новые термины и темы. Управляемые словари также склонны фиксировать определенное мировоззрение в определенный момент времени, что затрудняет их изменение при изменении концепций в определенной тематической области.
Информационно-поисковые системы, использующие этот подход, подсчитывают количество раз, когда группы терминов появляются вместе (совместно) в пределах скользящего окна терминов или предложений (например, ± 5 предложений или ± 50 слов) в пределах документ. Он основан на идее, что слова, которые встречаются вместе в одном контексте, имеют схожие значения. Он локален в том смысле, что скользящее окно терминов и предложений, используемых для определения совместной встречаемости терминов, относительно невелико.
Этот подход прост, но он захватывает только небольшую часть семантической информации, содержащейся в коллекции текста. На самом базовом уровне многочисленные эксперименты показали, что примерно только информации, содержащейся в тексте, носит локальный характер. Кроме того, чтобы быть наиболее эффективным, этот метод требует предварительных знаний о содержании текста, что может быть затруднено с большими неструктурированными коллекциями документов.
Некоторые из наиболее эффективных подходы к семантической обработке основаны на использовании методов математического преобразования. Методы разложения матрицы оказались наиболее успешными. Некоторые широко используемые методы разложения матриц включают следующее:
Методы разложения матриц управляются данными, что позволяет избежать многие недостатки связаны с вспомогательными конструкциями. Они также глобальны по своей природе, что означает, что они способны к гораздо более надежному извлечению информации и представлению семантической информации, чем методы, основанные на локальной статистике совместной встречаемости.
Анализ независимых компонентов - это метод метод, который создает разреженные представления в автоматическом режиме, а подходы с полудискретной и неотрицательной матрицей жертвуют точностью представления, чтобы уменьшить вычислительную сложность.
Разложение по сингулярным значениям (SVD) впервые было применено к тексту в Bell Labs в конце 1980-х. Он был использован в качестве основы для техники, называемой скрытой семантической индексацией (LSI), из-за ее способности находить семантическое значение, которое скрыто в коллекции текста. Сначала внедрение SVD было медленным из-за требований к ресурсам, необходимых для работы с большими наборами данных. Однако в последние годы использование LSI значительно расширилось, поскольку более ранние проблемы масштабируемости и производительности были преодолены и даже были открыты. LSI используется во множестве приложений для поиска информации и обработки текста, хотя его основное применение было для поиска концепций и автоматической категоризации документов.
Эффективность концептуального поиска может зависеть от множества элементов, включая набор данных, в котором выполняется поиск, и используемую поисковую систему для обработки запросов и отображения результатов. Однако большинство концептуальных поисковых систем лучше всего подходят для определенных типов запросов:
Как и в случае со всеми поисковыми стратегиями, опытные поисковики обычно уточняют свои запросы с помощью нескольких поисков, начиная с начальный исходный запрос для получения концептуально релевантных результатов, которые затем можно использовать для составления и / или уточнения дополнительных запросов для получения все более релевантных результатов. В зависимости от поисковой системы использование концепций запроса, найденных в документах результатов, может быть таким же простым, как выбор документа и выполнение аналогичной функции поиска. Изменение запроса путем добавления терминов и понятий для повышения релевантности результатов называется расширением запроса. Использование онтологий, таких как WordNet, было изучено для расширения запросов с помощью концептуально связанных слов.
Отзыв о релевантности - это функция, которая помогает пользователям определить, результаты, полученные по их запросам, соответствуют их информационным потребностям. Другими словами, релевантность оценивается относительно потребности в информации, а не запроса. Документ актуален, если он отвечает заявленной потребности в информации, а не потому, что он просто содержит все слова в запросе. Это способ вовлечь пользователей в процесс поиска, чтобы улучшить конечный набор результатов. Пользователи могут уточнить свои запросы на основе своих первоначальных результатов, чтобы улучшить качество своих конечных результатов.
В общем, релевантность поиска концепций относится к степени сходства между концепциями, выраженными в запросе, и концепциями, содержащимися в результатах, возвращаемых по запросу. Чем больше концепции в результатах похожи на концепции, содержащиеся в запросе, тем более релевантными считаются результаты. Результаты обычно ранжируются и сортируются по релевантности, так что наиболее релевантные результаты находятся вверху списка результатов, а наименее релевантные результаты - внизу списка.
Обратная связь по релевантности оказалась очень эффективной для повышения релевантности результатов. Поиск концепций снижает риск пропуска важных элементов результатов, потому что все элементы, связанные с концепциями в запросе, будут возвращены независимо от того, содержат ли они те же слова, что и в запросе.
Ранжирование будет продолжено быть частью любой современной информационно-поисковой системы. Однако проблемы разнородных данных, масштаба и нетрадиционных типов дискурса, отраженные в тексте, наряду с тем фактом, что поисковые системы будут все больше и больше становиться интегрированными компонентами сложных процессов управления информацией, а не просто автономными системами, потребуют новых видов. ответов системы на запрос. Например, одна из проблем с ранжированными списками заключается в том, что они могут не выявить связи, существующие между некоторыми элементами результатов.
Формализованная оценка поисковой системы продолжается уже много лет. Например, Конференция по поиску текста (TREC) была начата в 1992 году для поддержки исследований в сообществе поиска информации путем предоставления инфраструктуры, необходимой для крупномасштабной оценки методологий поиска текста. Большинство современных коммерческих поисковых систем включают технологию, впервые разработанную в TREC.
В 1997 году был запущен японский аналог TREC, названный Национальным институтом информатики Test Collection для IR-систем (NTCIR). NTCIR проводит серию оценочных семинаров для исследований в области поиска информации, ответов на вопросы, резюмирования текста и т. Д. Европейская серия семинаров под названием Cross Language Evaluation Forum (CLEF) была начата в 2001 году для содействия исследованиям в области многоязычия. доступ к информации. В 2002 г. была учреждена Инициатива по оценке поиска XML (INEX) для оценки ориентированных на контент систем поиска XML.
Точность и отзыв являются двумя традиционными показателями эффективности систем поиска информации. Точность - это та часть полученных документов результатов, которая имеет отношение к информационным потребностям пользователя. Отзыв определяется как доля релевантных документов во всей коллекции, которые возвращаются как документы результатов.
Хотя семинары и общедоступные тестовые коллекции, используемые для тестирования и оценки поисковых систем, предоставили существенное понимание того, как управляется информация Полученная и извлеченная, эта область лишь поверхностно коснулась проблем, с которыми люди и организации сталкиваются при поиске, управлении и использовании информации сейчас, когда доступно так много информации. Научные данные о том, как люди используют доступные им сегодня информационные инструменты, все еще неполны, потому что экспериментальные исследовательские методики не успевают за быстрыми темпами изменений. Многие проблемы, такие как контекстный поиск, управление личной информацией, интеграция информации и поддержка задач, все еще требуют решения.