Получение информационных ресурсов, относящихся к информационной потребности
Поиск информации (IR) - это действие по получению информационной системы ресурсы, относящиеся к информационным потребностям, из совокупности этих ресурсов. Поиск может быть основан на полнотекстовом или другом индексировании на основе содержимого. Информационный поиск - это наука о поиске информации в документе, поиске самих документов, а также поиске метаданных, описывающих данные, а также баз данных текстов, изображений или звуков.
Автоматизированные системы поиска информации используются для уменьшения того, что было названо информационной перегрузкой. IR-система - это программная система, которая обеспечивает доступ к книгам, журналам и другим документам; хранит и управляет этими документами. Поисковые системы в Интернете являются наиболее заметными IR-приложениями.
Содержание
- 1 Обзор
- 2 История
- 3 Типы моделей
- 3.1 Первое измерение: математическая основа
- 3.2 Второе измерение: свойства модели
- 4 Показатели эффективности и корректности
- 5 Временная шкала
- 6 Основные конференции
- 7 Награды в данной области
- 8 См. Также
- 9 Ссылки
- 10 Дополнительная литература
- 11 Внешние ссылки
Обзор
Процесс поиска информации начинается, когда пользователь вводит запрос в систему. Запросы - это формальные утверждения информационных потребностей, например строки поиска в поисковых системах. При поиске информации запрос не может однозначно идентифицировать отдельный объект в коллекции. Вместо этого несколько объектов могут соответствовать запросу, возможно, с разной степенью релевантности.
Объект - это объект, который представлен информацией в коллекции контента или базе данных. Пользовательские запросы сопоставляются с информацией из базы данных. Однако, в отличие от классических SQL-запросов к базе данных, при поиске информации возвращаемые результаты могут совпадать или не совпадать с запросом, поэтому результаты обычно ранжируются. Этот ранжирование результатов является ключевым отличием поиска при поиске информации по сравнению с поиском в базе данных.
В зависимости от приложения объекты данных могут быть, например, текстовыми документами, изображения, аудио, интеллект-карты или видео. Часто сами документы не хранятся или хранятся непосредственно в IR-системе, а вместо этого представлены в системе суррогатами документов или метаданными.
Большинство IR-систем вычисляют числовую оценку того, насколько хорошо каждый объект в базе данных соответствует запрос и ранжируйте объекты в соответствии с этим значением. Затем пользователю показываются объекты с самым высоким рейтингом. Затем процесс может быть повторен, если пользователь желает уточнить запрос.
История
есть... машина под названием Univac... в которой буквы и цифры кодируются как узор из магнитных пятен на длинной стальной ленте. Таким образом, можно записать текст документа, которому предшествует символ его предметного кода... машина... автоматически выбирает и печатает те ссылки, которые были закодированы любым желаемым способом, со скоростью 120 слов в минуту.
— Дж. Э. Холмстрем, 1948
Идея использования компьютеров для поиска релевантной информации была популяризирована в статье Как мы можем думать, написанной Ванневаром Бушем в 1945 году. что Буш был вдохновлен патентами на «статистическую машину», поданную Эмануэлем Голдбергом в 1920-х и 30-х годах, которая искала документы, хранящиеся на пленке. Первое описание компьютера, ищущего информацию, было описано Холмстремом в 1948 году, подробно описывая раннее упоминание компьютера Univac. Автоматизированные системы поиска информации были представлены в 1950-х годах: одна из них даже была показана в романтической комедии 1957 года Desk Set. В 1960-х годах Джерард Солтон в Корнелле создал первую крупную исследовательскую группу по поиску информации. К 1970-м годам было показано, что несколько различных методов поиска хорошо работают с небольшими текстовыми корпусами, такими как коллекция Крэнфилда (несколько тысяч документов). Крупномасштабные поисковые системы, такие как система Lockheed Dialog, начали использоваться в начале 1970-х годов.
В 1992 году Министерство обороны США вместе с Национальным институтом стандартов и технологий (NIST) выступило одним из спонсоров конференции по поиску текста (TREC) в рамках текстовая программа TIPSTER. Целью этого было изучение сообщества поиска информации путем предоставления инфраструктуры, необходимой для оценки методологий поиска текста в очень большой коллекции текстов. Это послужило катализатором исследования методов, которые масштабируются до огромных корпусов. Внедрение поисковых систем еще больше повысило потребность в очень крупномасштабных поисковых системах.
Типы моделей
Категоризация IR-моделей (перевод с
немецкая статья, первоисточник
Доминик Куропка ).
Для эффективного поиска релевантных документов с помощью IR-стратегий, документы обычно преобразуется в подходящее представление. Каждая стратегия поиска включает в себя определенную модель для целей представления документа. На рисунке справа показана взаимосвязь некоторых общих моделей. На рисунке модели разделены на категории по двум параметрам: математическая основа и свойства модели.
Первое измерение: математическая основа
- Теоретико-множественные модели представляют документы в виде наборов слов или фраз. Сходства обычно выводятся из теоретико-множественных операций над этими Наборы. Распространенными моделями являются:
- Алгебраические модели представляют документы и запросы обычно в виде векторов, матриц или кортежей. Сходство вектора запроса и d вектор наблюдения представлен в виде скалярного значения.
- Вероятностные модели рассматривают процесс поиска документа как вероятностный вывод. Сходства вычисляются как вероятности того, что документ актуален для данного запроса. В этих моделях часто используются вероятностные теоремы, такие как теорема Байеса.
- Модели поиска на основе признаков рассматривают документы как векторы значений функций признаков (или просто признаков) и ищут лучший способ объединить эти признаки в единую оценку релевантности, обычно с помощью обучения ранжировать методы. Функции функций - это произвольные функции документа и запроса, и поэтому они могут легко включать практически любую другую модель поиска в качестве просто еще одной функции.
Второе измерение: свойства модели
- Модели без взаимозависимостей терминов обрабатывают разные термины / слова как независимый. Этот факт обычно представлен в моделях векторных пространств предположением ортогональности векторов термов или в вероятностных моделях предположением независимости терм переменных.
- Модели с имманентным членом Взаимозависимости позволяют представить взаимозависимости между терминами. Однако степень взаимозависимости между двумя терминами определяется самой моделью. Обычно он прямо или косвенно выводится (например, посредством уменьшения размеров ) из совместного появления этих терминов во всем наборе документов.
- Модели с трансцендентным термином взаимозависимости позволяют представить взаимозависимости между терминами, но они не утверждают, как определяется взаимозависимость между двумя терминами. Они полагаются на внешний источник степени взаимозависимости между двумя терминами. (Например, человек или сложные алгоритмы.)
Показатели производительности и правильности
Оценка информационно-поисковой системы '- это процесс оценки того, насколько хорошо система удовлетворяет информационные потребности своих пользователей. Как правило, измерение рассматривает набор документов, в которых выполняется поиск, и поисковый запрос. Традиционные показатели оценки, разработанные для логического поиска или поиска топ-k, включают точность и отзыв. Все меры предполагают основную истину понятие релевантности: известно, что каждый документ либо релевантен, либо не имеет отношения к определенному запросу. На практике запросы могут быть некорректными и могут иметь разные оттенки релевантности.
Временная шкала
- До 1900-х
- 1801 : Джозеф Мари Жаккард изобретает жаккардовый ткацкий станок, первую машину, в которой использовались перфорированные карты для управления последовательностью операций.
- 1880-е : Герман Холлерит изобретает электромеханический табулятор данных, использующий перфокарты в качестве машиночитаемого носителя.
- 1890 Холлерит карты, нажатия клавиш и табуляторы, используемые для обработки данных переписи населения США 1890 года.
- 1920-е-1930-е годы
- Эмануэль Голдберг подает патенты на свою "Статистическую машину" - поисковую машину, которая использовала фотоэлементы и распознавание образов для поиска метаданных на рулонах микрофильмированных документов.
- 1940-е – 1950-е годы
- конец 1940-х : американские военные столкнулись с проблемами индексирование и поиск документов военных исследований, захваченных у немцев.
- 1945 : As We May Think Ванневара Буша появилось в Atlantic Monthly.
- 1947 : Ханс Петер Лун (инженер-исследователь в IBM sin в 1941 г.) начал работу над механизированной системой поиска химических соединений на основе перфокарт.
- 1950-е : Растущее беспокойство в США по поводу "научного разрыва" с СССР мотивировало, поощряло финансирование и обеспечивало фон для механизированных системы поиска литературы (Аллен Кент и др.) и изобретение индексации цитирования (Юджин Гарфилд ).
- 1950 : термин «поиск информации» был придуман Калвином Мурсом.
- 1951 : Филип Бэгли провел самый ранний эксперимент по компьютеризированному поиску документов в магистерской диссертации в MIT.
- 1955 : Аллен Кент присоединился к Западному резервному университету Кейса и в конце концов стал заместителем директора Центра исследований документации и коммуникаций. В том же году Кент и его коллеги опубликовали статью в American Documentation, описывающую меры точности и отзыва, а также детализирующую предлагаемую «структуру» для оценки IR-системы, которая включала методы статистической выборки для определения количества релевантных документов, которые не были извлечены.
- 1958 : Международная конференция по научной информации в Вашингтоне, округ Колумбия, включила рассмотрение ИК-систем как решения выявленных проблем. См.: Материалы Международной конференции по научной информации, 1958 (Национальная академия наук, Вашингтон, округ Колумбия, 1959)
- 1959 : Ганс Питер Лун опубликовал «Автоматическое кодирование документов для информации. поиск. "
- 1960-е :
- начало 1960-х : Джерард Солтон начал работу над IR в Гарварде, позже переехал в Корнелл.
- 1960 : Мелвин Эрл Марон и Джон Лэри Кунс опубликовали статью «О релевантности, вероятностном индексировании и поиске информации» в журнале ACM 7 (3): 216–244, июль 1960 года.
- 1962 :
- Сирил У. Клевердон опубликовал первые результаты исследований Крэнфилда, разработав модель для оценки системы IR. См.: Сирил В. Клевердон, «Отчет о тестировании и анализе исследования сравнительной эффективности систем индексации». Cranfield Collection of Aeronautics, Cranfield, England, 1962.
- Кент опубликовал анализ и поиск информации.
- 1963 :
- В отчете Вайнберга «Наука, правительство и информация» была полностью сформулирована идея « кризис научной информации ». Отчет был назван в честь доктора Элвина Вайнберга.
- Джозефа Беккера и Роберта М. Хейса опубликованного текста об информационном поиске. Беккер, Джозеф; Хейс, Роберт Мэйо. Хранение и поиск информации: инструменты, элементы, теории. New York, Wiley (1963).
- 1964 :
- Карен Спарк Джонс защитила диссертацию в Кембридже по теме «Синонимия и семантическая классификация» и продолжила работу по компьютерной лингвистике применительно к IR.
- Национальное бюро стандартов спонсировало симпозиум под названием «Методы статистической ассоциации для механизированной документации». Несколько очень важных статей, в том числе первая опубликованная ссылка (по нашему мнению) Дж. Солтона на систему SMART.
- середина 1960-х :
- Национальная медицинская библиотека разработала MEDLARS Медицинская литература Система анализа и поиска, первая крупная машиночитаемая база данных и система пакетного поиска.
- Project Intrex в MIT.
- 1965 : J. CR Licklider опубликовал "Библиотеки будущего".
- 1966 : Дон Свонсон принимал участие в исследованиях в Чикагском университете требований к каталогам будущего.
- конец 1960-х : Ф. Уилфрид Ланкастер завершил оценочные исследования системы MEDLARS и опубликовал первое издание своего текста по поиску информации.
- 1968 :
- Джерард Салтон опубликовал Автоматическую организацию и поиск информации.
- В техническом отчете RADC Джона В. Сэммона младшего «Некоторая математика хранения и поиска информации...» описана векторная модель.
- 1969 : «Нелинейное отображение для анализа структуры данных » Сэммона (IEEE Transactions on Computers) было первым предложением по интерфейсу визуализации для IR-системы.
- 1970-е
- начало 1970-х :
- Первые онлайн-системы - NLM AIM-TWX, MEDLINE; Lockheed's Dialog; ОРБИТА SDC.
- Теодор Нельсон продвигает концепцию гипертекста, опубликовал Computer Lib / Dream Machines.
- 1971 : Николас Джардин и Корнелис J. van Rijsbergen опубликовал «Использование в информационном поиске», в котором сформулировал «кластерную гипотезу».
- 1975 : Три очень влиятельных публикации Салтона полностью сформулировали его структуру векторной обработки и термин дискриминация модель:
- Теория индексации (Общество промышленной и прикладной математики)
- Теория важности терминов в автоматическом анализе текста (JASIS v. 26)
- Модель векторного пространства для автоматического индексирования (CACM 18:11)
- 1978 : Первая конференция ACM SIGIR.
- 1979 : CJ van Rijsbergen опубликовал информационный поиск (Butterworths). Особое внимание уделяется вероятностным моделям.
- 1979 : Тамас Дошкочс реализовал CITE естественный язык интерфейса для MEDLINE в Национальной медицинской библиотеке. Система CITE поддерживает ввод запросов в произвольной форме, ранжированный вывод и обратную связь по релевантности.
- 1980-е годы
- 1980 : Первая международная конференция ACM SIGIR, совместная с IR-группой Британского компьютерного общества в Кембридже.
- 1982 : Николас Дж. Белкин, Роберт Н. Одди и Хелен М. Брукс предложили точку зрения ASK (аномальное состояние знаний) для поиска информации. Это была важная концепция, хотя их автоматизированный инструмент анализа оказался в конечном итоге разочаровывающим.
- 1983 : Салтон (и Майкл Дж. Макгилл) опубликовали Введение в современный информационный поиск (McGraw-Hill), с упором на векторные модели.
- 1985 : Дэвид Блер и Билл Марон публикуют: Оценка эффективности поиска для системы поиска полнотекстовых документов
- середина 1980-х годов : усилия по разработке конечных пользовательские версии коммерческих ИК-систем.
- 1985–1993 : Ключевые статьи и экспериментальные системы для интерфейсов визуализации.
- Работа, Роберт Р. Корфхаге, Мэтью Чалмерс, Ансельм Шпёрри и другие.
- 1989 : Первые предложения World Wide Web от Тима Бернерса-Ли в CERN.
- 1990-е годы
- 1992 : Первые TREC конференция.
- 1997 : Публикация Korfhage по хранению и поиску информации с упором на визуализацию и системы с несколькими опорными точками.
- 1999 : публикация Рикардо Баеза-Йейтс и «Современный поиск информации» Бертье Рибейро-Нето Аддисона Уэсли, первая книга, которая пытается охватить все IR.
- конец 1990-х : поисковые системы в Интернете реализация многих функций, ранее обнаруживаемых только в экспериментальных ИК-системах. Поисковые системы становятся наиболее распространенным и, возможно, лучшим экземпляром IR-моделей.
Основные конференции
Награды в этой области
См. также
Ссылки
Дополнительная литература
- Рикардо Баеза-Йейтс, Бертье Рибейро-Нето. Современный поиск информации: концепции и технологии поиска (второе издание). Addison-Wesley, UK, 2011.
- Стефан Бюттчер, Чарльз Л. А. Кларк и Гордон В. Кормак. Поиск информации: внедрение и оценка поисковых систем. MIT Press, Кембридж, Массачусетс, 2010.
- «Система поиска информации». Библиотечно-информационная сеть. 24 апреля 2015 г.
- Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Введение в поиск информации. Cambridge University Press, 2008.
Внешние ссылки
| Викицитатник содержит цитаты, относящиеся к: Поиск информации |
| Викискладе есть носители, связанные с Поиском информации. |