Инвертированный индекс

редактировать

В информатике, инвертированный индекс (также упоминается в качестве файла сообщений или инвертированного файла ) - это индекс базы данных, в котором хранится отображение содержимого, такого как слова или числа, в его местоположения в таблица, либо в документе, либо в наборе документов (названном в отличие от прямого индекса, который сопоставляет документы с содержанием). Целью инвертированного индекса является обеспечение быстрого полнотекстового поиска за счет увеличения объема обработки при добавлении документа в базу данных. Инвертированный файл может быть самим файлом базы данных, а не ее индексом. Это самая популярная структура данных, используемая в системах поиска документов, широко используемых, например, в поисковых системах. Кроме того, несколько важных систем управления базами данных на базе мэйнфреймов общего назначения использовали архитектуры инвертированных списков, включая ADABAS, DATACOM / DB, и Модель 204.

Существует два основных варианта инвертированных индексов: A инвертированный индекс уровня записи (или инвертированный файловый индекс или просто инвертированный файл ) содержит список ссылок на документы по каждому слову. Инвертированный индекс уровня слова (или полный инвертированный индекс или инвертированный список ) дополнительно содержит позиции каждого слова в документе. Последняя форма предлагает больше функциональных возможностей (например, поиск фраз ), но требует большей вычислительной мощности и места для создания.

Содержание

1 Приложения
2 Сжатие
3 См. Также
4 Библиография
5 Ссылки
6 Внешние ссылки

Приложения

Инвертированный индекс структура данных является центральным компонентом типичного алгоритма индексации поисковой системы. Цель реализации поисковой системы - оптимизировать скорость запроса: найти документы, в которых встречается слово X. После разработки прямого индекса, в котором хранятся списки слов для каждого документа, он затем инвертируется для создания инвертированного индекса. Запрос прямого индекса потребует последовательной итерации по каждому документу и каждому слову для проверки совпадающего документа. Время, память и ресурсы обработки для выполнения такого запроса не всегда технически реалистичны. Вместо того, чтобы перечислять слова для каждого документа в прямом индексе, разрабатывается структура данных инвертированного индекса, которая перечисляет документы на каждое слово.

После создания инвертированного индекса запрос теперь может быть решен путем перехода к идентификатору слова (через произвольный доступ ) в инвертированном индексе.

В докомпьютерные времена соответствия важным книгам собирались вручную. Это были фактически перевернутые указатели с небольшим количеством сопроводительных комментариев, для составления которых требовалось колоссальное количество усилий.

В биоинформатике инвертированные индексы очень важны в сборке последовательности коротких фрагментов секвенированной ДНК. Один из способов найти источник фрагмента - найти его по эталонной последовательности ДНК. Небольшое количество несоответствий (из-за различий между секвенированной ДНК и эталонной ДНК или ошибок) можно объяснить путем деления фрагмента на более мелкие фрагменты - по крайней мере, один субфрагмент, вероятно, будет соответствовать эталонной последовательности ДНК. Сопоставление требует построения инвертированного индекса всех подстрок определенной длины из эталонной последовательности ДНК. Поскольку человеческая ДНК содержит более 3 миллиардов пар оснований, и нам нужно хранить подстроку ДНК для каждого индекса и 32-битное целое число для самого индекса, требования к хранилищу для такого инвертированного индекса, вероятно, будут составлять десятки гигабайт.

Сжатие

По историческим причинам сжатие инвертированных списков и сжатие растровых изображений были разработаны как отдельные направления исследований, и только позже были признаны решающими по существу ту же проблему.

См. Также

Библиография

Knuth, DE (1997) [1973]. «6.5. Получение дополнительных ключей». Искусство программирования (Третье изд.). Рединг, Массачусетс : Эддисон-Уэсли. ISBN 0-201-89685-0.
Зобель, Джастин; Моффат, Алистер; Рамамоханарао, Котагири (декабрь 1998 г.). «Инвертированные файлы по сравнению с файлами сигнатур для текстового индексирования». ACM-транзакции в системах баз данных. Нью-Йорк: Ассоциация вычислительной техники. 23(4): 453–490. doi : 10.1145 / 296854.277632.
Зобель, Джастин; Моффат, Алистер (июль 2006 г.). «Инвертированные файлы для текстовых поисковых систем». ACM Computing Surveys. Нью-Йорк: Association for Computing Machinery. 38(2): 6. doi : 10.1145 / 1132956.1132959.
Баеза-Йейтс, Рикардо ; Рибейро-Нето, Бертье (1999). Современный информационный поиск. Ридинг, Массачусетс : Эддисон-Уэсли Лонгман. п. 192. ISBN 0-201-39829-X.
Солтон, Джерард; Фокс, Эдвард А.; Ву, Гарри (1983). «Поиск расширенной логической информации». Commun. ACM. ACM. 26 (11): 1022. doi : 10.1145 / 182.358466. hdl : 1813/6351.
Поиск информации: внедрение и оценка поисковых систем. Кембридж, Массачусетс: MIT Press. 2010. ISBN 978-0-262-02651-2.

Ссылки

Внешние ссылки

Словарь алгоритмов и структур данных NIST: инвертированный индекс
Управление Gigabytes for Java - бесплатная полнотекстовая поисковая машина для больших коллекций документов, написанная на Java.
Lucene - Apache Lucene - это полнофункциональная библиотека текстового поискового движка, написанная на Java.
Sphinx Search - Высокопроизводительная полнофункциональная библиотека системы текстового поиска с открытым исходным кодом, используемая craigslist и другими, использующими инвертированный индекс.
Примеры реализации в Rosetta Code
Панель инструментов поиска изображений большого размера Caltech : набор инструментов Matlab, реализующий поиск изображений с помощью перевернутого файла.