Технология поисковых систем

редактировать

A поисковая система - это программа для поиска информации, которая обнаруживает, сканирует, преобразует и хранит информацию для поиска и представления в ответ на запросы пользователей.

ИЛИ

Поисковая система - это веб-инструмент, позволяющий пользователю находить информацию на www.

Поисковая система обычно состоит из четырех компонентов, например интерфейс поиска, краулер (также известный как паук или бот), индексатор и база данных. Сканер просматривает собрание документов, разбирает текст документа и назначает суррогаты для хранения в индексе поисковой системы. Поисковые системы в Интернете также хранят изображения, данные ссылок и метаданные для документа...

Содержание

1 История поисковых технологий
2 Memex
3 SMART
4 Строковые поисковые системы
5 поисковых систем
- 5.1 Арчи
- 5.2 Вероника
- 5.3 Одинокий странник
- 5.4 Excite
- 5.5 Yahoo!
- 5.6 Lycos
6 типов поисковых систем
7 Категории поисковых систем
- 7.1 Системы веб-поиска
  - 7.1.1 Сканирование
  - 7.1.2 Карта ссылок
- 7.2 Поисковые системы по базам данных
- 7.3 Смешанные поисковые системы
8 См. Также
9 Ссылки

История поисковых технологий

Memex

Концепция гипертекста и расширения памяти берет свое начало из статьи, опубликованной в журнале The Atlantic Monthly в июле 1945 года. написанный Ванневаром Бушем, озаглавленный Как мы можем думать. В этой статье Ванневар призвал ученых работать вместе, чтобы помочь создать совокупность знаний для всего человечества. Затем он предложил идею практически безграничной, быстрой, надежной, расширяемой ассоциативной системы хранения и поиска в памяти. Он назвал это устройство memex.

. Буш считал понятие «ассоциативное индексирование» своим ключевым концептуальным вкладом. Как он пояснил, это было «положение, согласно которому любой элемент может быть вызван по желанию для немедленного и автоматического выбора другого. Это важная особенность мемекса. Очень важно соединить два предмета вместе ». Эта «связь» (как мы теперь говорим) составляла «след» документов, которые можно было назвать, закодировать и снова найти. Более того, после того, как исходные два элемента были соединены, «многочисленные элементы» можно было «соединить вместе, чтобы образовать след»; их можно было «просматривать по очереди, быстро или медленно, отклоняя рычаг, подобный тому, который используется для перелистывания страниц книги. Точно так же, как если бы физические предметы были собраны вместе из широко разнесенных источников и связаны вместе, чтобы сформировать новую книгу »

Все документы, используемые в мемексе, будут в форме копии микрофильмов, приобретенных как таковые или, в случае личных записей, преобразование в микрофильм самой машиной. Memex также будет использовать новые методы поиска, основанные на новом виде ассоциативной индексации, основной идеей которой является положение, согласно которому любой элемент может быть вызван по желанию для немедленного и автоматического выбора другого для создания личных «следов» через связанные документы. Новые процедуры, которые, как ожидал Буш, облегчили хранение и поиск информации, приведут к разработке совершенно новых форм энциклопедии.

Самым важным механизмом, задуманным Бушем и рассматриваемым как закрытый для современных гипертекстовых систем, является ассоциативный след. Это был бы способ создать новую линейную последовательность кадров микрофильма через любую произвольную последовательность кадров микрофильма путем создания связанной последовательности ссылок, как только что описано, наряду с личными комментариями и дополнительными следами. Существенной особенностью memex [является] процесс связывания двух элементов вместе... Когда пользователь строит след, он называет его в своей кодовой книге и нажимает на клавиатуре. Перед ним два объекта, которые нужно соединить, проецируются на соседние точки обзора. Внизу каждого есть несколько пустых кодовых пробелов, и установлен указатель, чтобы указать одно из них на каждом элементе. Пользователь нажимает одну клавишу, и элементы постоянно соединяются... После этого в любое время, когда один из этих элементов находится в поле зрения, другой можно немедленно вызвать, просто нажав кнопку под соответствующим пространством кода.

В статье Буша не описывается ни автоматический поиск, ни какая-либо универсальная схема метаданных, такая как стандартная библиотечная классификация или набор гипертекстовых элементов. Вместо этого, когда пользователь делал запись, такую как новая или аннотированная рукопись или изображение, он должен был проиндексировать и описать ее в своей личной кодовой книге. Позже, обратившись к своей кодовой книге, пользователь мог отследить аннотированные и сгенерированные записи.

В 1965 году Буш принял участие в проекте INTREX Массачусетского технологического института по разработке технологии механизации обработки информации для библиотечного использования. В своем эссе 1967 года под названием «Memex Revisited» он указал, что развитие цифрового компьютера, транзистора, видео и других подобных устройств повысило осуществимость такой механизации, но затраты замедлили ее достижение. Он снова был прав.

Тед Нельсон, который позже проделал новаторскую работу с первой практической гипертекстовой системой и ввел термин «гипертекст» в 1960-х, назвал Буша своим главным влиянием. Джерард Солтон, скончавшийся 28 августа 1995 года, был отцом современных поисковых технологий. Его команды в Гарварде и Корнелле разработали информационно-поисковую систему SMART. Magic Automatic Retriever of Text от Salton включает такие важные концепции, как модель векторного пространства , обратная частота документа (IDF), частота термина (TF), значения различения терминов и механизмы обратной связи по релевантности.

Он написал 56-страничную книгу под названием «Теория индексирования», в которой объяснялись многие из его тестов, на которых поиск все еще в значительной степени основан.

Строковые поисковые машины

В 1987 году была опубликована статья, в которой подробно описывалась разработка символьной поисковой машины (SSE) для быстрого поиска текста на двойном металлическом 1,6-мкм твердотельном КМОП-матрице с n-лунками. -государственная схема с 217600 транзисторами, размещенная на площади кристалла 8,62х12,76 мм. В SSE реализована новая архитектура поиска строк, сочетающая логику 512-ступенчатого конечного автомата (FSA) с адресуемой памятью (CAM) для достижения приблизительного сравнения строк до 80 миллионов строк в секунду. Ячейка CAM состояла из четырех ячеек обычного статического RAM (SRAM) и схемы чтения / записи. Одновременное сравнение 64 сохраненных строк переменной длины было достигнуто за 50 нс для входного текстового потока 10 миллионов символов / с, что позволило обеспечить производительность, несмотря на наличие ошибок одного символа в виде кодов символов. Кроме того, чип позволял поиск строки без привязки и поиск строки переменной длины "безразлично" (VLDC).

Системы веб-поиска

Арчи

Первый поиск в Интернете Engine был Archie, созданный в 1990 году Аланом Эмтаджем, студентом Университета Макгилла в Монреале. Первоначально автор хотел назвать программу «архивами», но ему пришлось сократить ее, чтобы соответствовать мировому стандарту Unix для присвоения программ и файлов коротких загадочных имен, таких как grep, cat, troff, sed, awk, perl и т. Д..

Основным методом хранения и извлечения файлов был протокол передачи файлов (FTP). Это была (и остается) система, определяющая общий способ для компьютеров обмена файлами через Интернет. Это работает так: какой-то администратор решает, что он хочет сделать файлы доступными со своего компьютера. Он устанавливает на своем компьютере программу, которая называется FTP-сервером. Когда кто-то в Интернете хочет получить файл с этого компьютера, он или она подключается к нему через другую программу, называемую FTP-клиентом. Любая клиентская программа FTP может подключаться к любой программе FTP-сервера, если и клиентская, и серверная программы полностью соответствуют спецификациям, изложенным в протоколе FTP.

Изначально любой, кто хотел поделиться файлом, должен был настроить FTP-сервер, чтобы сделать файл доступным для других. Позже «анонимные» FTP-сайты стали хранилищами файлов, позволяя всем пользователям публиковать и извлекать их.

Даже с сайтами архивов многие важные файлы все еще были разбросаны по маленьким FTP-серверам. К сожалению, эти файлы могли быть обнаружены только с помощью Интернет-эквивалента молвы: кто-то отправлял электронное письмо в список сообщений или дискуссионный форум, объявляя о доступности файла.

Арчи все изменил. Он объединил сборщик данных на основе сценариев, который извлекает списки сайтов с анонимными FTP-файлами, с сопоставителем регулярных выражений для получения имен файлов, соответствующих запросу пользователя. (4) Другими словами, сборщик Арчи прочесал FTP-сайты в Интернете и проиндексировал все найденные файлы. Средство сопоставления регулярных выражений предоставило пользователям доступ к базе данных.

Veronica

В 1993 году группа System Computing Services Университета Невады разработала Veronica. Он был создан как тип поискового устройства, аналогичного Archie, но для файлов Gopher. Другой поисковый сервис Gopher, названный Jughead, появился немного позже, вероятно, с единственной целью - дополнить триумвират комиксов. Джагхед - это аббревиатура от слова Jonzy's Universal Gopher Hierarchy Excavation and Display, хотя, как и Вероника, вероятно, можно с уверенностью предположить, что создатель поддержал эту аббревиатуру. Функциональность Джагхеда была в значительной степени идентична функциональности Вероники, хотя, кажется, она была немного грубее по краям.

Одинокий странник

World Wide Web Wanderer, разработанный Мэтью Грей в 1993 году был первым роботом в сети, который был разработан для отслеживания роста сети. Первоначально Wanderer считал только веб-серверы, но вскоре после его появления он начал захватывать URL-адреса по мере продвижения. База данных захваченных URL стала первой веб-базой данных Wandex.

«Странник» Мэтью Грея вызвал в то время довольно много споров, отчасти потому, что ранние версии программного обеспечения быстро распространялись по сети и вызвали заметное снижение производительности в сети. Эта деградация произошла из-за того, что Странник обращался к одной и той же странице сотни раз в день. Вскоре The Wanderer изменил свой подход, но споры о том, хороши ли роботы для Интернета или плохи, остались.

В ответ на Wanderer, Мартин Костер в октябре 1993 года создал Archie-Like Indexing of the Web, или ALIWEB. Как следует из названия, ALIWEB был HTTP-эквивалентом Archie, и поэтому по-прежнему уникален во многих отношениях.

ALIWEB не имеет робота для поиска в Интернете. Вместо этого веб-мастера участвующих сайтов публикуют свои собственные индексные данные для каждой страницы, которую они хотят перечислить. Преимущество этого метода заключается в том, что пользователи могут описывать свой собственный сайт, а робот не пытается съесть пропускную способность сети. К сожалению, недостатки ALIWEB сегодня представляют собой большую проблему. Основным недостатком является необходимость отправки специального файла индексации. Большинство пользователей не понимают, как создать такой файл, и поэтому не отправляют свои страницы. Это приводит к относительно небольшой базе данных, а это означает, что пользователи с меньшей вероятностью будут искать в ALIWEB, чем на одном из крупных сайтов, основанных на ботах. Этот Catch-22 был несколько компенсирован включением других баз данных в поиск ALIWEB, но он все еще не пользуется популярностью среди поисковых систем, таких как Yahoo! или Lycos.

Excite

Excite, первоначально называвшаяся Architext, была основана шестью студентами Стэнфордского университета в феврале 1993 года. Их идея заключалась в использовании статистического анализа словесных отношений для обеспечения более эффективного поиска по большой объем информации в Интернете. Их проект был полностью профинансирован к середине 1993 года. После того, как финансирование было обеспечено. они выпустили версию своего программного обеспечения для поиска, которую веб-мастера могут использовать на своих собственных веб-сайтах. В то время это программное обеспечение называлось Architext, но теперь оно называется Excite для веб-серверов.

Excite была первой серьезной коммерческой поисковой системой, запущенной в 1995 году. Она была разработана в Стэнфорде и была куплена за 6,5 миллиардов долларов от @Home. В 2001 году Excite и @Home обанкротились, а InfoSpace купила Excite за 10 миллионов долларов.

Некоторые из первых анализов веб-поиска были проведены по журналам поиска из Excite

Yahoo!

В апреле 1994 года два доктора философии Стэнфордского университета. кандидаты, Дэвид Фило и Джерри Янг, создали несколько страниц, которые стали довольно популярными. Они назвали сборник страниц Yahoo! Их официальное объяснение выбора имени заключалось в том, что они считали себя парой yahoos.

По мере того, как количество ссылок росло, а их страницы начали получать тысячи обращений в день, команда разработала способы лучше организовать данные. Чтобы помочь в поиске данных, Yahoo! (www.yahoo.com) стал каталогом с возможностью поиска. Функция поиска была простой поисковой машиной по базе данных. Потому что Yahoo! записи вводились и классифицировались вручную, Yahoo! не был действительно классифицирован как поисковая машина. Вместо этого обычно считалось, что это каталог с возможностью поиска. Yahoo! с тех пор автоматизировал некоторые аспекты процесса сбора и классификации, стирая различие между движком и каталогом.

Wanderer захватил только URL-адреса, что затрудняло поиск вещей, которые не были явно описаны в их URL-адресах. Поскольку URL-адреса с самого начала довольно загадочны, это не помогло обычному пользователю. Поиск Yahoo! или Galaxy был намного более эффективным, потому что он содержал дополнительную описательную информацию об индексируемых сайтах.

Lycos

В июле 1994 года в Университете Карнеги-Меллона Майкл Молдин, уволившись из CMU, разработал поисковую систему Lycos.

Типы поисковых систем в Интернете

Поисковые системы в Интернете - это сайты, на которых имеется возможность поиска по содержанию, хранящемуся на других сайтах. Различные поисковые системы по-разному работают, но все они выполняют три основные задачи.

Поиск и выбор полного или частичного контента на основе предоставленных ключевых слов.
Поддержание индекса содержания и ссылки на местоположение, которое они находят
Позволяет пользователям искать слова или комбинации слов, найденные в этом индексе.

Процесс начинается, когда пользователь вводит запрос в систему через предоставленный интерфейс.

Тип	Пример	Описание
Обычный	каталог библиотеки	Поиск по ключевому слову, названию, автору и т. Д.
Текст- на основе	Google, Bing, Yahoo!	Поиск по ключевым словам. Ограниченный поиск с использованием запросов на естественном языке.
Голосовое управление	Google, Bing, Yahoo!	Поиск по ключевым словам. Ограниченный поиск с использованием запросов на естественном языке.
Мультимедийный поиск	QBIC, WebSeek, SaFe	Поиск по внешнему виду (формы, цвета,..)
Q / A	Stack Exchange, NSIR	Поиск на (ограниченном) естественном языке
Clustering Systems	Vivisimo, Clusty
Research Systems	Lemur, Nutch

Существует три основных типа поисковых систем: Те, которые управляются роботами (так называемые краулеры ; муравьи или пауки), и те, которые управляются людьми; и те, которые представляют собой гибрид этих двух.

Поисковые системы на основе поисковых роботов - это те системы, которые используют автоматизированные программные агенты (называемые сканерами), которые посещают веб-сайт, читают информацию на реальном сайте, читают метатеги сайта, а также переходят по ссылкам, с которыми связан сайт. для выполнения индексации на всех связанных веб-сайтах. Сканер возвращает всю эту информацию в центральный депозитарий, где данные индексируются. Сканер будет периодически возвращаться на сайты, чтобы проверить, нет ли измененной информации. Частота, с которой это происходит, определяется администраторами поисковой системы.

Поисковые системы, управляемые людьми, полагаются на людей для предоставления информации, которая впоследствии индексируется и каталогизируется. В индекс помещается только отправленная информация.

В обоих случаях, когда вы запрашиваете поисковую систему, чтобы найти информацию, вы фактически выполняете поиск по индексу, созданному поисковой машиной - вы на самом деле не ищете в Интернете. Эти индексы представляют собой гигантские базы данных информации, которая собирается и хранится, а затем используется для поиска. Это объясняет, почему иногда поиск в коммерческой поисковой системе, такой как Yahoo! или Google, вернет результаты, которые фактически являются мертвыми ссылками. Поскольку результаты поиска основаны на индексе, если индекс не обновлялся с тех пор, как веб-страница стала недействительной, поисковая машина рассматривает страницу как все еще активную ссылку, даже если это уже не так. Так будет и дальше до обновления индекса.

Так почему же один и тот же поиск в разных поисковых системах дает разные результаты? Частично ответ на этот вопрос заключается в том, что не все индексы будут одинаковыми. Это зависит от того, что найдут пауки или что представят люди. Но что еще более важно, не все поисковые системы используют один и тот же алгоритм для поиска по индексам. Алгоритм - это то, что используют поисковые системы для определения релевантности информации в индексе тому, что ищет пользователь.

Одним из элементов, которые ищет алгоритм поисковой системы, является частота и расположение ключевых слов на веб-странице. Те, у кого частота выше, обычно считаются более актуальными. Но технологии поисковых систем становятся все более изощренными, пытаясь воспрепятствовать так называемому "наполнению ключевыми словами" или спам-индексации.

Еще один распространенный элемент, который анализируют алгоритмы, - это то, как страницы ссылаются на другие страницы в Интернете. Анализируя, как страницы связаны друг с другом, движок может определить, о чем страница (если ключевые слова связанных страниц похожи на ключевые слова на исходной странице), и считается ли эта страница «важной» и заслуживающей повышение в рейтинге. Подобно тому, как технология становится все более изощренной, позволяющей игнорировать заполнение ключевыми словами, она также становится более сообразительной для веб-мастеров, которые создают искусственные ссылки на свои сайты, чтобы создать искусственный рейтинг.

Современные поисковые системы - это сложные программные системы, в которых используются технологии, которые развивались с годами. Существует ряд подкатегорий программного обеспечения для поисковых систем, которые применимы отдельно к конкретным потребностям «просмотра». К ним относятся поисковые системы в Интернете (например, Google ), поисковые системы по базам данных или структурированным данным (например, Dieselpoint ), а также смешанные поисковые системы или поисковые системы предприятия. Наиболее распространенные поисковые системы, такие как Google и Yahoo!, используют сотни тысяч компьютеров для обработки триллионов веб-страниц, чтобы возвращать довольно точные результаты. Из-за такого большого объема запросов и обработки текста программное обеспечение требуется для работы в высокодисперсной среде с высокой степенью избыточности.

Категории поисковых систем

Поисковые системы в Интернете

Поисковые системы, специально предназначенные для поиска по веб-страницам, документам и изображениям, были разработаны для облегчения поиска по большим туманным пятнам неструктурированных ресурсов. Они спроектированы так, чтобы следовать многоступенчатому процессу: сканирование бесконечного запаса страниц и документов, чтобы удалить образную пену из их содержимого, индексацию пены / модных словечек в своего рода полуструктурированной форме (база данных или что-то еще) и, наконец,, разрешая пользовательские записи / запросы для получения наиболее релевантных результатов и ссылок на эти просмотренные документы или страницы из инвентаря.

Сканирование

В случае полностью текстового поиска первым шагом в классификации веб-страниц является поиск «элемента индекса», который может иметь прямое отношение к «поисковому запросу». Раньше поисковые системы начинали с небольшого списка URL-адресов в виде так называемого начального списка, извлекали контент и анализировали ссылки на этих страницах для получения соответствующей информации, которая впоследствии предоставляла новые ссылки. Этот процесс был очень цикличным и продолжался до тех пор, пока не было найдено достаточно страниц для использования поисковиком. В наши дни используется метод непрерывного сканирования, а не случайное обнаружение на основе начального списка. Метод сканирования является расширением вышеупомянутого метода обнаружения. За исключением того, что нет списка семян, потому что система никогда не прекращает работу.

Большинство поисковых систем используют сложные алгоритмы планирования, чтобы «решить», когда повторно посещать определенную страницу, чтобы добиться ее релевантности. Эти алгоритмы варьируются от постоянного интервала посещения с более высоким приоритетом для более часто меняющихся страниц до адаптивного интервала посещения на основе нескольких критериев, таких как частота изменений, популярность и общее качество сайта. Скорость веб-сервера, на котором выполняется страница, а также ограничения ресурсов, такие как количество оборудования или пропускная способность, также учитываются.

Карта ссылок

Страницы, обнаруженные при сканировании, часто распределяются и подается на другой компьютер, который создает настоящую карту обнаруженных ресурсов. Группа clustermass немного похожа на граф, на котором разные страницы представлены в виде небольших узлов, которые связаны ссылками между страницами. Избыток данных хранится в нескольких структурах данных, которые обеспечивают быстрый доступ к указанным данным с помощью определенных алгоритмов, которые вычисляют рейтинг популярности страниц в Интернете на основе того, сколько ссылок указывает на определенную веб-страницу, и именно так люди могут получить доступ к любому количеству ресурсов, связанных с диагностикой психозов. Другой пример - доступность / рейтинг веб-страниц, содержащих информацию о Мохаммеде Морси, по сравнению с самыми лучшими достопримечательностями Каира после простого ввода слова «Египет» в качестве поискового запроса. Один из таких алгоритмов, PageRank, предложенный основателями Google Ларри Пейджем и Сергеем Брином, хорошо известен и привлек много внимания, потому что он подчеркивает повторяющуюся банальность веб-поиска, любезно предоставленную студентами, которые не знают, как правильно исследуйте предметы в Google. Идея проведения анализа ссылок для вычисления рейтинга популярности старше, чем PageRank. В настоящее время используются и другие варианты той же идеи - школьники выполняют аналогичные вычисления при выборе команд по кикболу. Но если серьезно, эти идеи можно разделить на три основные категории: рейтинг отдельных страниц и характер содержания веб-сайта. Поисковые системы часто различают внутренние ссылки и внешние ссылки, потому что веб-мастера и любовницы не чужды бессовестной саморекламе. Структуры данных карты ссылок обычно хранят текст привязки, встроенный в ссылки, потому что текст привязки часто может обеспечить «очень хорошее качество» сводку содержимого веб-страницы.

Поисковые системы по базам данных

Поиск текстового контента в базах данных представляет несколько особых проблем, с которыми успешно справляется ряд специализированных поисковых систем. Базы данных могут работать медленно при решении сложных запросов (с несколькими аргументами логического или строкового сопоставления). Базы данных допускают псевдологические запросы, которые не используются при полнотекстовом поиске. Для базы данных сканирование не требуется, поскольку данные уже структурированы. Однако часто бывает необходимо индексировать данные в более экономичной форме, чтобы обеспечить более быстрый поиск.

Смешанные поисковые системы

Иногда искомые данные содержат как содержимое базы данных, так и веб-страницы или документы. Технология поисковых систем разработана с учетом обоих наборов требований. Большинство смешанных поисковых систем - это крупные поисковые системы в Интернете, такие как Google. Они ищут как в источниках структурированных, так и неструктурированных данных. Возьмем, к примеру, слово «мяч». Проще говоря, только в Википедии оно возвращает более 40 вариантов. Вы имели в виду бал, как в тусовках / танцах? Футбольный мяч? Подушечка стопы? Страницы и документы просматриваются и индексируются в отдельном индексе. Базы данных индексируются также из различных источников. Затем результаты поиска генерируются для пользователей путем параллельного запроса этих нескольких индексов и объединения результатов в соответствии с «правилами».

См. Также

Ссылки