Глубокая сеть

редактировать

Содержимое Всемирной паутины, не индексируемое поисковыми системами

Глубокая сеть, невидимое сеть или скрытая сеть являются частями Всемирной паутины, содержимое которой не проиндексировано стандартными поисковыми системами в Интернете. Термин, противоположный глубокой сети, - это «поверхностная сеть », которая доступна каждому / каждому, кто пользуется Интернетом. Компьютерный ученый Майкл К. Бергману приписывают создание термина «глубокая сеть» в 2001 году в качестве термина для индексации поиска.

Содержимое глубокой сети скрыто за формами HTTP и включает множество очень распространенных применений, таких как веб-почта, онлайн-банкинг, частный или иным образом ограниченный доступ страницы и профили социальных сетей, некоторые веб-форумы, для просмотра которых требуется регистрация контент и услуги, за которые пользователи должны платить и которые защищены платным доступом, например видео по запросу и некоторые онлайн-журналы и газеты.

Содержимое глубокой сети может быть обнаружено и доступно по прямому URL или IP-адресу, но может потребоваться пароль или другой доступ безопасности, чтобы пройти через общедоступные -страницы сайта.

Содержание

1 Терминология
2 Неиндексированный контент
3 Методы индексирования
4 Типы контента
5 См. Также
6 Ссылки
7 Дополнительная литература
8 Внешние ссылки

Терминология

Первое объединение терминов «глубокая сеть» и «темная сеть » произошло в 2009 году, когда обсуждалась терминология глубокого веб-поиска вместе с имеющейся незаконной деятельностью. в Freenet и darknet. Эта преступная деятельность включает торговлю личными паролями, поддельными документами, удостоверяющими личность, наркотиками и огнестрельным оружием.

С тех пор, после того, как они были использованы в сообщениях СМИ о Шелковом пути, СМИ стали использовать использование «глубокой сети» как синонима с даркнетом или даркнетом, сравнение, которое некоторые отвергают как неточное, и, следовательно, стало постоянным источником путаницы. Журналисты Wired Ким Зеттер и Энди Гринберг рекомендуют использовать эти термины в разных стилях. В то время как глубокая сеть - это ссылка на любой сайт, к которому нельзя получить доступ через традиционную поисковую систему, темная сеть - это часть глубокой сети, которая была намеренно скрыта и недоступна для стандартных браузеров и методов.

Неиндексированный контент

Бергман в статье о глубокой сети, опубликованной в The Journal of Electronic Publishing, упомянул, что Джилл Эллсуорт использовала термин Invisible Web в 1994 году для обозначения веб-сайты, которые не были зарегистрированы ни в одной поисковой системе. Бергман процитировал статью Фрэнка Гарсиа, опубликованную в январе 1996 года:

Возможно, это был бы сайт с разумным дизайном, но они не удосужились зарегистрировать его ни в одной из поисковых систем. Значит, их никто не может найти! Ты спрятан. Я называю это невидимой паутиной.

Еще одно раннее использование термина «невидимая паутина» было использовано Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании инструмента Deep Web №1, найденного в пресс-релиз за декабрь 1996 года.

Первое использование конкретного термина «глубокая сеть», ныне общепринятого, произошло в вышеупомянутом исследовании Бергмана 2001 года.

Методы индексирования

Методы, которые предотвращение индексации веб-страниц традиционными поисковыми системами может быть отнесено к одной или нескольким из следующих категорий:

Контекстная сеть : страницы с содержанием, различающимся для разных контекстов доступа (например, диапазоны IP-адресов клиентов или предыдущая последовательность навигации
Динамическое содержимое : динамические страницы, которые возвращаются в ответ на отправленный запрос или доступны только через форму, особенно если элементы ввода открытого домена (например, текстовые поля) являются используемый; по таким полям трудно перемещаться без знания предметной области.
Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническим способом (например, используя Стандарт исключения роботов или CAPTCHA или директива no-store, которая запрещает поисковым системам просматривать их и создавать кэшированные копии).
Не-HTML / текстовое содержимое : текстовое содержимое, закодированное в мультимедиа ( изображения или видео) или определенные форматы файлов, не обрабатываемые поисковыми системами.
Частный Интернет : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
Содержимое сценариев : страницы, которые доступны только через ссылки, созданные JavaScript, а также контент, динамически загружаемый с веб-серверов с помощью решений Flash или Ajax.
Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета, доступен только с помощью специального программного обеспечения, такого как Tor, I2P или другого программного обеспечения даркнета. Например, Tor позволяет пользователям получать доступ к веб-сайтам, используя адрес сервера .onion анонимно, скрывая свой IP-адрес.
Несвязанный контент : страницы, на которые не ссылаются другие страницы, что может помешать веб-сканирование программ от доступа к содержанию. Этот контент называется страницами без обратных ссылок (также известных как внутренние ссылки). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с просматриваемых веб-страниц.
Веб-архивы : веб-архивные службы, такие как Wayback Machine, позволяют пользователям просматривать заархивированные версии веб-страниц во времени, включая веб-сайты, которые стали недоступны и не индексируются поисковыми системами, такими как Google.

Типы контента

Хотя не всегда возможно напрямую обнаружить контент определенного веб-сервера, чтобы его можно было проиндексировать, потенциально к сайту можно получить доступ косвенно (из-за компьютерных уязвимостей ).

Для обнаружения контента в Интернете поисковые системы используют веб-сканеры, которые переходят по гиперссылкам через известные протоколы виртуальных номеров портов. Этот метод идеально подходит для обнаружения контента в поверхностной сети, но часто оказывается неэффективным при поиске контента в глубокой сети. Например, эти сканеры не пытаются найти динамические страницы, являющиеся результатом запросов к базе данных, из-за неопределенного количества возможных запросов. Было отмечено, что это можно (частично) преодолеть, предоставив ссылки на результаты запроса, но это может непреднамеренно повысить популярность члена глубокой сети.

DeepPeep, Intute, Deep Web Technologies, Scirus и Ahmia.fi - это несколько поисковых систем, которые получили доступ к глубокой сети. У Intute закончилось финансирование, и в настоящее время он является временным статическим архивом по состоянию на июль 2011 года. Scirus был выведен из эксплуатации в конце января 2013 года.

Исследователи изучали, как можно автоматически сканировать глубокую сеть, включая контент доступ к ним возможен только с помощью специального программного обеспечения, такого как Tor. В 2001 году Шрирам Рагхаван и Гектор Гарсиа-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) представили архитектурную модель поискового робота скрытого Интернета, в котором используются ключевые термины, предоставленные пользователями или собранные из интерфейсов запросов, для запроса веб-формы и сканирования Контент Deep Web. Александрос Нтулас, Петрос Зерфос и Джунху Чо из UCLA создали искатель скрытой сети, который автоматически генерировал значимые запросы для отправки в поисковые формы. Было предложено несколько языков запросов форм (например, DEQUEL), которые, помимо выдачи запроса, также позволяют извлекать структурированные данные из страниц результатов. Еще одна попытка - DeepPeep, проект Университета штата Юта, спонсируемый Национальным научным фондом, который собирал скрытые веб-источники (веб-формы) в разных доменах на основе новых целенаправленных методов сканирования..

Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой сети. Протокол Sitemap (впервые разработанный и представленный Google в 2005 году) и OAI-PMH - это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокой сети на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать доступные на них URL-адреса, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностной сетью. Система просмотра страниц в глубокой сети Google вычисляет отправленные данные для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Обнаруженные результаты составляют тысячу запросов в секунду к глубокому веб-контенту. В этой системе предварительное вычисление представлений выполняется с использованием трех алгоритмов:

выбор входных значений для входных данных текстового поиска, которые принимают ключевые слова,
определение входных данных, которые принимают только значения определенного типа (например, дата) и
выбор небольшого количества входных комбинаций, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.

В 2008 году, чтобы облегчить пользователям скрытых служб Tor их доступ и поиск скрытого суффикса .onion, Аарон Шварц разработал Tor2web - прокси-приложение, способное предоставлять доступ с помощью обычных веб-браузеров. При использовании этого приложения глубокие веб-ссылки отображаются в виде случайной строки букв, за которыми следует домен верхнего уровня.onion .

См. Также

Ссылки

Дополнительная литература

Внешние ссылки

Средства массовой информации, относящиеся к глубокой сети на Wikimedia Commons

Посмотрите Deep Web в Wiktionary, бесплатный словарь.

Интернет-портал