Link rot

редактировать
Феномен URL-адресов, которые имеют тенденцию к прекращению функционирования

гниение ссылок (также называемое смертью ссылок, разрыв ссылок или гниение ссылок ) - это явление, когда гиперссылки со временем перестают указывать на исходный целевой файл, веб-страницу или сервер из-за к тому ресурсу, который перемещается или становится постоянно недоступным. Ссылка, которая больше не указывает на свою цель, часто называемая неработающей или неработающей ссылкой, представляет собой особую форму висячего указателя.

Скорость гниения ссылок является предметом изучения и исследования в связи с ее значимостью для Интернета. умение сохранять информацию. Оценки этого показателя сильно различаются между исследованиями.

Содержание
  • 1 Распространенность
  • 2 Причины
  • 3 Профилактика и обнаружение
  • 4 См. Также
  • 5 Дополнительная литература
  • 6 Примечания и ссылки
  • 7 Внешние ссылки
Распространенность

В ряде исследований изучалась распространенность гниения ссылок в World Wide Web, в академической литературе, где для цитирования веб-контента используются URL, и в электронные библиотеки.

Исследование 2003 года показало, что в Интернете примерно одна ссылка из каждых 200 разрывается каждую неделю, что предполагает период полураспада 138 недель. Этот показатель в значительной степени подтвержден исследованием ссылок в Yahoo! за 2016–2017 гг. Каталог (который прекратил обновляться в 2014 году после 21 года разработки), в котором период полураспада ссылок каталога составлял два года.

Исследование 2004 года показало, что подмножества веб-ссылок (например, файлы, нацеленные на определенные типы файлов или файлы, размещенные в академических учреждениях) могут иметь совершенно разные периоды полураспада. URL-адреса, выбранные для публикации, кажутся более долговечными, чем средний URL-адрес. Исследование, проведенное Weblock в 2015 году, проанализировало более 180 000 ссылок из полнотекстовых корпусов трех крупных издателей с открытым доступом и обнаружило период полураспада около 14 лет, что в целом подтвердило исследование 2005 года, которое обнаружило, что половина URL-адресов цитируется в журнале D-Lib Magazine статьи были активны через 10 лет после публикации. Другие исследования выявили более высокие показатели гниения звеньев в академической литературе, но обычно предполагают, что период полураспада составляет четыре года или больше. Исследование, проведенное в 2013 г. в BMC Bioinformatics, проанализировало почти 15 000 ссылок в отрывках из индекса цитирования Web of Science Thomson Reuters и обнаружило, что средняя продолжительность жизни веб-страниц составляла 9,3 года, и только 62% были заархивировано.

Исследование 2002 г. показало, что гниение ссылок в цифровых библиотеках происходит значительно медленнее, чем в Интернете, и обнаружило, что около 3% объектов перестали быть доступными через год (что соответствует периоду полураспада почти 23 года).

Причины

Гниль связи может возникать в нескольких случаях. Целевая веб-страница может быть удалена. Сервер, на котором размещена целевая страница, может выйти из строя, быть отключен от обслуживания или перемещен на новое доменное имя . Регистрация доменного имени может быть прекращена или передана другому лицу. Некоторые причины могут привести к тому, что ссылка не сможет найти какую-либо цель при возврате ошибки, например, HTTP 404. Другие причины приведут к тому, что ссылка будет указывать на целевой контент, отличный от того, что предполагал автор ссылки.

К другим причинам неработающих ссылок относятся:

  • реструктуризация веб-сайтов, вызывающая изменения URL-адресов (например, domain.net/pine_treeможет быть перемещен в domain.net/tree / pine)
  • перемещение ранее бесплатного контента за платный доступ
  • изменение в архитектуре сервера, в результате чего код, такой как PHP, функционирует иначе
  • динамическое содержимое страницы, такое как как результаты поиска, изменяющие намеренно
  • наличие специфической для пользователя информации (например, имя пользователя) в ссылке
  • преднамеренная блокировка фильтрами содержимого или брандмауэры
  • удаление gTLD
Предотвращение и обнаружение

Стратегии предотвращения гниения ссылок могут быть сосредоточены на размещении контента там, где вероятность его сохранения выше, и на создании ссылок, которые с меньшей вероятностью будут сломаны, предпринимаются шаги для сохранения существующих ссылок или восстанавливаются ссылки, цели которых были перемещены или удалены.

Создание URL-адресов, которые не будут меняться со временем, является фундаментальным метод предотвращения гниения звеньев. Тим Бернерс-Ли и другие первооткрыватели веба отстаивают превентивное планирование.

Стратегии, касающиеся авторства ссылок, включают:

Стратегии, относящиеся к защите существующих ссылок, включают:

  • использование механизмов перенаправления, таких как HTTP 301 для автоматического направления браузеров и поисковых роботов к перемещенному контенту
  • с помощью контента m системы управления, которые могут автоматически обновлять ссылки при перемещении содержимого на том же сайте или автоматически заменять ссылки каноническими URL-адресами
  • интеграция поисковых ресурсов в HTTP 404 страницы

Обнаружение битые ссылки могут быть созданы вручную или автоматически. К автоматизированным методам относятся плагины для систем управления контентом, а также автономные средства проверки неработающих ссылок, такие как Xenu's Link Sleuth. Автоматическая проверка может не обнаруживать ссылки, возвращающие soft 404, или ссылки, возвращающие ответ 200 OK, но указывающие на содержимое, которое было изменено.

См. Также
Дополнительная литература
Примечания и ссылки
Примечания
Ссылки
Внешние ссылки
Wikibook Authoring Webpages имеет страница на тему: Предотвращение гниения ссылок
Последняя правка сделана 2021-05-27 10:41:32
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте