Интернационализированный идентификатор ресурса

редактировать
узел Resource Description Framework в графе RDF; представляет собой строку Unicode, которая соответствует синтаксису, определенному в RFC 3987

. Интернационализированный идентификатор ресурса (IRI ) - это стандарт интернет-протокола, который основан на протоколе Uniform Resource Identifier (URI), значительно расширяя набор разрешенных символов. Он был определен Инженерной группой Интернета (IETF) в 2005 году в RFC 3987. Хотя URI ограничиваются подмножеством набора символов ASCII, IRI могут дополнительно содержать большинство символов из универсального набора символов (Unicode / ISO 10646 ), включая китайский, японский, корейский и кириллица.

Содержание
  • 1 Синтаксис
  • 2 Совместимость
  • 3 Преимущества
  • 4 Недостатки
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки
Синтаксис

IRI расширяют URI с помощью универсального набора символов , где URI были ограничены ASCII с гораздо меньшим количеством символов. IRI могут быть представлены последовательностью октетов, но по определению определяются как последовательность символов, поскольку IRI могут произноситься или записываться от руки.

Совместимость

IRI сопоставляются с URI для сохранения обратная совместимость с системами, не поддерживающими новый формат.

Для приложений и протоколов, которые не позволяют прямое использование IRI, сначала необходимо преобразовать IRI в Unicode с помощью канонической нормализации композиции (NFC), если он еще не в формате Unicode.

Все кодовые точки, отличные от ASCII, в IRI должны быть затем закодированы как UTF-8, а результирующие байты закодированы в процентах, чтобы получить действительный URI.

Пример: IRI https://en.wiktionary.org/w/Ῥόδος становится URI https://en.wiktionary.org/w/%E1% BF% AC% CF% 8C% CE% B4% CE% BF% CF% 82

Кодовые точки ASCII, которые являются недопустимыми символами URI, могут быть закодированы таким же образом, в зависимости от реализации.

Это преобразование является легко обратимый; по определению преобразование IRI в URI и обратно даст IRI, который семантически эквивалентен исходному IRI, даже если он может отличаться точным представлением.

Некоторые протоколы могут требовать дальнейших преобразований; например Punycode для меток DNS.

Преимущества

Есть причины, по которым URI отображаются на разных языках; в основном, это упрощает задачу для пользователей, незнакомых с латинским (A – Z) алфавитом. Если предположить, что воспроизвести произвольный Unicode на клавиатуре для кого-либо не так уж сложно, это может сделать систему URI более доступной.

Недостатки

Смешивание IRI и ASCII URI могут значительно упростить выполнение фишинговых атак, которые заставляют кого-то поверить, что он находится на другом сайте, чем на самом деле. Например, можно заменить ASCII «a» в www.myfictionalbank.comна аналог Unicode «α », чтобы получить www.myfictionαlbank.comИ указать этот ИРИ на вредоносный сайт. Это известно как атака гомографа IDN.

. В то время как URI не предоставляет людям возможность указывать веб-ресурсы с использованием их собственных алфавитов, IRI не дает четкого представления о том, как можно получить доступ к веб-ресурсам с клавиатуры, которая не способен генерировать требуемые интернационализированные символы. Это означает, что теперь IRI обрабатываются так же, как и многие другие программы, которые могут потребовать использования неклавиатурного метода ввода при работе с текстами на разных языках.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-24 04:57:17
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте