Специальные (блок Unicode)

редактировать
Блок Unicode, содержащий некоторые специальные кодовые точки и два несимвольных символа Блок символов Unicode
Specials
ДиапазонU + FFF0..U + FFFF. (16 кодовых точек)
ПлоскостьBMP
СкриптыОбщие
Назначено5 кодовых точек
Не используется9 зарезервированных кодовых точек. 2 несимвола
История версий Unicode
1.0.01 (+1)
2,12 (+1)
3,05 (+3)
Примечание :

Specials - это короткий Unicode блок, размещенный в самом конце базовой многоязычной плоскости, в U + FFF0 – FFFF. Из этих 16 кодовых точек пять были присвоены, начиная с Unicode 3.0:

  • U + FFF9 МЕЖЛИНЕЙНЫЙ ЯКОРЬ АННОТАЦИИ, отмечает начало аннотированного текста
  • U + FFFA МЕЖЛИНЕЙНЫЙ РАЗДЕЛИТЕЛЬ АННОТАЦИИ, отмечает начало символа аннотации (s)
  • U + FFFB КОНЕЦ ИНТЕРЛИНЕЙНОЙ АННОТАЦИИ, отмечает конец блока аннотации
  • U + FFFC  СИМВОЛ ЗАМЕНЫ ОБЪЕКТА, заполнитель в тексте для другого неуказанного объекта, например, в составной документ.
  • U + FFFD СИМВОЛ ЗАМЕНЫ, используемый для замены неизвестного, нераспознанного или непредставимого символа
  • U + FFFE не символ.
  • U + FFFF не символ.

FFFE и FFFF не являются неназначенными в обычном смысле, но гарантированно не будут символами Unicode вообще. Их можно использовать, чтобы угадать схему кодировки текста, поскольку любой текст, содержащий их, по определению не является правильно закодированным текстом Unicode. Символ Unicode U + FEFF BYTE ORDER MARK может быть вставлен в начало текста Unicode, чтобы обозначить его endianness : программа, читающая такой текст и обнаруживающая 0xFFFE тогда будет известно, что он должен изменить порядок байтов для всех следующих символов.

Его имя блока в Unicode 1.0 было Special .

Contents

  • 1 замещающий символ
  • 2 Unicode chart
  • 3 History
  • 4 См. Также
  • 5 Ссылки

Символ замены

Символ замены

Символ замены (часто черный ромб с белым вопросительным знаком или пустой квадрат) - это символ, найденный в Unicode стандартно в кодовой точке U + FFFD в таблице Specials. Он используется для обозначения проблем, когда система не может преобразовать поток данных в правильный символ. Обычно это наблюдается, когда данные недействительны и не соответствуют ни одному символу:

Рассмотрим текстовый файл, содержащий немецкое слово «für» (что означает «для») в ISO-8859-1 кодировка (0x66 0xFC 0x72). Теперь этот файл открывается в текстовом редакторе, предполагающем, что вводится UTF-8. Первый и последний байт являются допустимыми кодировками UTF-8 для ASCII, но средний байт (0xFC) не является допустимым байтом в UTF-8. Следовательно, текстовый редактор может заменить этот байт символом замены, чтобы создать допустимую строку кодовых точек Unicode . Теперь вся строка выглядит так: «f r».

Плохо реализованный текстовый редактор может сохранить замену в форме UTF-8; тогда данные текстового файла будут выглядеть следующим образом: 0x66 0xEF 0xBF 0xBD 0x72, который будет отображаться в ISO-8859-1 как «f�r» (это называется mojibake ). Поскольку замена одинакова для всех ошибок, восстановить исходный символ невозможно. Лучше (но труднее реализовать) дизайн - сохранить исходные байты, включая ошибку, и преобразовать в замену только при отображении текста. Это позволит текстовому редактору сохранить исходную последовательность байтов, по-прежнему показывая пользователю индикатор ошибки.

Когда-то заменяющий символ часто использовался, когда в шрифте не было глифа для этого символа. Однако в большинстве современных систем визуализации текста вместо шрифта используется символ.notdef, который в большинстве случаев представляет собой пустое поле (или «?» В поле), иногда называемый «тофу » (этот браузер отображает). Для этого символа нет кода Unicode.

Таким образом, заменяющий символ теперь виден только для ошибок кодирования, таких как недопустимый UTF-8. Некоторое программное обеспечение пытается скрыть это, переводя байты недопустимого UTF-8 в совпадающие символы в Windows-1252 (поскольку это наиболее вероятный источник этих ошибок), так что заменяющий символ никогда не виден.

Таблица Unicode

Specials. Таблица кодов официального Unicode Consortium (PDF)
0123456789ABCDEF
U + FFFxIA. AIA. SIA. T
Примечания
1.^Начиная с Unicode версии 13.0
2.^Серые области обозначают неназначенные кодовые точки
3.^Черные области обозначают несимволы (кодовые точки, которые, как гарантируется, никогда не будут назначены как закодированные символы в стандарте Unicode)

История

Следующие документы, связанные с Unicode, описывают цель и процесс определения определенных символов в блоке Specials:

Версия Конечные кодовые точкиCountUTC IDL2 IDWG2 IDДокумент
1.0.0U + FFFD1(подлежит определению)
U + FFFE..FFFF2(подлежит определению)
L2 / 01-295R Мур, Лиза (2001-11-06), "Motion 88-M2", протоколы встречи UTC / L2 № 88
L2 / 01-355 N2369 (html, doc )Дэвис, Марк (2001-09-26), Запрос на разрешение FFFF, FFFE в UTF-8 в тексте ISO / IEC 10646
L2 / 02-154 N2403 Умамахесваран, VS (2002-04-22), "9.3 Разрешение FFFF и FF FE в UTF-8 ", Проект протокола совещания 41 WG 2, Hotel Phoenix, Сингапур, 2001-10-15 / 19
2,1U + FFFC1UTC / 1995-056Сарджент, Мюррей (1995-12-06), Рекомендация по кодированию символа WCH_EMBEDDING
UTC / 1996-002 Алипранд, Джоан; Харт, Эдвин; Гринфилд, Стив (1996-03-05), "Встроенные объекты", UTC # 67 Минуты
N1365Сарджент, Мюррей (1996-03-18), Краткое содержание предложения - Характер замены объекта
N1353 Умамахесваран, ВС; Ксар, Майк (1996-06-25), "8.14", Проект протокола совещания WG2 в Копенгагене №30
L2 / 97-288N1603 Умамахесваран, ВС (1997-10-24), " 7.3 ", неподтвержденный протокол собрания, заседание РГ 2 № 33, Ираклион, Крит, Греция, 20 июня - 4 июля 1997 г.
L2 / 98-004R N1681Текст ISO 10646 - 18 драмов РА для регистрации PDAM и бюллетень FPDAM, 1997-12-22
L2 / 98-070 Алипранд, Джоан; Винклер, Арнольд, «Дополнительные комментарии относительно 2.1», Протокол совместной встречи в формате UTC и L2 с встречи в Купертино, 25-27 февраля 1998 г.
L2 / 98-318 N1894 Пересмотренный текст 10646 -1 / FPDAM 18, ПОПРАВКА 18: Символы и прочее, 1998-10-22
3.0U + FFF9..FFFB3L2 / 97-255R Алипранд, Джоан (1997 -12-03), «3.D Предложение по встроенной нотации (рубин)», Утвержденный протокол - совместное заседание UTC № 73 и L2 № 170, Пало-Альто, Калифорния - 4-5 августа 1997 г.
L2 / 98-055 Фрейтаг, Асмус (1998-02-22), Поддержка реализации встроенных и подстрочных аннотаций
L2 / 98-070 Алипранд, Джоан; Винклер, Арнольд, «3.C.5. Поддержка реализации встроенных и подстрочных аннотаций», Протокол совместной встречи в формате UTC и L2 со встречи в Купертино, 25-27 февраля 1998 г.
L2 / 98-099N1727Фрейтаг, Асмус (1998-03-18), Поддержка внедрения подстрочных аннотаций, используемых в восточноазиатской типографии
L2 / 98-158 Алипранд, Джоан; Винклер, Арнольд (1998-05-26), «Встроенные и подстрочные аннотации», проект протокола - совместное заседание подгруппы L2 # 173 UTC и NCITS, Тредиффрин, Пенсильвания, 20-22 апреля 1998 г.
L2 / 98- 286N1703 Умамахесваран, Вирджиния; Ксар, Майк (1998-07-02), «8.14», неподтвержденный протокол собрания, РГ 2, собрание № 34, Редмонд, Вашингтон, США; 1998-03-16-20
L2 / 98-270Хиура, Хидеки; Кобаяси, Тацуо (1998-07-29), Предложение к предложению по встроенной и подстрочной аннотации
L2 / 98-281R (pdf, html )Алипранд, Джоан ( 1998-07-31), "Встроенная и подстрочная аннотация (III.C.1.c)", неподтвержденные протоколы - UTC # 77 и NCITS Subgroup L2 # 174 СОВМЕСТНОЕ ВСТРЕЧА, Редмонд, Вашингтон - 29-31 июля, 1998
L2 / 98-363N1861 Sato, TK (1998-09-01), Рубиновые маркеры
L2 / 98-372N1884R2 (pdf, doc )Уистлер, Кен; и др. (1998-09-22), Дополнительные символы для UCS
L2 / 98-416N1882.zip Поддержка реализации подстрочных аннотаций, 1998-09 гг. -23
L2 / 98-329 N1920 Объединенный бюллетень регистрации и рассмотрения PDAM в WD для ISO / IEC 10646-1 / Amd.30, ПОПРАВКА 30: Дополнительные латинские и другие символы, 1998-10- 28
L2 / 98-421R Суиньяр, Мишель; Хиура, Хидеки (1998-12-04), Примечания относительно подстрочных знаков аннотации PDAM 30
L2 / 99-010 N1903 (pdf, html, doc )Умамахесваран, Вирджиния (1998-12-30), «8.2.15», Протокол заседания РГ 2 № 35, Лондон, Великобритания; 1998-09-21-25
L2 / 98-419 (pdf, doc )Алипранд, Джоан (1999-02-05), «Подстрочные символы аннотации», утвержденный протокол - UTC # 78 и NCITS Subgroup L2 # 175 Совместное совещание, Сан-Хосе, Калифорния - 1-4 декабря 1998 г.
UTC / 1999-021 Дюрст, Мартин; Босак, Джон (1999 -06-08), заявление W3C XML CG о символах аннотации
L2 / 99-176R Мур, Лиза (1999-11-04), "Заявление о взаимодействии W3C по символам аннотации", Минуты от совместного UTC / Встреча L2 в Сиэтле, 8-10 июня 1999 г.
L2 / 01-301 Уистлер, Кен (2001-08-01), "E. Обозначен как" настоятельно не рекомендуется "для обмена открытым текстом", Анализ Устаревшие символы в стандарте Unicode

См. Также

Ссылки

Последняя правка сделана 2021-06-09 02:06:49
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте