Области частного использования

редактировать

Unicode: три диапазона кодовых точек, которым Консорциум Unicode не присвоил символы

В Unicode, Область частного использования (PUA ) - это диапазон кодовых точек, которым по определению не будут присвоены символы с помощью Консорциум Unicode. Определены три области частного использования: одна в базовой многоязычной плоскости (U + E000- U + F8FF), и по одной в каждой и почти покрывающей, плоскости 15 и 16 (U + F0000- U + FFFFD, U + 100000- U + 10FFFD). Кодовые точки в этих областях нельзя рассматривать как стандартные символы в самом Юникоде. Они намеренно оставлены неопределенными, чтобы третьи стороны могли определять свои собственные символы без конфликта с назначениями Консорциума Unicode. В соответствии с Политикой стабильности Unicode области частного использования будут по-прежнему выделены для этой цели во всех будущих версиях Unicode.

Назначения символов области частного использования не обязательно должны быть "частными" в смысле строго внутренними для организации; ряд схем распределения был опубликован несколькими организациями. Такая публикация может включать в себя шрифт, поддерживающий определение (показывающий глифы), и программное обеспечение, использующее символы для личного использования (например, графический символ для функции «печать документа»). По определению, несколько частных лиц могут назначать разные символы одной и той же кодовой точке, в результате чего пользователь может видеть один частный символ из установленного шрифта, где предназначался другой.

Содержание

1 Определение
2 Назначение
3 Использование
- 3.1 Инициатива по стандартизации использует
- 3.2 Использование поставщиком
4 блока PUA Unicode
5 символов частного использования в другом символе устанавливает
6 Примечания
7 Ссылки

Определение

Согласно определению Unicode, кодовым точкам в областях частного использования назначаются символы - они не являются несимвольными, зарезервированными или неназначенными. Их категория - «Другое, частное использование (Co)», и имена персонажей не указаны. Никаких репрезентативных глифов не предусмотрено, а семантика символов оставлена на усмотрение.

Символам частного использования назначаются кодовые точки Unicode, интерпретация которых не указана в этом стандарте и использование которых может определяться частным соглашением между сотрудничающими пользователями. Эти символы предназначены для частного использования и не имеют определенной интерпретируемой семантики, кроме как по частному соглашению.

…

Для символов частного использования не предоставляются диаграммы, поскольку любые такие символы по самой своей природе определены только вне контекста этого стандарта.

Назначение

В базовой многоязычной плоскости (плоскости 0), блок под названием Private Use Area имеет 6400 кодовых точек. Самолеты 15 и 16 почти полностью отнесены к двум дополнительным Зонам частного использования, Зоне дополнительного частного использования-A и Зоне дополнительного частного использования-B соответственно.

Для кодирования символов из плоскостей 15 и 16 в UTF-16 следующий блок BMP назначается суррогатам высокого частного использования (U + DB80..U + DBFF, 128 кодовых точек).

Диапазон	Плоскость	Имя блока	Количество кодовых точек	Примечание
U + E000..U + F8FF	BMP (0)	Область частного использования	6,400
U + F0000..U + FFFFD	PUP (15)	Область дополнительного частного использования-A	65,534	UTF-16 кодирует эти символы, используя кодовые точки из блока High Private Use Surrogates (U + DB80..U + DBFF) в BMP.
U + 100000..U + 10FFFD	PUP (16)	Дополнительная область частного использования-B	65,534
Примечания ^Данные Unicode 13.0 ^Стандарт Unicode, раздел 23.5 : Символы частного использования ^Кодовые точки U + FFFFE, U + FFFFF, U + 10FFFE и U + 10FFFF являются несимволами, а не символами частного использования. ^плоскость частного использования : Unicode не опубликовал идентифицирующие имена для самолетов 15 и 16. В главе 2.8 говорится о двух плоскостях частного использования (плоскости 15 и 16), в то время как используемые имена блоков PUA - Дополнительные PUA -A и Дополнительный PUA-B.

Использование

Инициатива стандартизации использует

Многие люди и организации создали коллекции персонажей для PUA. Некоторые из этих соглашений о частном использовании публикуются, поэтому другие разработчики PUA могут стремиться к неиспользованным или менее используемым кодовым точкам, чтобы предотвратить дублирование. Некоторые символы и сценарии, ранее закодированные в соглашениях о частном использовании, фактически были полностью закодированы в Unicode, что потребовало сопоставлений из PUA с другими кодовыми точками Unicode.

Одно из наиболее известных и широко применяемых соглашений PUA поддерживается ConScript Unicode Registry (CSUR). CSUR, который официально не одобрен и не связан с Консорциумом Unicode, предоставляет сопоставление для сконструированных сценариев, таких как Klingon pIqaD и сценарий Ференги (Star Trek), Tengwar и Кирт (рукописные и рунические шрифты Дж. Р. Р. Толкина), Видимая речь Александра Мелвилла Белла и алфавит доктора Сьюза из По ту сторону зебры. CSUR ранее кодировал нерасшифрованные символы Phaistos, а также алфавиты Shavian и Deseret, которые были приняты для официальной кодировки в Unicode.

Другое распространенное соглашение PUA поддерживается Medieval Unicode Font Initiative (MUFI). Этот проект пытается поддержать все сокращения писцов, лигатуры, заранее составленные символы, символы и альтернативные буквенные формы, встречающиеся в средневековых текстах, написанных латинским алфавитом. Конкретная цель MUFI - экспериментально определить, какие символы необходимы для представления этих текстов, и чтобы эти символы были официально закодированы в Unicode. Начиная с версии 5.1 Unicode, 152 символа MUFI были включены в официальную кодировку Unicode.

Некоторые согласованные коллекции символов PUA существуют частично или полностью, потому что Консорциум Unicode не торопится их кодировать. Некоторые из них, например, непредставленные языки, скорее всего, в будущем будут закодированы. Некоторые необычные случаи, такие как вымышленные языки, выходят за рамки обычного Юникода, но не исключаются явно принципами Юникода и могут со временем проявиться (например, системы письма «Звездный путь» и Толкин). В других случаях предлагаемая кодировка нарушает один или несколько принципов Unicode и, следовательно, вряд ли когда-либо будет официально признана Unicode - в основном, когда пользователи хотят напрямую кодировать альтернативные формы, лигатуры или комбинации базового символа плюс диакритический знак (например, Схема TUNE).

Издательская организация	Тема	Используемая область PUA	Шрифт
CSUR	Искусственные скрипты	PUA (BMP) и плоскость 15	Code2000
MUFI	Средневековые скрипты	PUA (BMP)	несколько
SIL	Фонетика и языки	PUA (BMP)	Charis SIL
TITUS	Древние и средневековые сценарии	PUA (BMP)	TITUS Cyberbit Basic

Emoji - кодировка символов изображения или смайликов используется в японских беспроводных сообщениях и веб-страницах. В Unicode 6.0 и более поздних версиях многие из них были закодированы в блоке Разные символы и пиктограммы и в других местах в SMP.
GB / T 20542-2006 («Расширение набора тибетских кодированных символов A ") и GB / T 22238-2008 (" Расширение набора тибетских кодовых символов B ") являются национальными стандартами Китая, которые используют PUA для кодирования предварительно составленных тибетских лигатур.
GB 18030 и GBK использует PUA для временного кодирования символов, отсутствующих в стандартах Unicode.
Институт эстонского языка использует PUA для кодирования предварительно составленных латинских и кириллических символов, которые имеют без кодировки Unicode.
Free Tengwar Font Project использует другое отображение из ConScript Unicode Registry, которое в значительной степени соответствует дискуссионному документу Майкла Эверсона от 07.03.2001 в Tengwar, но расходится в некоторых деталях.
Стандарт MARC 21 использует PUA для кодирования восточноазиатских символов, присутствующих в MARC-8, которые не имеют кодировки Unicode.
SIL Corporate PUA использует PUA для кодирования символов, используемых в языках меньшинств, которые еще не были приняты в Unicode.
Проект STIX Fonts использует PUA для предоставляет полный набор шрифтов математических символов и алфавитов, многие из которых теперь также доступны в SMP, например в блоке Mathematical Alphanumeric Symbols.
Новое кодирование тамильского Unicode (TUNE) - это предлагаемая схема кодирования тамильского, которая устраняет очевидные недостатки в текущей кодировке Unicode.

Использование поставщика

Неформально диапазон от U + F000 до U + F8FF известен как область корпоративного использования.

Adobe Glyph List, используемый для использования PUA для некоторых своих глифов.
Apple перечисляет диапазон из 1280 символов в своей документации для разработчиков U + F400 – U + F8FF внутри PUA для использования Apple. Из них только 311 используется в диапазоне U + F700 – U + F8FF (NeXT (NeXTSTEP и OPENSTEP ) и Apple (Mac OS X AppKit)).
- Одним из них является U + F8FF, логотип Apple, обычно поддерживаемый 8-битными наборами Apple.
WGL4 использует PUA ( U + F001 и U + F002) для кодирования дубликатов лигатур f (U + FB01) ﬂ (U + FB02).
Служба Microsoft, больше не функционирующая для Macintosh, использовала U + F001 - U + F029 в качестве замены для специальные символы разрешены в HFS, но запрещены в NTFS и U + F02A для логотипа Apple.
В старых версиях своего компонента RichEdit Microsoft отображала U + F020 –U + F0FF внутри PUA для обозначения шрифтов. Для любого символа в этом диапазоне RichEdit покажет символ из символьного шрифта вместо определяемого конечным пользователем символа (EUDC)
AutoCAD использует U + F8FC – U + F8FE для ⌀ (знак диаметра), ± (знак плюс-минус ) и ° (знак градуса) соответственно.
В некоторых шрифтах клавиша с логотипом Windows помещается на U + F000.
Число U + F000- это числовая последовательность, начинающаяся с 13 или 18 в некоторых видеоиграх, таких как Agar.io.
в Ubuntu, U + E0FFотображается как логотип «Круг друзей», а U + F200- это «ubuntu» в Ubuntu (шрифт) с надстрочным индексом «Круг друзей» (это само U + F0FF).
Шрифт 3270 включает логотип Debian в U + F100
В шрифте Linux Libertine U + E000отображает Tux, талисман Linux
. Значок шрифта Font Awesome использует PUA для отображения различных глифов.
Powerline, плагин строки состояния для vim, используйте U + E0A0 – U + E0A2 и U + E0B0 – U + E0B3 для дополнительного блока -рисунок символов.
На гарнитуре Fira Sans, используемой в Firefox OS, U + E003отображается как логотип Mozilla ( голова динозавра).
Lotus Multi-Byte Character Set (LMBCS), кодировка и набор символов, которые используются внутри Lotus /IBM Lotus 1- 2-3, Symphony, SmartSuite, Notes, Domino, а также ряд сторонних продуктов, таких как Microsoft Works, использует некоторые символы (U + F862- U + F89Fи U + F8FB- U + F8FE) в области частного использования для символов, не определенных в Unicode. Известно, что из них U + F8FBзарезервирован для символа валюты кроны («Kr»), а U + F8FCи U + F8FDпозже были сопоставлены с U + FB02(ﬂ ) и U + FB01(ﬁ ) соответственно. Кроме того, когда коды UTF-16 встроены в LMBCS, коды UTF-16, соответствующие от U + F601до U + F6FF, заменяются кодами UTF-16, которые будут содержать нулевые байты, поскольку LMBCS не содержит встроенных нулевых байтов.
IBM зарезервировала несколько идентификаторов кодовых страниц для кодовых страниц PUA: (IBM AFP PUA No. 1), (ISO 10646 UCS-PUP15 ), (ISO 10646 UCS-PUP16 ), (PUA по умолчанию IBM).
Файловая система Windows использует U + F000- Блок U + F0FFдля экранирования специальных символов.

Блоки PUA Unicode

В Unicode есть три блока PUA.

Блок символов Юникода

Область частного использования
Диапазон	U + E000..U + F8FF. (6400 кодовых точек)
Плоскость	BMP
Скрипты	Неизвестно
Назначено	6400 кодовых точек
Не используется	0 зарезервированных кодовых точек
История версий Unicode

1.0.0	5632 (+ 5,632)
1.0.1	6,400 (+768)

Примечание : Версия 1.0.1 переместила и расширила Privat e Блок области использования (ранее располагался по адресу U + E800-U + FDFF в версии 1.0.0).

Блок символов Unicode

Дополнительная область частного использования-A
Диапазон	U + F0000..U + FFFFF. (65 536 кодовых точек)
Плоскость	SPUA-A
Скрипты	Неизвестно
Назначено	65 534 кодовых точки
Не используется	0 зарезервированных кодовых точек. 2 несимвола
История версий Unicode

2.0	65,534 (+65,534)

Примечание :

Блок символов Unicode

Дополнительный Область частного использования-B
Диапазон	U + 100000..U + 10FFFF. (65 536 кодовых точек)
Плоскость	SPUA-B
Скрипты	Неизвестно
Назначено	65 534 кодовых точки
Не используется	0 зарезервированных кодовых точек. 2 несимвольных символа
История версий Unicode

2.0	65 534 (+65,534)

Примечание :

Персонажи частного использования в других наборах символов

Концепция резервирования определенных кодовых точек для частного использования основана на аналогичном более раннем использовании в других наборах символов. В частности, многие устаревшие символы в сценариях Восточной Азии продолжают использоваться в определенных именах или других ситуациях, поэтому в некоторых наборах символов для этих сценариев учитываются символы частного использования (например, определяемые пользователем плоскости CNS 11643 или гайдзи в некоторых японских кодировках). Стандарт Unicode ссылается на эти виды использования под названием «Определение символов конечного пользователя» (EUCD).

Кроме того, блок управления C1 содержит два кода, предназначенных для частного использования «функций управления» ECMA-48 : 0x91 для частного использования один (PU1) и 0x92 для частного использования два (PU2). Unicode включает их в U + 0091 и U + 0092 , но определяет их как управляющие символы (категория Cc), а не как символы частного использования (категория Co).

Кодировки, которые не имеют областей частного использования, но имеют более или менее неиспользуемые области, такие как ISO / IEC 8859 и Shift JIS, в которых эволюционируют неконтролируемые варианты этих кодировок. Для Unicode компании-разработчики программного обеспечения могут используйте Области частного использования для желаемых дополнений.

Примечания

Ссылки