В Unicode, Область частного использования (PUA ) - это диапазон кодовых точек, которым по определению не будут присвоены символы с помощью Консорциум Unicode. Определены три области частного использования: одна в базовой многоязычной плоскости (U + E000
- U + F8FF
), и по одной в каждой и почти покрывающей, плоскости 15 и 16 (U + F0000
- U + FFFFD
, U + 100000
- U + 10FFFD
). Кодовые точки в этих областях нельзя рассматривать как стандартные символы в самом Юникоде. Они намеренно оставлены неопределенными, чтобы третьи стороны могли определять свои собственные символы без конфликта с назначениями Консорциума Unicode. В соответствии с Политикой стабильности Unicode области частного использования будут по-прежнему выделены для этой цели во всех будущих версиях Unicode.
Назначения символов области частного использования не обязательно должны быть "частными" в смысле строго внутренними для организации; ряд схем распределения был опубликован несколькими организациями. Такая публикация может включать в себя шрифт, поддерживающий определение (показывающий глифы), и программное обеспечение, использующее символы для личного использования (например, графический символ для функции «печать документа»). По определению, несколько частных лиц могут назначать разные символы одной и той же кодовой точке, в результате чего пользователь может видеть один частный символ из установленного шрифта, где предназначался другой.
Согласно определению Unicode, кодовым точкам в областях частного использования назначаются символы - они не являются несимвольными, зарезервированными или неназначенными. Их категория - «Другое, частное использование (Co)
», и имена персонажей не указаны. Никаких репрезентативных глифов не предусмотрено, а семантика символов оставлена на усмотрение.
Символам частного использования назначаются кодовые точки Unicode, интерпретация которых не указана в этом стандарте и использование которых может определяться частным соглашением между сотрудничающими пользователями. Эти символы предназначены для частного использования и не имеют определенной интерпретируемой семантики, кроме как по частному соглашению.
…
Для символов частного использования не предоставляются диаграммы, поскольку любые такие символы по самой своей природе определены только вне контекста этого стандарта.
В базовой многоязычной плоскости (плоскости 0), блок под названием Private Use Area имеет 6400 кодовых точек. Самолеты 15 и 16 почти полностью отнесены к двум дополнительным Зонам частного использования, Зоне дополнительного частного использования-A и Зоне дополнительного частного использования-B соответственно.
Для кодирования символов из плоскостей 15 и 16 в UTF-16 следующий блок BMP назначается суррогатам высокого частного использования (U + DB80..U + DBFF, 128 кодовых точек).
Диапазон | Плоскость | Имя блока | Количество кодовых точек | Примечание |
---|---|---|---|---|
U + E000..U + F8FF | BMP (0) | Область частного использования | 6,400 | |
U + F0000..U + FFFFD | PUP (15) | Область дополнительного частного использования-A | 65,534 | UTF-16 кодирует эти символы, используя кодовые точки из блока High Private Use Surrogates (U + DB80..U + DBFF) в BMP. |
U + 100000..U + 10FFFD | PUP (16) | Дополнительная область частного использования-B | 65,534 | |
Примечания
|
Многие люди и организации создали коллекции персонажей для PUA. Некоторые из этих соглашений о частном использовании публикуются, поэтому другие разработчики PUA могут стремиться к неиспользованным или менее используемым кодовым точкам, чтобы предотвратить дублирование. Некоторые символы и сценарии, ранее закодированные в соглашениях о частном использовании, фактически были полностью закодированы в Unicode, что потребовало сопоставлений из PUA с другими кодовыми точками Unicode.
Одно из наиболее известных и широко применяемых соглашений PUA поддерживается ConScript Unicode Registry (CSUR). CSUR, который официально не одобрен и не связан с Консорциумом Unicode, предоставляет сопоставление для сконструированных сценариев, таких как Klingon pIqaD и сценарий Ференги (Star Trek), Tengwar и Кирт (рукописные и рунические шрифты Дж. Р. Р. Толкина), Видимая речь Александра Мелвилла Белла и алфавит доктора Сьюза из По ту сторону зебры. CSUR ранее кодировал нерасшифрованные символы Phaistos, а также алфавиты Shavian и Deseret, которые были приняты для официальной кодировки в Unicode.
Другое распространенное соглашение PUA поддерживается Medieval Unicode Font Initiative (MUFI). Этот проект пытается поддержать все сокращения писцов, лигатуры, заранее составленные символы, символы и альтернативные буквенные формы, встречающиеся в средневековых текстах, написанных латинским алфавитом. Конкретная цель MUFI - экспериментально определить, какие символы необходимы для представления этих текстов, и чтобы эти символы были официально закодированы в Unicode. Начиная с версии 5.1 Unicode, 152 символа MUFI были включены в официальную кодировку Unicode.
Некоторые согласованные коллекции символов PUA существуют частично или полностью, потому что Консорциум Unicode не торопится их кодировать. Некоторые из них, например, непредставленные языки, скорее всего, в будущем будут закодированы. Некоторые необычные случаи, такие как вымышленные языки, выходят за рамки обычного Юникода, но не исключаются явно принципами Юникода и могут со временем проявиться (например, системы письма «Звездный путь» и Толкин). В других случаях предлагаемая кодировка нарушает один или несколько принципов Unicode и, следовательно, вряд ли когда-либо будет официально признана Unicode - в основном, когда пользователи хотят напрямую кодировать альтернативные формы, лигатуры или комбинации базового символа плюс диакритический знак (например, Схема TUNE).
Издательская организация | Тема | Используемая область PUA | Шрифт |
---|---|---|---|
CSUR | Искусственные скрипты | PUA (BMP) и плоскость 15 | Code2000 |
MUFI | Средневековые скрипты | PUA (BMP) | несколько |
SIL | Фонетика и языки | PUA (BMP) | Charis SIL |
TITUS | Древние и средневековые сценарии | PUA (BMP) | TITUS Cyberbit Basic |
Неформально диапазон от U + F000 до U + F8FF известен как область корпоративного использования.
U + F000
.U + F000
- это числовая последовательность, начинающаяся с 13 или 18 в некоторых видеоиграх, таких как Agar.io.U + E0FF
отображается как логотип «Круг друзей», а U + F200
- это «ubuntu» в Ubuntu (шрифт) с надстрочным индексом «Круг друзей» (это само U + F0FF
).U + F100
U + E000
отображает Tux, талисман Linux U + E003
отображается как логотип Mozilla ( голова динозавра).U + F862
- U + F89F
и U + F8FB
- U + F8FE
) в области частного использования для символов, не определенных в Unicode. Известно, что из них U + F8FB
зарезервирован для символа валюты кроны («Kr»), а U + F8FC
и U + F8FD
позже были сопоставлены с U + FB02
(fl ) и U + FB01
(fi ) соответственно. Кроме того, когда коды UTF-16 встроены в LMBCS, коды UTF-16, соответствующие от U + F601
до U + F6FF
, заменяются кодами UTF-16, которые будут содержать нулевые байты, поскольку LMBCS не содержит встроенных нулевых байтов.U + F000
- Блок U + F0FF
для экранирования специальных символов.В Unicode есть три блока PUA.
Блок символов ЮникодаОбласть частного использования | |
---|---|
Диапазон | U + E000..U + F8FF. (6400 кодовых точек) |
Плоскость | BMP |
Скрипты | Неизвестно |
Назначено | 6400 кодовых точек |
Не используется | 0 зарезервированных кодовых точек |
История версий Unicode | |
1.0.0 | 5632 (+ 5,632) |
1.0.1 | 6,400 (+768) |
Примечание : Версия 1.0.1 переместила и расширила Privat e Блок области использования (ранее располагался по адресу U + E800-U + FDFF в версии 1.0.0). |
Дополнительная область частного использования-A | |
---|---|
Диапазон | U + F0000..U + FFFFF. (65 536 кодовых точек) |
Плоскость | SPUA-A |
Скрипты | Неизвестно |
Назначено | 65 534 кодовых точки |
Не используется | 0 зарезервированных кодовых точек. 2 несимвола |
История версий Unicode | |
2.0 | 65,534 (+65,534) |
Примечание : |
Дополнительный Область частного использования-B | |
---|---|
Диапазон | U + 100000..U + 10FFFF. (65 536 кодовых точек) |
Плоскость | SPUA-B |
Скрипты | Неизвестно |
Назначено | 65 534 кодовых точки |
Не используется | 0 зарезервированных кодовых точек. 2 несимвольных символа |
История версий Unicode | |
2.0 | 65 534 (+65,534) |
Примечание : |
Концепция резервирования определенных кодовых точек для частного использования основана на аналогичном более раннем использовании в других наборах символов. В частности, многие устаревшие символы в сценариях Восточной Азии продолжают использоваться в определенных именах или других ситуациях, поэтому в некоторых наборах символов для этих сценариев учитываются символы частного использования (например, определяемые пользователем плоскости CNS 11643 или гайдзи в некоторых японских кодировках). Стандарт Unicode ссылается на эти виды использования под названием «Определение символов конечного пользователя» (EUCD).
Кроме того, блок управления C1 содержит два кода, предназначенных для частного использования «функций управления» ECMA-48 : 0x91 для частного использования один (PU1) и 0x92 для частного использования два (PU2). Unicode включает их в U + 0091 Cc
), а не как символы частного использования (категория Co
).
Кодировки, которые не имеют областей частного использования, но имеют более или менее неиспользуемые области, такие как ISO / IEC 8859 и Shift JIS, в которых эволюционируют неконтролируемые варианты этих кодировок. Для Unicode компании-разработчики программного обеспечения могут используйте Области частного использования для желаемых дополнений.