Плоскость (Unicode)

редактировать

В стандарте Unicode плоскость представляет собой непрерывную группу из 65 536 (2) кодовые точки. Имеется 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00–10 16 первых двух позиций в шестипозиционном шестнадцатеричном формате (U + хх хххх). Плоскость 0 - это базовая многоязычная плоскость (BMP), которая содержит наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами». Самая последняя кодовая точка в Unicode - это последняя кодовая точка в плоскости 16, U + 10FFFF. Начиная с Unicode версии 13.0, семи самолетам присвоены кодовые точки (символы), а пяти даны имена.

Ограничение в 17 плоскостей связано с UTF-16, который может кодировать 2 кодовые точки (16 плоскостей) как пары слов, плюс BMP как одно слово. UTF-8 был разработан с гораздо большим пределом в 2 (2147 483 648) кодовых точек (32 768 плоскостей) и может кодировать 2 (2 097 152) кодовых точки (32 плоскости) даже при текущем ограничении в 4 байта.

На 17 плоскостях можно разместить 1114 112 кодовых точек. Из них 2048 являются суррогатами (используются для создания пар в UTF-16), 66 - несимволами, а 137 468 - зарезервированы для частного использования, оставив 974 530 человек для государственных нужд.

Плоскости далее подразделяются на блоки Unicode, которые, в отличие от плоскостей, не имеют фиксированного размера. 308 блоков, определенных в Unicode 13.0, покрывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (пятнадцать блоков) до максимум 65 536 кодовых точек (дополнительные области частного использования-A и -B, которые составляют совокупность самолетов 15 и 16). Для будущего использования диапазоны символов были предварительно обозначены для большинства известных современных и древних систем письма.

Содержание
  • 1 Обзор
  • 2 Базовая многоязычная плоскость
  • 3 Дополнительная многоязычная плоскость
  • 4 Дополнительная идеографическая Плоскость
  • 5 Третичная идеографическая плоскость
  • 6 Неназначенные плоскости
  • 7 Дополнительная плоскость специального назначения
  • 8 плоскостей зоны частного использования
  • 9 Ссылки
Обзор
Назначенные символы начиная с версии Unicode 13.0
ПлоскостьВыделенные кодовые точкиНазначенные символы
0 BMP65,47255,503
1 SMP24,70422,279
2 SIP60,91260,866
3 TIP4,9444,939
14 SSP368337
15 SPUA-A65,536
16 SPUA-B65,536
Итого287,472143,924
Базовая многоязычная плоскость
Карта базовой многоязычной плоскости. Каждое пронумерованное поле представляет 256 кодовых точек.

Первая плоскость, плоскость 0, Базовая многоязычная плоскость (BMP ) содержит символы почти для всех современных языков, и большое количество символов . Основная цель BMP - поддержка унификации предшествующих наборов символов, а также символов для записи. Большинство присвоенных кодовых точек в BMP используются для кодирования китайских, японских и корейских (CJK ) символов.

Высокий суррогатный (U + D800 – U + DBFF) и низкий суррогатный (U + DC00 – U + DFFF) коды зарезервированы для кодирования символы не-BMP в UTF-16 с использованием пары кодов 16- бит : один высокий суррогат и один низкий суррогат. Одной суррогатной кодовой точке никогда не будет присвоен символ.

65 472 из 65 536 кодовых точек в этой плоскости были выделены блоку Unicode, в результате чего осталось только 64 кодовых точки в нераспределенных диапазонах (48 кодовых точек в 0870..089F и 16 кодовых точек при 2FE0..2FEF).

Начиная с Unicode 13.0, BMP состоит из следующих 163 блоков:

Дополнительная многоязычная плоскость
Карта дополнительной многоязычной плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 1, Дополнительная многоязычная плоскость (SMP ), содержит исторические сценарии (кроме идеографических CJK), а также символы и обозначения используется в определенных полях. Скрипты включают линейное письмо B, египетские иероглифы и клинопись скрипты. Он также включает английские реформаторские орфографии, такие как Шавиан и Дезерет, и некоторые современные сценарии, такие как Осейдж, Варанг Сити и Адлам.. Символы и примечания включают исторические и современные нотные записи; математические буквенно-цифровые символы ; сокращения; Emoji и другие наборы пиктограмм; и игровые символы для игральных карт, Mah Jongg и домино.

Начиная с Unicode 13.0, SMP состоит из следующих 134 блоков:

Дополнительная идеографическая плоскость
Карта дополнительной идеографической плоскости. Каждое пронумерованное поле представляет 256 кодовых точек.

Плоскость 2, Дополнительная идеографическая плоскость (SIP ), используется для иероглифов CJK, в основном унифицированных иероглифов CJK, которые не были включены в более ранние стандарты кодировки символов.

Начиная с Unicode 13.0, SIP состоит из следующих шести блоков:

Третичная идеографическая плоскость
Карта третичной идеографической плоскости. Каждый пронумерованный прямоугольник представляет 256 кодовых точек.

Плоскость 3 - это третичная идеографическая плоскость (TIP). CJK Unified Ideographs Extension G был добавлен в TIP в Unicode 13.0, выпущенном в марте 2020 года. Он также предварительно выделен для Oracle Bone script, Bronze Script, и Small Seal Script.

Начиная с Unicode 13.0, TIP состоит из следующего блока:

Неназначенные плоскости

Плоскости с 4 по 13 (плоскости от 4до Dв шестнадцатеричном формате ): никакие символы еще не были назначены для плоскостей с 4 по 13.

Дополнительные специальные -purpose Plane
Карта дополнительного самолета специального назначения. Каждый пронумерованный прямоугольник соответствует 256 кодовым точкам.

Плоскость 14 (Eв шестнадцатеричном формате), Дополнительная специальная плоскость (SSP ). состоит из следующих двух блоков, начиная с Unicode 13.0:

Частное использование Плоскости

Две плоскости 15 и 16 (плоскости Fи 10в шестнадцатеричном формате) обозначаются как «Частное использование. Области ". Они содержат блоки под названием Supplementary Private Use Area-A (PUA-A ) и -B(PUA-B ), которые доступны для использования сторонами, не входящими в ISO и Консорциум Unicode.

Ссылки
  1. ^Глоссарий Консорциума Unicode - Дополнительные плоскости
  2. ^См. Таблицу 3.5 «Распределение битов UTF-16» в стандарте Unicode https://www.unicode.org/versions/Unicode6. 0.0 / UnicodeStandard-6.0.pdf
  3. ^См. Таблицу 3.6 «Распределение битов UTF-8» в стандарте Unicode https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. ^Дорожные карты Unicode
  5. ^Unicode, Inc. «Объявление о стандарте Unicode®, версия 13.0».
  6. ^«Предлагаемые новые символы: конвейер». www.unicode.org.
Последняя правка сделана 2021-06-02 07:30:27
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте