В стандарте Unicode плоскость представляет собой непрерывную группу из 65 536 (2) кодовые точки. Имеется 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00–10 16 первых двух позиций в шестипозиционном шестнадцатеричном формате (U + хх хххх). Плоскость 0 - это базовая многоязычная плоскость (BMP), которая содержит наиболее часто используемые символы. Высшие планы с 1 по 16 называются «дополнительными планами». Самая последняя кодовая точка в Unicode - это последняя кодовая точка в плоскости 16, U + 10FFFF. Начиная с Unicode версии 13.0, семи самолетам присвоены кодовые точки (символы), а пяти даны имена.
Ограничение в 17 плоскостей связано с UTF-16, который может кодировать 2 кодовые точки (16 плоскостей) как пары слов, плюс BMP как одно слово. UTF-8 был разработан с гораздо большим пределом в 2 (2147 483 648) кодовых точек (32 768 плоскостей) и может кодировать 2 (2 097 152) кодовых точки (32 плоскости) даже при текущем ограничении в 4 байта.
На 17 плоскостях можно разместить 1114 112 кодовых точек. Из них 2048 являются суррогатами (используются для создания пар в UTF-16), 66 - несимволами, а 137 468 - зарезервированы для частного использования, оставив 974 530 человек для государственных нужд.
Плоскости далее подразделяются на блоки Unicode, которые, в отличие от плоскостей, не имеют фиксированного размера. 308 блоков, определенных в Unicode 13.0, покрывают 26% возможного пространства кодовых точек и имеют размер от минимум 16 кодовых точек (пятнадцать блоков) до максимум 65 536 кодовых точек (дополнительные области частного использования-A и -B, которые составляют совокупность самолетов 15 и 16). Для будущего использования диапазоны символов были предварительно обозначены для большинства известных современных и древних систем письма.
Плоскость | Выделенные кодовые точки | Назначенные символы |
---|---|---|
0 BMP | 65,472 | 55,503 |
1 SMP | 24,704 | 22,279 |
2 SIP | 60,912 | 60,866 |
3 TIP | 4,944 | 4,939 |
14 SSP | 368 | 337 |
15 SPUA-A | 65,536 | |
16 SPUA-B | 65,536 | |
Итого | 287,472 | 143,924 |
Первая плоскость, плоскость 0, Базовая многоязычная плоскость (BMP ) содержит символы почти для всех современных языков, и большое количество символов . Основная цель BMP - поддержка унификации предшествующих наборов символов, а также символов для записи. Большинство присвоенных кодовых точек в BMP используются для кодирования китайских, японских и корейских (CJK ) символов.
Высокий суррогатный (U + D800 – U + DBFF) и низкий суррогатный (U + DC00 – U + DFFF) коды зарезервированы для кодирования символы не-BMP в UTF-16 с использованием пары кодов 16- бит : один высокий суррогат и один низкий суррогат. Одной суррогатной кодовой точке никогда не будет присвоен символ.
65 472 из 65 536 кодовых точек в этой плоскости были выделены блоку Unicode, в результате чего осталось только 64 кодовых точки в нераспределенных диапазонах (48 кодовых точек в 0870..089F и 16 кодовых точек при 2FE0..2FEF).
Начиная с Unicode 13.0, BMP состоит из следующих 163 блоков:
Плоскость 1, Дополнительная многоязычная плоскость (SMP ), содержит исторические сценарии (кроме идеографических CJK), а также символы и обозначения используется в определенных полях. Скрипты включают линейное письмо B, египетские иероглифы и клинопись скрипты. Он также включает английские реформаторские орфографии, такие как Шавиан и Дезерет, и некоторые современные сценарии, такие как Осейдж, Варанг Сити и Адлам.. Символы и примечания включают исторические и современные нотные записи; математические буквенно-цифровые символы ; сокращения; Emoji и другие наборы пиктограмм; и игровые символы для игральных карт, Mah Jongg и домино.
Начиная с Unicode 13.0, SMP состоит из следующих 134 блоков:
Плоскость 2, Дополнительная идеографическая плоскость (SIP ), используется для иероглифов CJK, в основном унифицированных иероглифов CJK, которые не были включены в более ранние стандарты кодировки символов.
Начиная с Unicode 13.0, SIP состоит из следующих шести блоков:
Плоскость 3 - это третичная идеографическая плоскость (TIP). CJK Unified Ideographs Extension G был добавлен в TIP в Unicode 13.0, выпущенном в марте 2020 года. Он также предварительно выделен для Oracle Bone script, Bronze Script, и Small Seal Script.
Начиная с Unicode 13.0, TIP состоит из следующего блока:
Плоскости с 4 по 13 (плоскости от 4до Dв шестнадцатеричном формате ): никакие символы еще не были назначены для плоскостей с 4 по 13.
Плоскость 14 (Eв шестнадцатеричном формате), Дополнительная специальная плоскость (SSP ). состоит из следующих двух блоков, начиная с Unicode 13.0:
Две плоскости 15 и 16 (плоскости Fи 10в шестнадцатеричном формате) обозначаются как «Частное использование. Области ". Они содержат блоки под названием Supplementary Private Use Area-A (PUA-A ) и -B(PUA-B ), которые доступны для использования сторонами, не входящими в ISO и Консорциум Unicode.