Стандарт Unicode Standard назначает свойства символа каждой кодовой точке . Эти свойства могут использоваться для обработки «символов» (кодовых точек) в процессах, например, при переносе строк, направлении сценария справа налево или применении элементов управления. Немного непоследовательно, некоторые «свойства символа» также определены для кодовых точек, которым не назначен символ, и кодовых точек, которые помечены как «
Свойства имеют уровни силы: нормативный, информативный, вспомогательный или предварительный. Для простоты описания свойство символа может быть присвоено путем указания непрерывного диапазона кодовых точек, которые имеют то же свойство.
Символу Unicode назначается уникальное имя Имя (na). Имя состоит из прописных букв A – Z, цифр 0–9, - (дефис-минус) и
Следующие классы кодовой точки не имеют имени (na = ""): элементы управления (общая категория: Cc), частное использование (Co), суррогат (Cs), несимволы (Cn) и Зарезервировано (Cn). На них можно неофициально ссылаться с помощью общего или конкретного мета-имени, называемого «метки кодовых точек»:
В версии 2.0 Unicode многие имена были изменены. С этого момента вступило в силу правило «имя никогда не изменится», включая строгое (нормативное) использование псевдонимов. Неиспользуемые имена версии 1.0 были перемещены в свойство Alias для обеспечения обратной совместимости.
Начиная с версии 2.0 Unicode, опубликованное имя для кодовой точки никогда не изменится. Следовательно, в случае неправильного написания имени символа или если имя персонажа является полностью неправильным или серьезно вводящим в заблуждение, персонажу может быть назначен формальный псевдоним имени персонажа, и этот псевдоним может использоваться приложениями вместо фактического дефектного имени персонажа. Например, U + FE18 ︘ ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО ТОРМОЗА имеет псевдоним имени символа "ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА", чтобы избежать ошибки при написании "скобки" как "скобки". в фактическом имени персонажа; U + A015 ꀕ YI SYLLABLE WU имеет псевдоним имени символа «YI SYLLABLE ITERATION MARK», потому что, в отличие от имени символа, он не имеет фиксированного слогового значения.
В дополнение к псевдонимам имен символов, которые являются исправлением дефектных имен символов, некоторым символам присваиваются псевдонимы, которые являются альтернативными именами или сокращениями. В стандарте Unicode определены пять типов псевдонимов имен символов:
Все формальные псевдонимы имен символов соответствуют правилам для допустимых имен символов и гарантированно уникальны как в пределах псевдонима имени персонажа, так и в пространстве имен символов (по этой причине имя ISO 6429 «BELL» не определяется как псевдоним для U + 0007, потому что U + 1F514 назван "BELL").
Как o f Unicode версии 12.1, двадцать восемь формальных псевдонимов имен символов определены как исправления для дефектных имен символов.
| ||||
---|---|---|---|---|
Символ | Имя | Псевдоним | ||
01A2 | Ƣ | ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА OI | ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА GHA | |
01A3 | ƣ | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА OI | СТРОЧНАЯ ЛАТИНСКАЯ БУКВА GHA | |
0709 | ܉ | СИРИЯСНАЯ СУБЛИНЕЙНАЯ КОЛОНА С СКОРОМ ПРАВО | СИРИАСНАЯ СУБЛИНЕЙНАЯ КОЛОНА С СКОРОМ СЛЕВА | |
0CDE | ೞ | БУКВА КАННАДА FA | БУКВА КАННАДА LLLA | |
0E9D | 31 | БУКВА ФОТО | 31 | LAO 610>LAO ПИСЬМО FO FON |
0E9F | ຟ | LAO LETTER FO SUNG | LAO LETTER FO FAY | |
0EA3 | ຣ | LAO LETTER LO LING | LAO LETTER RO | |
0EA5 | ລ | ЛАО ПИСЬМО ЛО ЛУТ | ЛАО ПИСЬМО ЛО | |
0FD0 | ࿐ | ТИБЕТСКИЙ МАРК БСКА- ШОГ ГИ МГО РГЯН | ТИБЕТСКИЙ МАРК БКА- ШОГ ГИ МГО РГЯН | |
11EC | ᇬ | ХАНГЫЛЬ ЧОНСОН ЕНГ-КИЕОК | ХАНГЫЛЬ ЧОНСОН ЕСИЁНГ-КИЕОК | |
11ED | ᇭ | ХАНГЫЛЬ ЧОНСОНГ ЕНГ-ССАНГКИЁК | ХАНГЫЛЬ ЧОНГСОН ЕСИЁН-ССАНГКИЕОК | |
11EE | ᇮ | ХАНГЫЛЬ ЧОНГСОН САНГИЁН | ХАНГЫЛЬ ЧОНСОНГ ССАНГЕСИУН | |
11EF | ᇯ | ХАНГЫЛ ЧОНГОН>ХАНГЫЛ ЧОНГОН>ХАНГЫЛ ЧОНГОН>ХАНГЫЛ ЧОНГОН>YESIEUNG-KHIEUKH | ||
2118 | ℘ | SCRIPT CAPITAL P | WEIERSTRASS ELLIPTIC FUNCTION | |
2448 | ⑈ | OCR DASH | MICR ON СИМВОЛ США | |
2449 <1633ER>OCR CUST НОМЕР УЧЕТНОЙ ЗАПИСИ | СИМВОЛ MICR DASH | |||
2B7A | ⭺ | ТРЕУГОЛЬНАЯ СТРЕЛКА ВЛЕВО С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ ХОДОМ | ТРЕУГОЛЬНИК ВЛЕВО С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ УПРАВЛЕНИЕМ <16611657>ПРАВИЛЬНО 7 <16611657 ТРЕУГОЛЬНАЯ СТРЕЛКА С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ ХОДОМ | ВПРАВО ТРЕУГОЛЬНАЯ СТРЕЛКА С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ ХОДОМ |
A015 | ꀕ | YI SYLLABLE WU | YI SYLLABLE ITERATION MARK <164061>FE ПРЕЗЕНТАЦИОННАЯ ФОРМА ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО ТОРМОЗА | ПРЕЗЕНТАЦИОННАЯ ФОРМА ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ПЛЕМЕННОГО КРОНШТЕЙНА |
122D4 | 𒋔 | КУЛИНОФОРМА SHIR TENU | CUNEIFORM SIGN NU11 TU11 ENU | |
122D5 | 𒋕 | ЗНАК CUNEIFORM НА РУБАШКЕ НА РУБАШКЕ | ЗНАК CUNEIFORM NU11 НАД NU11 BUR OVER BUR | |
16E56 | 𖹖 | MEDEFAIDRIN КАПИТАЛ ПИСЬМО HP | MEDEFA H | |
16E57 | 𖹗 | МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА NY | МЕДЕФАИДРИН ЗАГЛАВНАЯ БУКВА NG | |
16E76 | 𖹶 | МЕДЕФАИДРИН СТРОЧНАЯ БУКВА HP | МЕДЕФАИДРИН СТРОЧНАЯ БУКВА H | |
1661>1661>СТРОЧНАЯ БУКВА МЕДЕФАЙДРИН NY | СТРОЧНАЯ БУКВА МЕДЕФАЙДРИН NG | |||
1B001 | 𛀁 | БУКВА ХИРАГАНА АРХИКА YE | ПИСЬМО ХЕНТАЙГАНА E-1 | |
1D0C5 | 𝃅 | ВИЗАНТИЙСКИЙ СКАЗАНТ | ВИЗАНТИЙСКИЙ МУЗЫКАЛЬНЫЙ СИМВОЛ FTHORA SKLIRON CHROMA VASIS |
Помимо этих нормативных имен, неофициальные имена могут отображаться в таблицах кодов Unicode. Это другие часто используемые имена для символа, и их необязательно ограничивать буквами A – Z, цифрами 0–9, - (дефис-минус) и
Каждой кодовой точке присваивается значение для общей категории. Это одно из свойств символа, которые также определены для неназначенных кодовых точек и кодовых точек, которые определены как «не символ».
Общая категория (Unicode Свойство символа )
| |||||
---|---|---|---|---|---|
Значение | Категория Основная, второстепенная | Базовый тип | Назначенный символ | Счетчик. (по состоянию на 13.0) | Примечания |
Буква (L) | |||||
Lu | Буква, прописная | Графика | Символ | 1,791 | |
Ll | Буква, нижний регистр | Графика | Символ | 2,155 | |
Lt | Буква, регистр | Графика | Символ | 31 | Лигатуры, содержащие прописные буквы, за которыми следуют строчные буквы (например, Dž, Lj, Nj и Dz ) |
Lm | Letter, модификатор | Graphic | Character | 260 | A модификатор буква |
Lo | Буква, прочее | Графика | Символ | 127,004 | Иероглиф или буква в unicase алфавит |
Метка (M) | |||||
Mn | Знак, без интервала | Графика | Символ | 1,839 | |
Mc | Знак, объединение интервала | Графика | Символ | 443 | |
Me | Знак, заключающий | Графика | Символ | 13 | |
Число (N) | |||||
Nd | Число, d десятичная цифра | Графика | Символ | 650 | Все эти, и только эти, имеют числовой тип = De |
Nl | Число, буква | Графика | Символ | 236 | Цифры, состоящие из букв или буквоподобных символов (например, римские цифры ) |
No | Число, прочее | Графический | Символ | 895 | Например, вульгарные дроби, надстрочный индекс и нижний индекс цифры |
Пунктуация (P) | |||||
Pc | Пунктуация, соединитель | Графика | Символ | 10 | Включает «_» подчеркивание |
Pd | Знаки пунктуации, тире | Графика | Символ | 25 | Включает несколько дефис символов |
Ps | Знаки пунктуации, открытое | Графика | Символ | 75 | Открытие квадратные скобки символы |
Pe | знаки препинания, закрывающие | графические | символы | 73 | закрывающие скобки |
Pi | знаки препинания, начальные кавычки | графические | Символ | 12 | Открывающая кавычка. Не включает "нейтральные" кавычки ASCII. Может вести себя как Ps или Pe в зависимости от использования |
Pf | Пунктуация, заключительная кавычка | Графика | Символ | 10 | Закрывающая кавычка. Может вести себя как Ps или Pe в зависимости от использования |
Po | Знаки пунктуации, другие | Графика | Символ | 593 | |
Символ (S) | |||||
Sm | Символ, математика | Графика | Символ | 948 | Математические символы (например, +, −, =, ×, ÷, √, ∊, ≠ ). Не включает круглые и квадратные скобки, которые есть в категориях Ps и Pe. Также не включает !, *, - или /, которые, несмотря на частое использование в качестве математических операторов, в первую очередь считаются «пунктуацией». |
Sc | Символ, валюта | Графика | Символ | 62 | Символы валюты |
Sk | Символ, модификатор | Графика | Символ | 123 | |
So | Символ, прочее | Графика | Символ | 6,431 | |
Разделитель (Z) | |||||
Zs | Разделитель, пробел | Графика | Символ | 17 | Включает пробел, но не TAB, CR или LF, которые являются Cc |
Zl | Separator, line | Format | Только символ | 1 | U + 2028 РАЗДЕЛЕНИЕ СТРОКИ (LSEP) |
Zp | Разделитель, абзац | Формат | Символ | 1 | Только U + 2029 РАЗДЕЛЕНИЕ ПАРАМЕТРОВ (PSEP) |
Другое (C) | |||||
Cc | Другое, элемент управления | Элемент управления | Символ | 65 (никогда не изменится) | Без имени, |
Cf | Другое, формат | Формат | Символ | 161 | Включает мягкий дефис, объединение управляющих символов (zwnj и zwj ), управляющих символов для поддержки двунаправленного текста и языковых тегов символов |
Cs | Другой, суррогатный | Суррогатный | Не (но абстрактный) | 2048 (никогда не изменится) | Без имени, |
Co | Другое, частное использовать | для частного использования | Не (но абстрактно) | Всего 137,468 (никогда не изменится) (6,400 в BMP, 131,068 в Самолеты 15–16 ) | Без названия, |
Cn | Другое, не присвоено | Без символа | Не | 66 (никогда не изменится) | Нет имя, |
Зарезервировано | Нет | 830,606 | Без имени, | ||
Символы имеют отдельные свойства для обозначения того, что они знак препинания. Все свойства имеют значения Да / Нет : Штрих, Quotation_Mark, Sentence_Terminal, Terminal_Punctuation .
Пробел - широко используемое понятие для типографского эффекта. В основном он охватывает невидимые символы, которые имеют эффект интервала в отображаемом тексте. Он включает пробелов, вкладки и элементы управления форматированием новой строки. В Юникоде для такого символа установлено свойство WSpace = yes. В версии 13.0 25 пробелов.
| |||||||||
---|---|---|---|---|---|---|---|---|---|
Имя | Кодовая точка | Поле ширины | Может нарушаться ? | В. IDN ? | Script | Block | General. категория | Примечания | |
табуляция символов | U + 0009 | 9 | Да | Нет | Обычный | Базовый Latin | Other,. control | HT, Horizontal Tab. HTML / XML именованный объект : , LaTeX : '\ tab' | |
перевод строки | U + 000A | 10 | Является разрывом строки | Common | Basic Latin | Other,. control | LF, Перевод строки. Именованный объект HTML / XML:
| ||
табуляция строк | U + 000B | 11 | Разрыв строки | Common | Basic Latin | Другое,. управление | VT, Вертикальная табуляция | ||
подача формы | U + 000C | 12 | Есть перенос строки | Обычный | Basic Latin | Other,. control | FF, Form Feed | ||
возврат каретки | U + 000D | 13 | Разрыв строки | Обычная | Базовая латиница | Другое,. control | CR, Возврат каретки | ||
пробел | U + 0020 | 32 | Да | Нет | Обычная | Базовая латиница | Разделитель,. пробел | Наиболее часто встречающийся (обычный пробел ASCII) | |
следующая строка | U + 0085 | 133 | Разрыв строки | Обычный | Латинский-1. Дополнение | Другое,. control | NEL, Следующая строка | ||
непрерывный пробел | U + 00A0 | 160 | No | Нет | Common | Latin-1. Дополнение | Разделитель,. пробел | Неразрывный пробел : идентичен U + 0020, но не точка, в которой линия может быть разорвана. Именованный объект HTML / XML: , LaTeX: '\' | |
огамовый пробел | U + 1680 | 5760 | Да | Нет | Огам | Огам | Разделитель,. пробел | Используется для разделения слов в Огам текст. Обычно это вертикальная линия в вертикальном тексте или горизонтальная линия в горизонтальном тексте, но также может быть пустым пространством в шрифтах без основы. Требуется шрифт Oham. | |
en quad | U + 2000 | 8192 | Да | Нет | Common | General. Пунктуация | Разделитель,. пробел | Ширина единицы en. U + 2002 канонически эквивалентен этому персонажу; U + 2002 предпочтительнее. | |
em quad | U + 2001 | 8193 | Да | Нет | Обычный | Общий. Пунктуация | Разделитель,. пробел | Также известен как «баранина». Ширина один em. U + 2003 канонически эквивалентен этому персонажу; U + 2003 предпочтительнее. | |
en пробел | U + 2002 | 8194 | Да | Нет | Common | General. Пунктуация | Разделитель,. пробел | Также известен как «орех». Ширина одного en. U + 2000 En Quad канонически эквивалентен этому персонажу; U + 2002 предпочтительнее. Именованный объект HTML / XML: , LaTeX: '\ enspace' | |
em пробел | U + 2003 | 8195 | Да | Нет | Обычное | Общее. Пунктуация | Разделитель,. пробел | Также известен как «баранина». Ширина один em. U + 2001 Em Quad канонически эквивалентен этому персонажу; U + 2003 предпочтительнее. Именованный объект HTML / XML: , LaTeX: '\ quad' | |
пробел по три на em | U + 2004 | 8196 | Да | Нет | Обычное | Общее. Пунктуация | Разделитель,. пробел | Также известен как «толстое пространство». Одна треть em шириной. Именованный объект HTML / XML:
| |
пробел с четырьмя точками | U + 2005 | 8197 | Да | Нет | Обычный | Общий. Пунктуация | Разделитель,. пробел | Также известен как «средний промежуток». Одна четверть em шириной. Именованный объект HTML / XML:
| |
пробел из шести на em | U + 2006 | 8198 | Да | Нет | Обычный | Общий. Знаки пунктуации | Разделитель,. пробел | Ширина в одну шестую em. В компьютерной типографике иногда приравнивается к U + 2009. | |
пространство между цифрами | U + 2007 | 8199 | No | Нет | Обычное | Общее. Пунктуация | Разделитель,. пробел | Пробел. В шрифтах с моноширинными цифрами, равными ширине одной цифры. Именованный объект HTML / XML:
| |
пробел | U + 2008 | 8200 | Да | Нет | Обычный | Общие. Знаки пунктуации | Разделитель,. пробел | По ширине, равной узкой пунктуации в шрифте, т. Е. Продвинутой ширине точки или запятой. Именованный объект HTML / XML:
| |
тонкий пробел | U + 2009 | 8201 | Да | Нет | Обычный | Общие. Пунктуация | Разделитель,. пробел | Тонкий пробел ; одна пятая (иногда одна шестая) ширины em. Рекомендуется использовать в качестве разделителя тысяч для измерений, выполненных с использованием единиц СИ. В отличие от U + 2002 - U + 2008, его ширина может регулироваться при наборе. Именованный объект HTML / XML: ; LaTeX: '\,' | |
пространство для волос | U + 200A | 8202 | Да | Нет | Обычное | Общие. Пунктуация | Разделитель,. пробел | Тоньше, чем тонкий пробел. Именованный объект HTML / XML: (работает не во всех браузерах) | |
разделитель строк | U + 2028 | 8232 | Это строка -break | Обычное | Общее. Пунктуация | Разделитель,. строка | |||
разделитель абзацев | U + 2029 | 8233 | Является разрывом строки | Обычное | Общее. Пунктуация | Разделитель,. абзац | |||
узкий нет- пробел | U + 202F | 8239 | No | Нет | Обычный | Общий. Пунктуация | Разделитель,. пробел | Узкий непрерывный пробел. По функциям аналогичен U + 00A0 No-Break Space. При использовании с монгольским языком его ширина обычно составляет треть нормального пространства; в другом контексте его ширина иногда напоминает ширину тонкого пространства (U + 2009). | |
средний математический интервал | U + 205F | 8287 | Да | Нет | Обычный | Общий. Знаки пунктуации | Разделитель,. пробел | MMSP. Используется в математических формулах. Четыре восемнадцатые эм. В математической типографике ширина пробелов обычно указывается в целых числах, кратных восемнадцатой em, и 4/18 em может использоваться в нескольких ситуациях, например между a и + и между + и b в выражении a + b . Именованный объект HTML / XML:
| |
идеографическое пространство | U + 3000 | 12288 | Да | Нет | Обычный | Символы CJK. и. Пунктуация | Разделитель,. пробел | По ширине, равной символьной ячейке CJK (полная ширина ). Используется, например, в tai tou. |
| |||||||||
---|---|---|---|---|---|---|---|---|---|
Имя | Кодовая точка | Поле ширины | Может нарушаться ? | В. IDN ? | Скрипт | Блок | Общие. категория | Примечания | |
монгольский разделитель гласных | U + 180E | 6158 | | Да | Нет | Монгольский | Монгольский | Другой,. Формат | MVS. Символ с узким пространством, используемый в монгольском языке, чтобы последние два символа слова принимали разные формы. Он больше не классифицируется как пробел (то есть в категории Zs) в Unicode 6.3.0, хотя это было в предыдущих версиях стандарта. |
пробел нулевой ширины | U + 200B | 8203 | | Да | Нет | ? | Общее. Пунктуация | Другое,. Формат | ZWSP, пробел нулевой ширины. Используется для обозначения границ слов для систем обработки текста при использовании скриптов, не использующих явный интервал. Он похож на мягкий дефис , с той разницей, что последний используется для обозначения границ слогов и должен отображать видимый дефис, когда на нем прерывается строка. HTML / XML именованный объект :
|
без соединения с нулевой шириной | U + 200C | 8204 | | Да | Контекстно-зависимый | ? | Общий. Знаки пунктуации | Другой,. Формат | ZWNJ, без соединения с нулевой шириной. При размещении между двумя символами, которые в противном случае были бы связаны, ZWNJ заставляет их печатать в их окончательной и исходной формах соответственно. Именованный объект HTML / XML: |
объединитель нулевой ширины | U + 200D | 8205 | | Да | Контекстно-зависимый | ? | Общие. Пунктуация | Другое,. Формат | ZWJ, объединитель нулевой ширины. При размещении между двумя символами, которые в противном случае не были бы связаны, ZWJ заставляет их печатать в связанных формах. Также может использоваться для изолированного отображения объединяемых форм. В зависимости от того, ожидается ли по умолчанию лигатура или конъюнкт, может либо вызвать (как в эмодзи и в сингальском ), либо подавить (как в Деванагари ) замену с помощью одиночный глиф, при этом разрешая использование индивидуальных форм соединения (в отличие от ZWNJ). Именованный объект HTML / XML: |
объединитель слов | U + 2060 | 8288 | | No | Нет | ? | Общее. Пунктуация | Другое,. Формат | WJ, средство объединения слов. Подобно U + 200B, но не точка, в которой линия может быть прервана. Именованный объект HTML / XML: |
неразрывный пробел нулевой ширины | U + FEFF | 65279 | | No | Нет | ? | Арабский. Презентация. Forms-B | Другое,. Формат | Неразрывный пробел нулевой ширины. Используется в основном как метка порядка байтов. Использование в качестве индикатора неразрывности считается устаревшим с Unicode 3.2; см. вместо этого U + 2060. |
.
Идеографическая, буквенная, без символа.
Формирование, ширина.
Шесть свойств символов относятся к двунаправленному письму: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket и Bidi_Paired_Bracket_Type.
Одной из основных функций Unicode является поддержка двунаправленного (Bidi) отображения текста справа налево (R-to-L) и слева направо (L-to-R). Двунаправленный алгоритм Unicode UAX9 описывает процесс представления текста с изменением направления сценария. Например, он включает цитату на иврите в английском тексте. Bidi_Character_Type отмечает поведение персонажа при направленном письме. Чтобы отменить направление, Unicode определил специальные символы управления форматированием (Bidi-Control s). Эти символы могут указывать направление и по определению влияют только на двунаправленное письмо.
Каждая кодовая точка имеет свойство Bidi_Class . Он определяет его поведение в двунаправленном тексте, интерпретируемом алгоритмом:
Тип | Описание | Сила | Направленность | Общая область действия | Символ Bidi_Control |
---|---|---|---|---|---|
L | Слева направо | Сильный | L-to-R | Большинство буквенных и слоговых символов, китайские символы, неевропейские или неарабские цифры, символ LRM,... | U + 200E LEFT-TO -ПРАВАЯ ЗНАЧКА (LRM) |
R | Права-налево | Сильно | R-to-L | Адлам, иврит, мандайский, Mende Kikakui, N'Ko, Самаритян, древние письменности, такие как харошти и набатейский, символ RLM,... | U + 200F СПРАВА-ЛЕВАЯ ЗНАЧКА (RLM) |
AL | Арабская буква | Сильный | R-to-L | Арабский, ханифи-рохинджа, согдийский, сирийский и танаский алфавиты и большинство знаков препинания, характерных для этих алфавитов, символ ALM,... | U + 061C ARABIC БУКВА (ALM) |
EN | Европейский номер | Слабые | европейские цифры, восточно-арабские-индийские цифры, коптские эпактные числа,... | ||
ES | Европейский разделитель | Слабый | знак плюс, знак минус,... | ||
ET | терминатор европейского номера | слабый знак | градуса, символы валюты,... | ||
AN | арабское число | слабый | арабско-индийские цифры, арабское десятичное число и разделители тысяч, цифры Руми, цифры Ханифи Рохинья,... | ||
CS | Обычный разделитель чисел | Слабый | двоеточие, запятая, точка, неразрывный пробел,... | ||
NSM | Знак без пробелов | Слабый | Символы в общих категориях Знак, без пробелов и Знак, заключающий (Mn, Me) | ||
BN | Гранично-нейтральный | Слабое | игнорируемые по умолчанию, несимволы, управляющие символы, кроме явно заданных других типов | ||
B | Разделитель абзацев | Нейтральный | разделитель абзацев, соответствующие функции новой строки, протокол более высокого уровня определение абзаца | ||
S | Разделитель сегментов | Нейтральный | Табуляция | ||
WS | Пробел | Neu tral | пробел, пробел рисунка, разделитель строк, подача формы, общие пробелы в блоках пунктуации (меньше, чем список пробелов Unicode ) | ||
ON | Прочие нейтральные символы | Нейтральный | Все остальные символы, включая символ замены объекта | ||
LRE | Встраивание слева направо | Явное | L- to-R | только символ LRE | U + 202A ВСТАВЛЕНИЕ СЛЕВА НАПРАВО (LRE) |
LRO | Переопределение слева направо | Явно | L-to-R | только символ LRO | U + 202D ПЕРЕХОД ВЛЕВО-ВПРАВО (LRO) |
RLE | Встраивание справа налево | Явное встраивание | R-to-L | только символ RLE | U + 202B ВСТРОЕНИЕ СПРАВА ВЛЕВО ( RLE) |
RLO | Переопределение справа налево | Явное | R-to-L | Только символ RLO | U + 202E ПЕРЕМЕЩЕНИЕ ВПРАВО-ВЛЕВО (RLO) |
Pop Directional Format | Explicit | Только символы PDF | U + 202C POP DIRECTIONAL ФОРМАТИРОВАНИЕ (PDF) | ||
LRI | Изолировать слева направо | Явно | LRI | Только символ LRI | U + 2066 ИЗОЛЯЦИЯ СЛЕВА НАПРАВО (LRI) |
RLI | Изоляция справа налево | Явная | От R к L | Только символ RLI | U + 2067 ИЗОЛЯЦИЯ ПРАВО-ЛЕВО (RLI) |
FSI | Первый строгий изолятор | Явный | только символ FSI | U + 2068 FIRST STRONG ISOLATE (FSI) | |
PDI | Pop Directional Isolate | Explicit | только символ PDI | U + 2069 POP DIRECTIONAL ISOLATE (PDI) | |
Примечания
|
В обычных ситуациях алгоритм может определять направление текста по этому свойству символа. Для управления более сложными ситуациями с Bidi, например когда в английском тексте есть цитата на иврите, в Юникод добавляются дополнительные параметры. Двенадцать символов имеют свойство Bidi_Control = Yes : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM и RLO, как указано в таблице. Это невидимые управляющие символы форматирования, используемые только алгоритмом и не имеющие никакого эффекта, кроме двунаправленного форматирования. Несмотря на название, они являются символами форматирования, а не управляющими символами, и имеют общую категорию «Другой, формат (Cf)» в определении Unicode.
По сути, алгоритм определяет последовательность символов с одним и тем же строгим типом направления (R-to-L или L-to-R) с учетом отмены специальных элементов управления Bidi. Числовые строки (слабые типы) получают направление в соответствии с их сильным окружением, как и нейтральные символы. Наконец, символы отображаются в соответствии с направлением строки.
Два свойства символа имеют отношение к определению зеркального отображения глифа в двунаправленном тексте: Bidi_Mirrored = Yes указывает, что глиф должен быть зеркальным при записи R-to-L. Свойство Bidi_Mirroring_Glyph = U + hhhh может затем указывать на зеркальный символ. Например, скобки «()» отражаются таким образом. Формирование рукописных шрифтов, таких как арабский, и зеркальное отображение глифов, имеющих направление, не является частью алгоритма.
Значение регистра является нормативным в Юникоде. Это относится к тем сценариям, в которых используются прописные (они же заглавные, мажускулы) и строчные (маленькие, минускульные) буквы. Разница в регистре встречается в адламском, армянском, чероки, коптском, кириллице, десеретском, глаголице, греческом, хуцури и мхедрули грузинском, латинском, медефайдринском, старовенгерском, осейджском и варангском шрифтах Citi.
(верхний, нижний, заголовок, складывающийся - как простой, так и полный)
Символы классифицируются как Числовой тип . Такие символы, как дроби, подстрочные и надстрочные индексы, римские цифры, числители денежных единиц, числа в кружках и цифры, относящиеся к конкретному сценарию, относятся к типу Numeric. У них есть числовое значение, которое может быть десятичным, включая ноль и отрицательные числа, или обычную дробь. Если такого значения нет, как у большинства символов, числовой тип - «Нет».
Символы, которые имеют числовое значение, разделены на три группы: десятичные (De), цифровые (Di) и числовые (Nu, т. Е. Все остальные). «Десятичный» означает, что символ представляет собой прямую десятичную цифру. Числовой тип Decimal имеют только символы, входящие в непрерывный диапазон кодирования 0–9. Другие цифры, такие как надстрочные, имеют числовой тип Digit. Все числовые символы, такие как дроби и римские цифры, заканчиваются типом «Числовой». Предполагаемый эффект состоит в том, что простой синтаксический анализатор может использовать эти десятичные числовые значения, не отвлекаясь, скажем, на числовой верхний индекс или дробь. Семьдесят три иероглифа CJK, которые представляют собой числа, в том числе используемые для бухгалтерского учета, набираются числовыми.
С другой стороны, символы, которые могут иметь числовое значение в качестве второго значения, по-прежнему помечаются как «Нет» числового типа и не имеют числового значения («»). Например. В нумерации абзацев можно использовать латинские буквы, такие как «II.A.1.b», но буквы «I», «A» и «b» не являются числовыми (тип «None») и не имеют числового значения.
| ||||
---|---|---|---|---|
Числовой тип | Код | Имеет числовое значение | Пример | Примечания |
Не числовой | Нет | No |
| Числовое значение = "NaN" |
Десятичное число | De | Да |
| Прямая цифра (десятичная - основание ). Соответствует в обоих направлениях Общая категория = Nd |
Цифра | Di | Да |
| Десятичное, но в типографском контексте |
Числовое | Nu | Да |
| Числовое значение, но не десятичная система счисления |
a. ^«Раздел 4.6: Числовое значение» (PDF). Стандарт Юникода. Консорциум Unicode. Март 2020. | ||||
б. ^«Производные числовые типы Unicode 13.0». База данных символов Юникода. Консорциум Unicode. 2019-09-08. |
Шестнадцатеричные символы - это символы в серии с шестнадцатеричными значениями 0... 9ABCDEF (шестнадцать символов, десятичное значение 0–15). Для свойства символа Hex_Digit установлено значение Да, если символ находится в такой последовательности:
Символы в Юникоде, отмеченные Hex_Digit = Да | |||
---|---|---|---|
0123456789ABCDEF | Базовая латиница, заглавные буквы | Также ASCII_Hex_Digit = Да | |
0123456789abcdef | Базовая латиница, строчные буквы | Также ASCII_Hex_Digit = Да | |
0123456789ABCDEF | Полноширинные формы, заглавные | ||
0123456789abcdef | Формы полной ширины, строчные буквы | ||
a. ^«Unicode 13.0 UCD: PropList.txt».2019-11-27. Проверено 12 марта 2020 г. |
Сорок четыре символа помечены как Hex_Digit. Те, что в блоке Basic Latin, также помечены как ASCII_Hex_Digit .
Unicode не имеет отдельных символов для шестнадцатеричных значений. Следствием этого является то, что при использовании обычных символов невозможно определить, предназначено ли шестнадцатеричное значение или даже предназначено ли оно вообще. Это должно быть определено на более высоком уровне, например добавляя "0x" к шестнадцатеричному числу или по контексту. Единственная особенность заключается в том, что Unicode может отметить, что последовательность может быть или не может быть шестнадцатеричным значением.
A блок представляет собой непрерывный диапазон кодовых точек с уникальным именем. Он идентифицируется его первой и последней кодовой точкой. Блоки не перекрываются. Блок может содержать кодовые точки, которые зарезервированы, не назначены и т. Д. Каждый назначенный символ имеет одно значение «имени блока» из 308 имен, назначенных в версии 13.0 Unicode. Неназначенные кодовые точки вне существующего блока имеют значение по умолчанию «No_block».
| |||||
---|---|---|---|---|---|
Плоскость | Диапазон блоков | Имя блока | Кодовые точки | Назначенные символы | Скрипты |
0 BMP | U + 0000..U + 007F | Basic Latin | 128 | 128 | Latin (52 символа), Common ( 76 символов) |
U + 0080..U + 00FF | Дополнение Latin-1 | 128 | 128 | Latin (64 символа), Common (64 символа) | |
U + 0100..U + 017F | Расширенная латиница-A | 128 | 128 | Латиница | |
U + 0180..U + 024F | Латиница Extended-B | 208 | 208 | Latin | |
U + 0250..U + 02AF | Расширения IPA | 96 | 96 | Latin | |
U + 02B0..U + 02FF | Буквы модификатора интервала | 80 | 80 | Bopomofo (2 символа), Latin (14 символов), Common (64 символа) | |
U + 0300..U + 036F | Объединение диакритических знаков | 112 | 112 | Унаследовано | |
U + 0370..U + 03FF | греческое и коптское | 144 | 135 | коптское (14 символов), греческий (117 символов), общий (4 символа) | |
U+0400..U+04FF | кириллица | 256 | 256 | кириллица (254 символа), наследуемая (2 символа) | |
U + 0500..U + 052F | Дополнение к кириллице | 48 | 48 | Кириллица | |
0 BMP | U + 0530..U + 058F | Армянский | 96 | 91 | Армянский |
U + 0590..U + 05FF | Иврит | 112 | 88 | Иврит | |
U + 0600..U + 06FF | арабский | 256 | 255 | арабский (237 символов), общий ( 6 символов), наследуемый (12 символов) | |
U + 0700..U + 074F | сирийский | 80 | 77 | сирийский | |
U + 0750..U + 077F | арабское приложение | 48 | 48 | арабский | |
U + 0780..U + 07BF | Thaana | 64 | 50 | Thaana | |
U + 07C0..U + 07FF | NKo | 64 | 62 | Nko | |
U + 0800..U + 083F | Самаритянин | 64 | 61 | Самаритянин | |
U + 0840..U + 085F | Мандаик | 32 | 29 | Мандаик | |
U + 0860..U + 086F | Сирийское Дополнение | 16 | 11 | Сирийский | |
0 BMP | U + 08A0..U + 08FF | арабский расширенный-A | 96 | 84 | арабский (83 символа), общий (1 символ) |
U + 0900..U + 097F | деванагари | 128 | 128 | Деванагари (122 символа), общий (2 символа), наследуемый (4 канала символов) | |
U + 0980..U + 09FF | бенгальский | 128 | 96 | бенгальский | |
U + 0A00..U + 0A7F | Гурмукхи | 128 | 80 | Гурмукхи | |
U + 0A80..U + 0AFF | Гуджарати | 128 | 91 | Гуджарати | |
U + 0B00..U + 0B7F | Ория | 128 | 91 | Ория | |
U + 0B80..U + 0BFF | Тамил | 128 | 72 | Тамил | |
U + 0C00..U + 0C7F | Телугу | 128 | 98 | Телугу | |
U + 0C80..U + 0CFF | каннада | 128 | 89 | каннада | |
U + 0D00..U + 0D7F | малаялам | 128 | 118 | малаялам | |
0 BMP | U + 0D80..U + 0DFF | сингальский | 128 | 91 | сингальский |
U + 0E00..U + 0E7F | тайский | 128 | 87 | тайский (86 символов), Общий (1 символ) | |
U + 0E80..U + 0EFF | Лаосский | 128 | 82 | Лаосский | |
U + 0F00..U + 0FFF | Тибетский | 256 | 211 | Тибетский (207 символов), Общий (4 символа) | |
U+1000..U+109F | Мьянма | 160 | 160 | Мьянма | |
U + 10A0..U + 10FF | грузинский | 96 | 88 | грузинский (87 символов), общий (1 символ) | |
U + 1100..U + 11FF | хангыль Джамо | 256 | 256 | хангыль | |
U + 1200..U + 137F | эфиопский | 384 | 358 | эфиопский | |
U + 1380..U + 139F | эфиопское приложение | 32 | 26 | Эфиопский | |
U + 13A0..U + 13FF | Чероки | 96 | 92 | Чероки | |
0 BMP | U + 1400..U + 167F | Единый слоговый язык канадских аборигенов | 640 | 640 | канадские аборигены |
U + 1680..U + 169F | огам | 32 | 29 | огам | |
U + 16A0..U + 16FF | рунический | 96 | 89 | рунический (86 символов), общий (3 символа) | |
U + 1700..U + 171F | тагальский | 32 | 20 | тагальский | |
U + 1720..U + 173F | Hanunoo | 32 | 23 | Hanunoo (21 символ), общий (2 символа) | |
U + 1740..U + 175F | Buhid | 32 | 20 | Buhid | |
U + 1760..U + 177F | Tagbanwa | 32 | 18 | Тагбанва | |
U + 1780..U + 17FF | кхмерский | 128 | 114 | кхмерский | |
U + 1800..U + 18AF | монгольский | 176 | 157 | Монгольский (154 символа), общий (3 символа) | |
U + 18B0..U + 18FF | Унифицированный слоговый язык канадских аборигенов расширенный | 80 | 70 | Канадский абориген | |
0 BMP | U + 1900..U + 194F | Лимбу | 80 | 68 | Лимбу |
U + 1950..U + 197F | Tai Le | 48 | 35 | Tai Le | |
U + 1980..U + 19DF | New Tai Lue | 96 | 83 | New Tai Lue | |
U + 19E0..U + 19FF | Кхмерские символы | 32 | 32 | Кхмерский | |
U + 1A00..U + 1A1F | Бугинский | 32 | 30 | Бугинский | |
U + 1A20..U + 1AAF | Тай Тхам | 144 | 127 | Тай Тхам | |
U + 1AB0..U + 1AFF | Расширенное объединение диакритических знаков | 80 | 17 | Унаследовано | |
U + 1B00..U + 1B7F | Балийский | 128 | 121 | Балийский | |
U + 1B80..U + 1BBF | Сунданский | 64 | 64 | Сунданский | |
U + 1BC0..U + 1BFF | Батак | 64 | 56 | Батак | |
0 BMP | U + 1C00..U + 1C4F | Lepcha | 80 | 74 | Lepcha |
U + 1C50..U + 1C7F | Ol Chiki | 48 | 48 | Ol Chiki | |
U + 1C80..U + 1C8F | Кириллица расширенная-C | 16 | 9 | Кириллица | |
U + 1C90..U + 1CBF | Грузинская расширенная | 48 | 46 | Грузинская | |
U + 1CC0..U + 1CCF | Сунданское приложение | 16 | 8 | Сунданское | |
U + 1CD0..U + 1CFF | Ведические расширения | 48 | 43 | Обычное (16 символов), унаследованное (27 символов) | |
U + 1D00..U + 1D7F | Фонетические расширения | 128 | 128 | Кириллица (2 символа), греческий (15 символов) rs), латиница (111 символов) | |
U + 1D80..U + 1DBF | Дополнение о фонетических расширениях | 64 | 64 | Греческий (1 символ), латинский (63 символа) | |
U + 1DC0..U + 1DFF | Дополнение о комбинированных диакритических знаках | 64 | 63 | Inherited | |
U + 1E00..U + 1EFF | Расширенное латинское дополнение | 256 | 256 | Latin | |
0 BMP | U + 1F00..U + 1FFF | Греческий расширенный | 256 | 233 | Греческий |
U + 2000..U + 206F | Общая пунктуация | 112 | 111 | Обычный (109 символов), унаследованный (2 символа) | |
U + 2070..U + 209F | Верхние и нижние индексы | 48 | 42 | Латинский (15 символов)), Common (27 символов) | |
U + 20A0..U + 20CF | Символы валюты | 48 | 32 | Common | |
U + 20D0..U + 20FF | Объединение диакритических знаков для символов | 48 | 33 | Унаследовано | |
U + 2100..U + 214F | Буквоподобные символы | 80 | 80 | греческий (1 символ), латинский (4 символа), общий (75 символов) | |
U + 2150..U + 218F | Формы чисел | 64 | 60 | Латинский (41 символ), общий (19 символов) | |
U + 2190..U + 21FF | Стрелки | 11 2 | 112 | Обычный | |
U + 2200..U + 22FF | Математические операторы | 256 | 256 | Обычный | |
U + 2300..U + 23FF | Разное техническое | 256 | 256 | Обычное | |
0 BMP | U + 2400..U + 243F | Контрольные изображения | 64 | 39 | Обычное |
U + 2440..U + 245F | Оптическое распознавание символов | 32 | 11 | Обычное | |
U + 2460..U + 24FF | Закрытые буквенно-цифровые символы | 160 | 160 | Обычное | |
U + 2500..U + 257F | Чертеж рамки | 128 | 128 | Обычный | |
U + 2580..U + 259F | Элементы блока | 32 | 32 | Общие | |
U + 25A0..U + 25FF | Геометрические формы | 96 | 96 | Обычные | |
U + 2600..U + 26FF | Разные символы | 256 | 256 | Обычные | |
U+2700..U+27BF | Дингбаты | 192 | 192 | Общий | |
U + 27C0..U + 27EF | Разные математические символы-A | 48 | 48 | Обычный | |
U + 27F0..U + 27FF | Дополнительные стрелки-A | 16 | 16 | Обычный | |
0 BMP | U + 2800..U + 28FF | Шаблоны Брайля | 256 | 256 | Брайль |
U + 2900..U + 297F | Дополнительные стрелки-B | 128 | 128 | Обычный | |
U + 2980..U + 29FF | Разные математические символы- B | 128 | 128 | Общий | |
U + 2A00..U + 2AFF | Дополнительные математические операторы | 256 | 256 | Общий | |
U + 2B00..U + 2BFF | Разные символы и стрелки | 256 | 253 | Обычный | |
U + 2C00..U + 2C5F | Глаголица | 96 | 94 | Глаголица | |
U + 2C60..U + 2C7F | Расширенная латиница-C | 32 | 32 | Латиница | |
U + 2C80..U + 2CFF | Коптский | 128 | 123 | Коптский | |
U + 2D00..U + 2D2F | Грузинское приложение | 48 | 40 | Грузинское | |
U + 2D30..U + 2D7F | Тифинаг | 80 | 59 | Tifinagh | |
0 BMP | U + 2D80..U + 2DDF | Ethiopic Extended | 96 | 79 | Ethiopic |
U + 2DE0..U + 2DFF | Cyrillic Extended-A | 32 | 32 | Cyrillic | |
U + 2E00..U + 2E7F | Дополнительная пунктуация | 128 | 83 | Обычная | |
U + 2E80..U + 2EFF | Приложение CJK Radicals | 128 | 115 | Хань | |
U + 2F00..U + 2FDF | Радикалы Канси | 224 | 214 | Хан | |
U + 2FF0..U + 2FFF | Иероглифические символы описания | 16 | 12 | Обычные | |
U + 3000..U + 303F | CJK-символы и знаки препинания | 64 | 64 | Хан (15 символов), Хангыль (2 символа), Общий (43 символа), Унаследованный (4 символа) | |
U + 3040..U + 309F | Хирагана | 96 | 93 | Хирагана (89 символов), Common (2 символа), Inherited (2 символа) | |
U + 30A0..U + 30FF | Katakana | 96 | 96 | Katakana (93 символа), Common (3 символа) | |
U + 3100..U + 312F | Bopomofo | 48 | 43 | Bopomofo | |
0 BMP | U + 3130..U + 318F | Совместимость с хангыль Jamo | 96 | 94 | хангыль |
U + 3190..U + 319F | Канбун | 16 | 16 | Общий | |
U + 31A0..U + 31BF | Бопомофо расширенный | 32 | 32 | Бопомофо | |
U + 31C0..U + 31EF | Штрихи CJK | 48 | 36 | Общие | |
U + 31F0..U + 31FF | фонетические расширения катаканы | 16 | 16 | катакана | |
U + 3200..U + 32FF | заключенные буквы CJK и месяцы | 256 | 255 | Хангыль (62 символа), Катакана (47 символов), Общий (146 символов) | |
U + 3300..U + 33FF | Совместимость с CJK bility | 256 | 256 | Катакана (88 символов), общий (168 символов) | |
U + 3400..U + 4DBF | CJK Unified Ideographs Extension A | 6,592 | 6,592 | Хан | |
U + 4DC0..U + 4DFF | Символы гексаграммы Ицзин | 64 | 64 | Общие | |
U + 4E00..U + 9FFF | Унифицированные иероглифы CJK | 20,992 | 20,989 | Хан | |
0 BMP | U + A000..U + A48F | Yi слоги | 1,168 | 1,165 | Yi |
U + A490..U + A4CF | Радикалы Yi | 64 | 55 | Yi | |
U + A4D0..U + A4FF | Лису | 48 | 48 | Лису | |
U + A500..U + A63F | Вай | 320 | 300 | Вай | |
U + A640..U + A69F | Кириллица расширенная-B | 96 | 96 | Кириллица | |
U + A6A0..U + A6FF | Bamum | 96 | 88 | Bamum | |
U + A700..U + A71F | Тональные буквы модификатора | 32 | 32 | Общие | |
U + A720..U + A7FF | Latin Extended-D | 224 | 180 | Латинский (175 символов), общий (5 символов) | |
U + A800..U + A82F | Syloti Nagri | 48 | 45 | Syloti Nagri | |
U + A830..U + A83F | Общие индийские числовые формы | 16 | 10 | Общие | |
0 BMP | U + A840..U + A87F | P hags-pa | 64 | 56 | Фагс Па |
U + A880..U + A8DF | Саураштра | 96 | 82 | Саураштра | |
U + A8E0..U + A8FF | Деванагари расширенный | 32 | 32 | Деванагари | |
U + A900..U + A92F | Кая Ли | 48 | 48 | Кая Ли (47 символов), Общий (1 символ) | |
U + A930..U + A95F | Rejang | 48 | 37 | Rejang | |
U + A960..U + A97F | хангыль джамо расширенный-A | 32 | 29 | хангыль | |
U + A980..U + A9DF | яванский | 96 | 91 | яванский (90 символов), Общий (1 символ) | |
U + A9E0..U + A9FF | Myanmar Extended-B | 32 | 31 | Myanmar | |
U + AA00..U + AA5F | Cham | 96 | 83 | Cham | |
U +AA60..U+AA7F | Myanmar Extended-A | 32 | 32 | Myanmar | |
0 BMP | U+AA80..U+AADF | Tai Viet | 96 | 72 | Tai Viet |
U+AAE0..U+AAFF | Meetei Mayek Extensions | 32 | 23 | Meetei Mayek | |
U+AB00..U+AB2F | Ethiopic Extended-A | 48 | 32 | Ethiopic | |
U+AB30..U+AB6F | Latin Extended-E | 64 | 60 | Latin (56 characters), Greek (1 character), Common (3 characters) | |
U+AB70..U+ABBF | Cherokee Supplement | 80 | 80 | Cherokee | |
U +ABC0..U+ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek | |
U+AC00..U+D7AF | Hangul Syllables | 11,184 | 11,172 | Hangul | |
U+D7B0..U+D7FF | Hangul Jamo Extended-B | 80 | 72 | Hangul | |
U+D800..U+DB7F | High Surrogates | 896 | 0 | Unknown | |
U+DB80..U+DBFF | High Private Use Surrogates | 128 | 0 | Unknown | |
0 BMP | U+DC00..U+DFFF | Low Surrogates | 1,024 | 0 | Unknown |
U+E000..U+F8FF | Private Use Area | 6,400 | 6,400 | Unknown | |
U+F900..U+FAFF | CJK Compatibility Ideographs | 512 | 472 | Han | |
U+FB00..U+FB4F | Alphabetic Presentation Forms | 80 | 58 | Armenian (5 characters), Hebrew (46 characters), Latin (7 characters) | |
U+FB50..U+FDFF | Arabic Presentation Forms-A | 688 | 611 | Arabic (609 characters), Common (2 characters) | |
U+FE00..U+FE0F | Variation Selectors | 16 | 16 | Inherited | |
U+FE10..U+FE1F | Vertical Forms | 16 | 10 | Common | |
U+FE20..U+FE2F | Combining Half Marks | 16 | 16 | Cyrillic (2 characters), Inherited (14 characters) | |
U+FE30..U+FE4F | CJK Compatibility Forms | 32 | 32 | Common | |
U+FE50..U+FE6F | Small Form Variants | 32 | 26 | Common | |
U+FE70..U+FEFF | Arabic Presentation Forms-B | 144 | 141 | Arabic (140 characters), Common (1 character) | |
U+FF00..U+FFEF | Halfwidth and Fullwidth Forms | 240 | 225 | Hangul (52 characters), Katakana (55 characters), Latin (52 characters), Common (66 characters) | |
U+FFF0..U+FFFF | Specials | 16 | 5 | Common | |
1 SMP | U+10000..U+1007F | Linear B Syllabary | 128 | 88 | Linear B |
U+10080..U+100FF | Linear B Ideograms | 128 | 123 | Linear B | |
U+10100..U+1013F | Aegean Numbers | 64 | 57 | Common | |
U+10140..U+1018F | Ancient Greek Numbers | 80 | 79 | Greek | |
U+10190..U+101CF | Ancient Symbols | 64 | 14 | Greek (1 character), Common (13 characters) | |
U+101D0..U+101FF | Phaistos Disc | 48 | 46 | Common (45 characters), Inherited (1 character) | |
U+10280..U+1029F | Lycian | 32 | 29 | Lycian | |
U+102A0..U+102DF | Carian | 64 | 49 | Carian | |
U+102E0..U+102FF | Coptic Epact Numbers | 32 | 28 | Common (27 characters), Inherited (1 character) | |
U+10300..U+1032F | Old Italic | 48 | 39 | Old Italic | |
1 SMP | U+10330..U+1034F | Gothic | 32 | 27 | Gothic |
U+10350..U+1037F | Old Permic | 48 | 43 | Old Permic | |
U+10380..U+1039F | Ugaritic | 32 | 31 | Ugaritic | |
U+103A0..U+103DF | Old Persian | 64 | 50 | Old Persian | |
U+10400..U+1044F | Deseret | 80 | 80 | Deseret | |
U+10450..U+1047F | Shavian | 48 | 48 | Shavian | |
U+10480..U+104AF | Osmanya | 48 | 40 | Osmanya | |
U+104B0..U+104FF | Osage | 80 | 72 | Osage | |
U+10500..U+1052F | Elbasan | 48 | 40 | Elbasan | |
U+10530..U+1056F | Caucasian Albanian | 64 | 53 | Caucasian Albanian | |
1 SMP | U+10600..U+1077F | Linear A | 384 | 341 | Linear A |
U+10800..U+1083F | Cypriot Syllabary | 64 | 55 | Cypriot | |
U+10840..U+1085F | Imperial Aramaic | 32 | 31 | Imperial Aramaic | |
U+10860..U+1087F | Palmyrene | 32 | 32 | Palmyrene | |
U+10880..U+108AF | Nabataean | 48 | 40 | Nabataean | |
U+108E0..U+108FF | Hatran | 32 | 26 | Hatran | |
U+10900..U+1091F | Phoenician | 32 | 29 | Phoenician | |
U+10920..U+1093F | Lydian | 32 | 27 | Lydian | |
U+10980..U+1099F | Meroitic Hieroglyphs | 32 | 32 | Meroitic Hieroglyphs | |
U+109A0..U+109FF | Meroitic Cursive | 96 | 90 | Meroitic Cursive | |
1 SMP | U+10A00..U+10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
U+10A60..U+10A7F | Old South Arabian | 32 | 32 | Old South Arabian | |
U+10A80..U+10A9F | Old North Arabian | 32 | 32 | Old North Arabian | |
U+10AC0..U+10AFF | Manichaean | 64 | 51 | Manichaean | |
U+10B00..U+10B3F | Avestan | 64 | 61 | Avestan | |
U+10B40..U+10B5F | Inscriptional Parthian | 32 | 30 | Inscriptional Parthian | |
U+10B60..U+10B7F | Inscriptional Pahlavi | 32 | 27 | Inscriptional Pahlavi | |
U+10B80..U+10BAF | Psalter Pahlavi | 48 | 29 | Psalter Pahlavi | |
U + 10C00..U + 10C4F | древнетюркский | 80 | 73 | древнетюркский | |
U + 10C80..U + 10CFF | древневенгерский | 128 | 108 | древневенгерский | |
1 SMP | U + 10D00..U + 10D3F | Ханифи Рохинья | 64 | 50 | Ханифи Рохинья |
U + 10E60..U + 10E7F | Цифровые символы Руми | 32 | 31 | Арабский | |
U + 10E80..U + 10EBF | Езиды | 64 | 47 | Езиды | |
U + 10F00..U + 10F2F | Старосогдийский | 48 | 40 | Старосогдийский | |
U + 10F30..U + 10F6F | Согдийский | 64 | 42 | Согдийский | |
U + 10FB0..U + 10FDF | Хорезмийский | 48 | 28 | Хорезмийский | |
U + 10FE0..U + 10FFF | Элимаский | 32 | 23 | Элимаский | |
U + 11000..U + 1107F | Брахми | 128 | 109 | Брахми | |
U + 11080..U + 110CF | Kaithi | 80 | 67 | Kaithi | |
U + 110D0..U + 110FF | Сора Сомпенг | 48 | 35 | Сора Сомпенг | |
1 SMP | U + 11100..U + 1114F | Чакма | 80 | 71 | Чакма |
U + 11150..U + 1117F | Махаджани | 48 | 39 | Махаджани | |
U + 11180..U + 111DF | Шарада | 96 | 96 | Шарада | |
U + 111E0..U + 111FF | сингальские архаические числа | 32 | 20 | сингальский | |
U + 11200..U + 1124F | Хойки | 80 | 62 | Хойки | |
U + 11280..U + 112AF | Мултани | 48 | 38 | Мултани | |
U + 112B0..U + 112FF | Худавади | 80 | 69 | Худавади | |
U + 11300..U + 1137F | Grantha | 128 | 86 | Grantha (85 символов), Унаследовано (1 символ) | |
U + 11400..U + 1147F | Newa | 128 | 97 | Newa | |
U + 11480..U + 114DF | Tirhuta | 96 | 82 | Tirhuta | |
1 SMP | U + 11580..U + 115FF | Сиддхам | 128 | 92 | Сиддхам |
U + 11600..U + 1165F | Моди | 96 | 79 | Моди | |
U + 11660..U + 1167F | Дополнение к монгольскому языку | 32 | 13 | Монгольское | |
U + 11680..U + 116CF | Такри | 80 | 67 | Такри | |
U + 11700..U + 1173F | Ахом | 64 | 58 | Ахом | |
U + 11800..U + 1184F | Догра | 80 | 60 | Догра | |
U + 118A0..U + 118FF | Warang Citi | 96 | 84 | Warang Citi | |
U + 11900.. U + 1195F | Dives Akuru | 96 | 72 | Dives Akuru | |
U + 119A0..U + 119FF | Nandinagari | 96 | 65 | Nandinagari | |
U + 11A00..U + 11A4F | Zanabazar Square | 80 | 72 | Площадь Занабазар | |
1 SMP | U + 11A50..U + 11AAF | Соёмбо | 96 | 83 | Соёмбо |
U + 11AC0..U + 11AFF | Пау Цин Хау | 64 | 57 | Пау Цин Хау | |
U + 11C00..U + 11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki | |
U + 11C70..U + 11CBF | Marche n | 80 | 68 | Марчен | |
U + 11D00..U + 11D5F | Масарам Гонди | 96 | 75 | Масарам Гонди | |
U + 11D60..U + 11DAF | Гунджала Гонди | 80 | 63 | Гунджала Гонди | |
U + 11EE0..U + 11EFF | Макасар | 32 | 25 | Макасар | |
U + 11FB0..U + 11FBF | Приложение Lisu | 16 | 1 | Lisu | |
U + 11FC0..U + 11FFF | Приложение на тамильском языке | 64 | 51 | Тамильский | |
U+12000..U+123FF | Cuneiform | 1,024 | 922 | Cuneiform | |
1 SMP | U + 12400..U + 1247F | Клинописные числа и пунктуация | 128 | 116 | Клинопись |
U + 12480..U + 1254F | Раннединастическая клинопись | 208 | 196 | Клинопись | |
U + 13000..U + 1342F | Египетские иероглифы | 1072 | 1071 | Египетские иероглифы | |
U + 13430..U + 1343F | Управление форматом египетских иероглифов | 16 | 9 | Египетские иероглифы | |
U + 14400..U + 1467F | анатолийские иероглифы | 640 | 583 | анатолийские иероглифы | |
U + 16800..U + 16A3F | Дополнение к Бамуму | 576 | 569 | Бамум | |
U + 16A40..U + 16A6F | Mro | 48 | 43 | Mro | |
U + 16AD0.. U + 16AFF | Басса Вах | 48 | 36 | Басса Вах | |
U + 16B00..U + 16B8F | Пахау Хмонг | 144 | 127 | Пахав Хмонг | |
U + 16E40..U + 16E9F | Medefaidrin | 96 | 91 | Medefaidrin | |
1 SMP | U + 16F00..U + 16F9F | Miao | 160 | 149 | Miao |
U + 16FE0..U + 16FFF | Идеографические символы и пунктуация | 32 | 7 | Хан (2 символа), Киданьский маленький шрифт (1 символ), Нушу (1 символ), Тангут (1 символ), Общий (2 символа)) | |
U+17000..U+187FF | Тангут | 6,144 | 6,136 | Тангут | |
U + 18800..U + 18AFF | Тангутские компоненты | 768 | 768 | Тангутский | |
U + 18B00..U + 18CFF | Киданьский маленький шрифт | 512 | 470 | Киданьский маленький шрифт | |
U + 18D00..U + 18D8F | Тангутское приложение | 144 | 9 | Тангутское | |
U + 1B000..U + 1B0FF | Канаское приложение | 256 | 256 | Хирагана (255 символов), Катакана (1 символ) | |
U + 1B100..U + 1B12F | Kana Extended-A | 48 | 31 | Hiragana | |
U + 1B130..U + 1B16F | Маленькое расширение Кана | 64 | 7 | Хирагана (3 символа), Катакана (4 символа) | |
U+1B170..U+1B2FF | Nushu | 400 | 396 | Nüshu | |
1 SMP | U + 1BC00..U + 1BC9F | Дуплоян | 160 | 143 | Дуплоян |
U + 1BCA0..U + 1BCAF | Элементы управления сокращенным форматом | 16 | 4 | Общий | |
U + 1D000..U + 1D0FF | Византийские музыкальные символы | 256 | 246 | Обычные | |
U + 1D100..U + 1D1FF | Музыкальные символы | 256 | 231 | Обычный (209 символов), Унаследованный (22 символа) | |
U + 1D200..U + 1D24F | Древнегреческая музыкальная нотация | 80 | 70 | Греческий | |
U + 1D2E0..U + 1D2FF | Цифры майя | 32 | 20 | Общие | |
U + 1D300..U + 1D35F | Символы Тай Сюань Цзин | 96 | 87 | Общие | |
U + 1D360..U + 1D37F | Числа счетных стержней | 32 | 25 | Обычный | |
U + 1D400..U + 1D7FF | Математические буквенно-цифровые символы | 1,024 | 996 | Обычный | |
U + 1D800..U + 1DAAF | Sutton SignWriting | 688 | 672 | SignWriting | |
1 SMP | U + 1E000..U + 1E02F | Глаголическое приложение | 48 | 38 | Глаголица |
U + 1E100..U + 1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong | |
U + 1E2C0..U + 1E2FF | Wancho | 64 | 59 | Wancho | |
U + 1E800..U + 1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui | |
U + 1E900..U + 1E95F | Adlam | 96 | 88 | Adlam | |
U + 1EC70..U + 1ECBF | Индийские числа сийак | 80 | 68 | Общие | |
U + 1ED00..U + 1ED4F | Османские числа сиак | 80 | 61 | Общие | |
U + 1EE00..U + 1EEFF | Арабские математические алфавитные символы | 256 | 143 | Арабский | |
U + 1F000..U + 1F02F | Плитки маджонга | 48 | 44 | Обычные | |
U + 1F030..U + 1F09F | Плитки домино | 112 | 100 | Обычный | |
1 SMP | U + 1F0A0..U + 1F0FF | Игральные карты | 96 | 82 | Обычный |
U + 1F100..U + 1F1FF | Закрытое буквенно-цифровое приложение | 256 | 200 | Обычное | |
U + 1F200..U + 1F2FF | Закрытое идеографическое приложение | 256 | 64 | Хирагана (1 символ), Общий (63 символа) | |
U + 1F300..U + 1F5FF | Разные символы и пиктограммы | 768 | 768 | Обычный | |
U + 1F600..U + 1F64F | Смайлики | 80 | 80 | Обычные | |
U + 1F650..U + 1F67F | Декоративные дингбаты | 48 | 48 | Обычные | |
U + 1F680..U + 1F6FF | Транспортные и картографические символы | 128 | 114 | Обычный | |
1 SMP | U + 1F700..U + 1F77F | Алхимические символы | 128 | 116 | Общий |
U + 1F780..U + 1F7FF | Расширенные геометрические формы | 128 | 101 | Обычный | |
U + 1F800..U + 1F8FF | Дополнительные стрелки-C | 256 | 150 | Обычный | |
U + 1F900..U + 1F9FF | Дополнительные символы и пиктограммы | 256 | 254 | Общий | |
U + 1FA00..U + 1FA6F | Шахматные символы | 112 | 98 | Обычный | |
U + 1FA70..U + 1FAFF | Символы и пиктограммы Extended-A | 144 | 57 | Общие | |
U + 1FB00..U + 1FBFF | Символы для устаревших вычислений | 256 | 212 | Common | |
2 SIP | U + 20000..U + 2A6DF | CJK Unified Ideographs Extension B | 42,720 | 42,718 | Han |
U + 2A700.. U + 2B73F | CJK Unified Ideographs Расширение C | 4,160 | 4,149 | Хан | |
U + 2B740..U + 2B81F | Расширение унифицированных иероглифов CJK D | 224 | 222 | Хан | |
U + 2B820..U + 2CEAF | Расширение унифицированных иероглифов CJK E | 5,776 | 5,762 | Han | |
U + 2CEB0..U + 2EBEF | CJK Расширение унифицированных иероглифов F | 7,488 | 7,473 | Han | |
U + 2F800..U + 2FA1F | Приложение иероглифов по совместимости CJK | 544 | 542 | Han | |
3 TIP | U + 30000..U + 3134F | CJK Unified Ideographs Extension G | 4,944 | 4,939 | Han |
14 SSP | U + E0000..U + E007F | Теги | 128 | 97 | Общие |
U + E0100..U + E01EF | Дополнение к селекторам вариаций | 240 | 240 | Унаследовано | |
15 PUA-A | U + F0000..U + FFFFF | Дополнительная зона частного использования-A | 65,536 | 65,534 | Неизвестно |
16 PUA-B | U + 100000..U + 10FFFF | Дополнительная зона частного использования-B | 65,536 | 65,534 | Неизвестно |
Каждый назначенный символ может имеют единственное значение для его свойства «Сценарий», указывающее, какому сценарию он принадлежит. Значение представляет собой четырехбуквенный код в диапазоне Aaaa-Zzzz, как это доступно в ISO 15924, который отображается в систему записи. Помимо описания фона и использования сценария, Unicode не использует связь между сценарием и языками, которые используют этот сценарий. Итак, «иврит» относится к еврейскому письму, а не к еврейскому языку.
Специальный код Zyyy для «Common» допускает одно значение для символа, который используется в нескольких сценариях. Код Zinh «Унаследованный сценарий», используемый для комбинирования символов и некоторых других кодовых точек специального назначения, указывает на то, что символ «наследует» свою идентичность сценария от символа, с которым он комбинируется. (Ранее для этой цели Unicode использовал частный код Qaai.) Код Zzzz «Неизвестно» используется для всех символов, которые не принадлежат сценарию (т. Е. Значения по умолчанию), таких как символы и символы форматирования. В целом, символы одного скрипта могут быть разбросаны по нескольким блокам, например латинские символы. И наоборот: может присутствовать несколько скриптов в одном блоке, например. блок Буквоподобные символы содержит символы из латинского, греческого и общеупотребительного алфавита.
Когда сценарий "" (пустой), в соответствии с Unicode символ не принадлежит сценарию. Это относится к символам, поскольку существующие коды сценариев ISO «Zmth» (математическая нотация), «Zsym» (символ) и «Zsye» (символ, вариант эмодзи) не используются в Unicode. Свойство «Сценарий» также пусто для кодовых точек, не являющихся типографскими символами, таких как элементы управления, замены и кодовые точки для частного использования.
Если в ISO 15924 существует конкретное имя псевдонима сценария, оно используется в имени символа: U + 0041 A ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A и U + 05D0 א ЕВРЕЙСКАЯ БУКВА ALEF.
| |||||||
---|---|---|---|---|---|---|---|
Код | № | Имя | Алиас | Направление | Версия. (добавлено) | Символы | Примечание |
Adlm | 166 | Adlam | Adlam | R-to -L | 9.0 | 88 | |
Afak | 439 | Afaka | Варьируется | Не в Unicode, предложение рассматривается Техническим комитетом Unicode | |||
Aghb | 239 | Кавказский албанец | Кавказский албанец | L-to-R | 7.0 | 53 | Древний / исторический |
Ахом | 338 | Ахом, Тай Ахом | Ахом | L-to-R | 8,0 | 58 | Древний / исторический |
Арабский | 160 | Арабский | Арабский | R-to-L | 1.0 | 1,291 | |
Аран | 161 | Арабский (вариант Насталик) | Смешанный | Типографский вариант арабского | |||
Арми | 124 | Императорский арамейский | Императорский арамейский | R-to-L | 5.2 | 31 | Древний / исторический |
Армн | 230 | Армянский | Армянский | L-to-R | 1.0 | 96 | |
Avst | 134 | Avestan | Avestan | R-to-L | 5.2 | 61 | Древний / исторический |
Бали | 360 | Балийский | балийский | L-to-R | 5.0 | 121 | |
Баму | 435 | Бамум | Бамум | L-to-R | 5.2 | 657 | |
Бас | 259 | Басса Вах | Басса Вах | L-to-R | 7.0 | 36 | Древний / исторический |
Батк | 365 | Батак | Батак | L-to-R | 6.0 | 56 | |
Бенг | 325 | бенгальский (Bangla) | Бенгальский | L-to-R | 1.0 | 96 | |
Bhks | 334 | Bhaiksuki | Bhaiksuki | L-to-R | 9.0 | 97 | Древний / исторический |
Blis | 550 | Blissymbols | Варьируется | Не в Unicode, предложение находится на начальной / исследовательской стадии | |||
Bopo | 285 | Бопомофо | Бопомофо | L-to-R | 1.0 | 77 | |
Брах | 300 | Брахми | Брахми | L-to-R | 6.0 | 109 | А Древний / исторический |
Брайль | 570 | Брайль | Брайль | L-to-R | 3.0 | 256 | |
Буги | 367 | Бугинский | Бугинский | L-to-R | 4.1 | 30 | |
Бухд | 372 | Бухид | Бухид | L-to-R | 3.2 | 20 | |
Cakm | 349 | Chakma | Chakma | L-to- R | 6.1 | 71 | |
Банки | 440 | Единый слоговый язык канадских аборигенов | Канадские аборигены | L-to-R | 3.0 | 710 | |
Кари | 201 | Карийский | Карийский | L-to-R | 5.1 | 49 | Древний / исторический |
Чам | 358 | Чам | Чам | L-to-R | 5.1 | 83 | |
Шер | 445 | Cherokee | Cherokee | L-to-R | 3.0 | 172 | |
Chrs | 109 | Chorasmian | Chorasmian | Смешанный | 13,0 | 28 | Древний / исторический |
Цирт | 291 | Цирт | Варьируется | Не в Юникоде | |||
Копт | 204 | коптский | коптский | Lt oR | 1.0 | 137 | Древний / исторический, разделенный с греческим в 4.1 |
Cpmn | 402 | Кипро-минойский | L-к-R | Не в Unicode | |||
Cprt | 403 | Кипрская слоговая запись | Кипрский | R-to-L | 4.0 | 55 | Древний / исторический |
Кирл | 220 | Кириллица | Кириллица | L-to-R | 1.0 | 443 | |
Кирис | 221 | Кириллица (старославянский вариант) | Варьируется | Древний / исторический, типографский вариант кириллицы | |||
Дева | 315 | Деванагари (Нагари) | Деванагари | L-to-R | 1.0 | 154 | |
Diak | 342 | Dives Akuru | Ныряет Акуру | L-to-R | 13.0 | 72 | Древний / исторический |
Догр | 328 | Догра | Догра | слева направо | 11.0 | 60 | древний / исторический |
дсрт | 250 | Дезерет (мормон) | Дезерет | П- to-R | 3.1 | 80 | |
Dupl | 755 | стенография Дуплояна, стенография Дуплояна | D уплоян | L-to-R | 7.0 | 143 | |
Египетский | 070 | Египетский демотический | Смешанный | Не в Юникоде | |||
Египетский | 060 | Египетский иератический | Смешанный | Не в Юникоде | |||
Египетский | 050 | Египетские иероглифы | Египетские иероглифы | Сзади | 5.2 | 1080 | Древний / исторический |
Эльба | 226 | Эльбасан | Эльбасан | L-to-R | 7.0 | 40 | Древний / исторический |
Элим | 128 | Elymaic | Elymaic | R-to-L | 12.0 | 23 | Древний / исторический |
Ethi | 430 | эфиопский (Geʻez) | эфиопский | L-to -R | 3.0 | 495 | |
Геок | 241 | Хуцури (Асомтаврули и Нусхури) | Грузинский | Варьируется | Юникод объединяет Геок и Геор как «грузинский» | ||
Геор | 240 | Грузинский (Мхедрули и Мтаврули) | Грузинский | L-to-R | 1.0 | 173 | Для Unicode см. Также Geok |
Glag | 225 | Глаголица | Глаголица | L-to-R | 4.1 | 132 | Древний / исторический |
Гонг | 312 | Гунджала Гонди | Гунджала Гонди | L-to-R | 11.0 | 63 | |
Гонм | 313 | Масарам Гонди | Масарам Гонди | L-to-R | 10.0 | 75 | |
Гот | 206 | Готика | Готика | L -to-R | 3.1 | 27 | Древний / исторический |
Gran | 343 | Grantha | Grantha | L-to-R | 7.0 | 85 | Древний / исторический |
Грек | 200 | Греческий | Греческий | L-to-R | 1.0 | 518 | Иногда выражается как бустрофедон (зеркальное отображение альтернативных линий, а не только слева направо) |
Гуджр | 320 | Гуджарати | Гуджарати | L-to-R | 1.0 | 91 | |
Guru | 310 | Gurmukhi | Gurmukhi | L-to- R | 1.0 | 80 | |
Ханб | 503 | Хан с Бопомофо (псевдоним Хан + Бопомофо) | Варьируется | См. Хани, Бопо | |||
Ханг | 286 | хангыль (Hangŭl, Hangeul) | хангыль | L-to-R | 1.0 | 11,739 | Слоги хангыля перемещены в 2.0 |
Хани | 500 | Хан (Ханзи, Кандзи, Ханджа) | Хан | L-to-R | 1.0 | 94,204 | |
Хано | 371 | Хануноо (Хануноо) | Хануноо | L-to-R | 3,2 | 21 | |
Ханс | 501 | Хан (упрощенный вариант) | Варьируется | Подмножество Хани | |||
Хант | 502 | Хан (традиционный вариант) | Варьируется | Подмножество Хани | |||
Хатр | 127 | Хатран | Хатран | R-to-L | 8,0 | 26 | Древний / исторический |
Hebr | 125 | Иврит | Иврит | R-to -L | 1.0 | 134 | |
Хира | 410 | Хирагана | Хирагана | L-to-R | 1.0 | 379 | |
Hluw | 080 | Анатолийские иероглифы (Лувийские иероглифы, хеттские иероглифы) | Анатолийские иероглифы | L-to-R | 8,0 | 583 | Древние / исторические |
Hmng | 450 | Pahawh Hmong | Pahawh Hmong | L -to-R | 7.0 | 127 | |
Hmnp | 451 | Nyiakeng Puach ue Hmong | Nyiakeng Puachue Hmong | L-to-R | 12.0 | 71 | |
Hrkt | 412 | Японские слоговые слова (псевдоним для Хирагана + Катакана) | Катакана или Хирагана | Варьируется | См. Хира, Кана | ||
Венгерский | 176 | Древневенгерский (Венгерский рунический) | Древневенгерский | R-to-L | 8.0 | 108 | Древний / исторический |
Иенды | 610 | Инд (Хараппан) | Смешанный | Не в Юникоде, предложение на начальной / исследовательской стадии | |||
Итал | 210 | Старый курсив (этрусский, оссканский и Старый т. Д.) | курсив | L-to-R | 3,1 | 39 | Древний / исторический |
Джамо | 284 | Джамо (псевдоним для подмножества Джамо в хангыль) | Различается | Подмножество Hang | |||
Java | 361 | Яванский | Яванский | L-to-R | 5.2 | 90 | |
Jpan | 413 | Японский (псевдоним Ha n + Hiragana + Katakana) | Варьируется | См. Хани, Хира и Кана | |||
Юрк | 510 | Чжурчжэнь | Л-к-П | Не в Unicode | |||
Кали | 357 | Кая Ли | Кая Ли | L-to-R | 5.1 | 47 | |
Кана | 411 | Катакана | Катакана | L- to-R | 1.0 | 304 | |
Хар | 305 | Харошти | Харошти | R-to-L | 4.1 | 68 | Древний / исторический |
Кхмр | 355 | Кхмерский | Кхмерский | L -к-Р | 3,0 | 146 | |
Ходж | 322 | Хойки | Хойки | Л-к-П | 7.0 | 62 | Древний / исторический |
Китл | 505 | Киданьский большой шрифт | L-to-R | Не в Unicode | |||
Наборы | 288 | Киданьское маленькое письмо | Киданьское маленькое письмо | T-to-B | 13.0 | 471 | Древний / исторический |
Канда | 345 | Каннада | Каннада | L-to-R | 1.0 | 89 | |
Kore | 287 | Корейский (псевдоним хангыль + хань) | L-к -R | См. Хани и Ханг | |||
Кпел | 436 | Кпелле | L-to-R | Не в Unicode, предложение находится на начальной / исследовательской стадии | |||
Kthi | 317 | Kaithi | Kaithi | L-to-R | 5.2 | 67 | Древний / исторический |
Лана | 351 | Тай Тхам ( Ланна) | Тай Тхам | L-to-R | 5.2 | 127 | |
Лаоо | 356 | Лаосский | Лаосский | L-to-R | 1.0 | 82 | |
Латф | 217 | Латинский (вариант Fraktur) | Варьируется | Типографский вариант латыни | |||
Латг | 216 | Латинский (гэльский вариант) | L-to-R | Типографский вариант латыни | |||
Latn | 215 | Латинский | Латинский | L-to-R | 1.0 | 1,374 | См. Латинский шрифт в Юникоде |
Leke | 364 | Leke | L-to-R | Не в Unicode | |||
Lepc | 335 | Лепча (Рунг) | Лепча | L-to-R | 5.1 | 74 | |
Лимб | 336 | Лимбу | Лимбу | П-к-П | 4.0 | 68 | |
Лина | 400 | Линейное A | Линейное A | Д-к-П | 7.0 | 341 | Древнее / историческое |
Linb | 401 | Линейный B | Линейный B | L-to-R | 4.0 | 211 | Древний / исторический |
Лису | 399 | Лису (Фрейзер) | Лису | П-к-П | 5.2 | 49 | |
Лома | 437 | Лома | П-к-П | Не в Unicode, предложение на начальной / исследовательской стадии | |||
Лики | 202 | Ликийский | Ликийский | Л-к-Р | 5.1 | 29 | Древний / исторический |
Лидский | 116 | лидийцы | лидийцы | R-to-L | 5.1 | 27 | Древний / исторический |
Махдж | 314 | Махаджани | Махаджани | L-to-R | 7.0 | 39 | Древний / исторический |
Мака | 366 | Макасар | Макасар | L-to-R | 11.0 | 25 | Древний / исторический |
Манд | 140 | мандайский, мандайский | мандаикский | R -к-л | 6.0 | 29 | |
Мани | 139 | Манихей | Манихей | R-to-L | 7.0 | 51 | Древний / исторический |
Марк | 332 | Марчен | Марчен | L-to-R | 9.0 | 68 | Древние / исторические |
Майя | 090 | Иероглифы майя | Смешанные | Не в Юникоде | |||
Медф | 265 | Медефайдрин (Обери Окайме, Обери каимɛ) | Медефайдрин | Сзади | 11.0 | 91 | |
Починить | 438 | Менде Кикакуи | Менде Кикакуи | Правильно | 7.0 | 213 | |
Merc | 101 | Meroitic Cursive | Meroitic Cursive | R-to-L | 6.1 | 90 | Древний / исторический |
Меро | 100 | Мероитские иероглифы | Меройские иероглифы | R-to-L | 6.1 | 32 | Древний / исторический |
Млым | 347 | Малаялам | Малаялам | L-to-R | 1.0 | 118 | |
Modi | 324 | Modi, Moḍī | Modi | L-to-R | 7.0 | 79 | Древний / исторический |
Монг | 145 | Монгол | Монгол | T-to- B | 3.0 | 167 | Включает Ясные, маньчжурские скрипты |
Луна | 218 | Луна (код Луны, сценарий Луны, тип Луны) | Смешанный | Не в Unicode, предложение на начальной / исследовательской стадии | |||
Mroo | 264 | Mro, Mru | Mro | L-to-R | 7.0 | 43 | |
Мтей | 337 | Мейтей Майек (Мейтей, Митей) | Митей Майек | L-to-R | 5.2 | 79 | |
Mult | 323 | Мултани | Мултани | L-to-R | 8,0 | 38 | Древний / исторический |
Мимр | 350 | Мьянма (бирманский) | Мьянма | L-to-R | 3.0 | 223 | |
Нанд | 311 | Нандинагари | Нандинагари | L-to-R | 12.0 | 65 | Древний / исторический |
Нарб | 106 | Древний северноаравийский (древний северноаравийский) | Древний северноаравийский | R-to-L | 7.0 | 32 | Древний / исторический |
Нбат | 159 | Набатейский | Набатейский | R-to-L | 7.0 | 40 | Древний / исторический |
Newa | 333 | Newa, Newar, Невари, Непала липи | Ньюа | L-to-R | 9.0 | 97 | |
Nkdb | 085 | Наси Донгба (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) | L-to-R | Не в Unicode | |||
Nkgb | 420 | Накхи Геба (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-baw, Nakhi Geba) | L-to-R | Не в Unicode, предложение на начальной / исследовательской стадии | |||
Нкоо | 165 | Н'Ко | НКо | Р-к-Л | 5,0 | 62 | |
Ншу | 499 | Нюшу | Нушу | L-к-R | 10.0 | 397 | |
Огам | 212 | Огам | Огам | Смешанный | 3,0 | 29 | Древний / исторический |
Олк | 261 | Ол Чики (Оль Семет, Ол, Сантали) | Ол Чики | Л-то -R | 5.1 | 48 | |
Орх | 175 | Древнетюркский, Орхонский Рунический | Древнетюркский | R-to-L | 5.2 | 73 | Древний / исторический |
Орья | 327 | Ория (Odia) | Ория | L-to-R | 1.0 | 91 | |
Osge | 219 | Osage | Osage | L-to-R | 9.0 | 72 | |
Osma | 260 | Османья | Османья | L-to-R | 4.0 | 40 | |
Palm | 126 | Palmyrene | Пальмирин | R-to-L | 7,0 | 32 | Древний / исторический |
Паук | 263 | Пау Цин Хау | Пау Цин Хау | слева направо | 7.0 | 57 | |
пермь | 227 | старопермия | старопермия | слева направо | 7.0 | 43 | Древний / исторический |
Phag | 331 | Phags-pa | Phags-pa | T-to-B | 5,0 | 56 | Древний / исторический |
Фли | 131 | Пехлеви с надписью | Пехлеви с надписью | R-to-L | 5,2 | 27 | Древний / исторический |
Phlp | 132 | Псалтырь Пехлевий | Псалтырь Пехлевий | R-to-L | 7.0 | 29 | Древний / исторический |
Phlv | 133 | Книга Пехлеви | Смешанная | Не в Юникоде | |||
Phnx | 115 | Финикийский | Финикийский | R-to-L | 5.0 | 29 | Древний / исторический |
Piqd | 293 | Klingon (KLI pIqaD) | L-to-R | Отклонено для включения в стандарт Unicode | |||
Plrd | 282 | Мяо (Поллард) | Мяо | L-to-R | 6.1 | 149 | |
Прити | 130 | Парфянская надпись | Парфянская надпись | R-to-L | 5.2 | 30 | Древний / исторический |
Qaaa | 900 | Зарезервировано для частного использования ия (начало) | Не в Unicode | ||||
Qaai | 908 | (Частное использование) | Не в Unicode (до версии 5.2 он использовался вместо Zinh) | ||||
Qabx | 949 | Зарезервировано для частного использования (конец) | Не в Unicode | ||||
Rjng | 363 | Реджанг (Реджанг, Каганга) | Реджанг | L-to-R | 5.1 | 37 | |
Рог | 167 | Ханифи Рохинджа | Ханифи Рохинджа | R-to-L | 11.0 | 50 | |
Роро | 620 | Ронгоронго | Смешанный | Не в Юникоде, предложение в исходном / исследовательский этап | |||
Рунр | 211 | Рунический | Рунический | L-to-R | 3.0 | 86 | Древний / исторический |
Самр | 123 | Самаритянин | Самаритянин | R-to-L | 5.2 | 61 | |
Сара | 292 | Сарати | Смешанный | Не в Юникоде | |||
Сарб | 105 | Древний южноаравийский | Древний южноаравийский | R-to-L | 5.2 | 32 | Древний / историческ ий |
Саур | 344 | Саураштра | Саураштра | L-to-R | 5.1 | 82 | |
Sgnw | 095 | SignWriting | SignWriting | T-to-B | 8.0 | 672 | |
Шоу | 281 | Шавиан (Шоу) | Шавиан | Слева к П | 4.0 | 48 | |
Шрд | 319 | Шарада, Шарада | Шарада | Сзади | 6.1 | 96 | |
Шуй | 530 | Шуйшу | L-to-R | Не в Юникоде | |||
Сидд | 302 | Сиддхам, Сиддха, Сиддхаматука | Сиддхам | L-to-R | 7.0 | 92 | Древний / исторический |
Синд | 318 | Худавади, Синдхи | Худавади | L-to-R | 7.0 | 69 | |
Sinh | 348 | Sinhla | Sinhala | L-to-R | 3.0 | 111 | |
Согд | 141 | Согдийский | Согдийский | R-to-L | 11.0 | 42 | Древний / исторический |
Сого | 142 | Старосогдийский | Старосогдийский | R-to-L | 11.0 | 40 | Др евний / исторический |
Сора | 398 | Сора Сомпенг | Сора Сомпенг | L-to-R | 6.1 | 35 | |
Soyo | 329 | Соёмбо | Соёмбо | Л-к-Р | 10.0 | 83 | Древний / исторический |
Сунд | 362 | Сунданский | Сунданский | L-to-R | 5.1 | 72 | |
Sylo | 316 | Syloti Nagri | Syloti Nagri | L -to-R | 4.1 | 45 | Древний / исторический |
Syrc | 135 | Сирийский | Сирийский | R-to-L | 3.0 | 88 | |
Syre | 138 | Сирийский (Estrangelo вариант) | Смешанный | Типографический вариант сирийского | |||
Сырский | 137 | Сирийский (западный | Смешанный | Типографский вариант сирийского | |||
Сырн | 136 | Сирийский (восточный вариант) | Смешанный | Типографский вариант сирийского | |||
Tagb | 373 | Тагбанва | Тагбанва | L-to-R | 3,2 | 18 | |
Такр | 321 | Такр и, Шакри, Чанкри | Такри | L-to-R | 6.1 | 67 | |
Повесть | 353 | Тай Ле | Тай Ле | Слева направо | 4,0 | 35 | |
Талу | 354 | Новый Тай Луэ | Новый Тай Луэ | Слева направо | 4.1 | 83 | |
Тамл | 346 | Тамил | Тамил | L-to-R | 1.0 | 123 | |
Тан | 520 | Тангут | Тангут | L-to-R | 9.0 | 6,914 | Древний / исторический |
Тавт | 359 | Тай-Вьет | Тай-Вьет | L-to-R | 5.2 | 72 | |
Телу | 340 | телугу | телугу | L-to-R | 1.0 | 98 | |
Teng | 290 | Tengwar | L-to- R | Не в Юникоде | |||
Tfng | 120 | Тифинаг (берберский) | Тифинаг | L-to-R | 4.1 | 59 | |
Tglg | 370 | Тагальский (Байбайн, Алибата) | Тагальский | L-to-R | 3,2 | 20 | |
Таа | 170 | Tha ana | Thaana | R-to-L | 3.0 | 50 | |
Тайский | 352 | Тайский | Тайский | Л-к-П | 1.0 | 86 | |
Тибт | 330 | Тибетский | Тибетский | L-to-R | 2.0 | 207 | Добавлено в 1.0, удалено в 1.1 и вновь введено в 2.0 |
Тирх | 326 | Тирхута | Тирхута | Л-к- R | 7.0 | 82 | |
Тото | 294 | Тото | L-to-R | Не в Unicode | |||
Угар | 040 | Угаритский | Угаритский | L-to-R | 4.0 | 31 | Древний / исторический |
Вайи | 470 | Вай | Вай | L-to-R | 5.1 | 300 | |
Visp | 280 | Видимая речь | L-to-R | Не в Unicode | |||
Wara | 262 | Warang Citi (Варанг Кшити) | Warang Citi | L-to-R | 7.0 | 84 | |
Wcho | 283 | Wancho | Wancho | L -to-R | 12.0 | 59 | |
Wole | 480 | Woleai | Смешанный | Не в Юникоде, предложение на начальной / исследовательской с тадии | |||
Xpeo | 030 | Древнеперсидский | Древнеперсидский | L-to-R | 4.1 | 50 | Древний / исторический |
Xsux | 020 | Шумеро-аккадская клинопись | Клинопись | L-to-R | 5.0 | 1,234 | Древние / исторические |
Йези | 192 | Езиды | Езиды | R-to-L | 13.0 | 47 | Древний / исторический |
Йиии | 460 | Yi | И | L-to-R | 3.0 | 1,220 | |
Занб | 339 | Площадь Занабазар ( Занабазарин Дёрбёлджин Усег, Xewtee Dörböljin Bicig, Horizontal Square Script) | Площадь Занабазар | L-to-R | 10.0 | 72 | Древний / исторический |
Зинь | 994 | Код унаследованного скрипта | Унаследовано | Унаследовано | 573 | ||
Zmth | 995 | Матическая нотация | L-to-R | Не «сценарий» в Юникоде | |||
Zsym | 996 | Символы | Не «сценарий» в Юникоде | ||||
Zsye | 993 | Сим bols (вариант эмодзи) | Не «сценарий» в Юникоде | ||||
Zxxx | 99 7 | Код для неписаных документов | Не «сценарий» в Юникоде | ||||
Zyyy | 998 | Код неопределенного сценария | Обычный | Смешанный | 8,087 | ||
Zzzz | 999 | Код незакодированного сценария | Неизвестно | 970,188 | Все остальные кодовые точки | ||
Примечания
|
Декомпозиции, тип декомпозиции, канонический класс комбинирования, исключения композиции и многое другое.
Возраст - это версия Стандарта, в которой кодовая точка была впервые обозначена. Номер версии сокращен до нумерации major.minor, хотя используются более подробные номера версий: версии 4.0.0 и 4.0.1 обе называются 4.0 как Age. Для выпусков возраст может быть из диапазона: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0., 12,0, 12,1 и 13,0. Длинные значения для Age начинаются с буквы V и используют подчеркивание вместо точки: например, V1_1. Кодовые точки без специально назначенного значения возраста имеют значение «NA» с длинной формой «Unassigned».
После определения символа он не будет отозван или изменен при определении свойств (кодовая точка, имя). Но его можно объявить устаревшим. : закодированный символ, использование которого настоятельно не рекомендуется. Начиная с версии Unicode 10.0, пятнадцать символов устарели:
Символы формата от U + 206A до U + 206F и U + E0001 не должны использоваться вообще, но для других устаревших символов есть рекомендуемые альтернативы, как показано выше.
Стандарт Unicode определяет следующие свойства, связанные с границами: