Свойство символа Unicode

редактировать

Стандарт Unicode Standard назначает свойства символа каждой кодовой точке . Эти свойства могут использоваться для обработки «символов» (кодовых точек) в процессах, например, при переносе строк, направлении сценария справа налево или применении элементов управления. Немного непоследовательно, некоторые «свойства символа» также определены для кодовых точек, которым не назначен символ, и кодовых точек, которые помечены как «». Свойства символов описаны в Стандартном приложении №44.

Свойства имеют уровни силы: нормативный, информативный, вспомогательный или предварительный. Для простоты описания свойство символа может быть присвоено путем указания непрерывного диапазона кодовых точек, которые имеют то же свойство.

Содержание

  • 1 Имя
    • 1.1 Имена версии 1.0
    • 1.2 Псевдоним имени символа
  • 2 Общая категория
  • 3 Знаки пунктуации
  • 4 Пробел
  • 5 Другие общие характеристики
  • 6 Свойства, связанные с отображением
  • 7 Двунаправленное письмо
  • 8 Корпус
  • 9 Числовые значения и типы
    • 9.1 Десятичное число
    • 9.2 Шестнадцатеричные цифры
  • 10 Блок
  • 11 Скрипт
  • 12 Свойства нормализации
  • 13 Возраст
  • 14 Устарело
  • 15 Границы
  • 16 Ссылки

Имя

Символу Unicode назначается уникальное имя Имя (na). Имя состоит из прописных букв A – Z, цифр 0–9, - (дефис-минус) и . Некоторые последовательности исключены: имена, начинающиеся с пробела или дефиса, имена, заканчивающиеся пробелом или дефисом, повторяющиеся пробелы или дефисы и пробелы после дефиса не допускаются. Имя гарантированно уникально в Юникоде и может использоваться для идентификации кодовой точки и ее символа. Идеографические символы, которых насчитывается несколько десятков тысяч, названы в шаблоне «cjk unified ideograph-hhhh». Например, U + 4E00 一 CJK UNIFIED IDEOGRAPH-4E00. Также указаны символы форматирования: U + 00A0 ПРОБЕЛ БЕЗ ПЕРЕРЫВА.

Следующие классы кодовой точки не имеют имени (na = ""): элементы управления (общая категория: Cc), частное использование (Co), суррогат (Cs), несимволы (Cn) и Зарезервировано (Cn). На них можно неофициально ссылаться с помощью общего или конкретного мета-имени, называемого «метки кодовых точек»: , , , , , . Поскольку эти метки содержат скобки <>, они никогда не могут отображаться как имя, что предотвращает путаницу.

Имена версии 1.0

В версии 2.0 Unicode многие имена были изменены. С этого момента вступило в силу правило «имя никогда не изменится», включая строгое (нормативное) использование псевдонимов. Неиспользуемые имена версии 1.0 были перемещены в свойство Alias ​​для обеспечения обратной совместимости.

Псевдоним имени символа

Начиная с версии 2.0 Unicode, опубликованное имя для кодовой точки никогда не изменится. Следовательно, в случае неправильного написания имени символа или если имя персонажа является полностью неправильным или серьезно вводящим в заблуждение, персонажу может быть назначен формальный псевдоним имени персонажа, и этот псевдоним может использоваться приложениями вместо фактического дефектного имени персонажа. Например, U + FE18 ︘ ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО ТОРМОЗА имеет псевдоним имени символа "ФОРМА ПРЕЗЕНТАЦИИ ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО КРОНШТЕЙНА", чтобы избежать ошибки при написании "скобки" как "скобки". в фактическом имени персонажа; U + A015 ꀕ YI SYLLABLE WU имеет псевдоним имени символа «YI SYLLABLE ITERATION MARK», потому что, в отличие от имени символа, он не имеет фиксированного слогового значения.

В дополнение к псевдонимам имен символов, которые являются исправлением дефектных имен символов, некоторым символам присваиваются псевдонимы, которые являются альтернативными именами или сокращениями. В стандарте Unicode определены пять типов псевдонимов имен символов:

  • Исправление: исправление ошибок в написании или серьезно неправильных имен символов;
  • Управление: ISO 6429 имена для функций управления C0 и C1 (которым не присвоены имена символов в стандарте Unicode);
  • Альтернативные: альтернативные имена для некоторых символов формата (только U + FEFF «ZERO WIDTH NO-BREAK SPACE», имеющий псевдоним «BYTE ORDER MARK») ;
  • Рисунок: Документированные метки для некоторых функций управляющего кода C1, которые не являются действительными именами в каком-либо стандарте;
  • Сокращение: Аббревиатуры или акронимы для управляющих кодов, символов формата, пробелов и селекторов вариантов.

Все формальные псевдонимы имен символов соответствуют правилам для допустимых имен символов и гарантированно уникальны как в пределах псевдонима имени персонажа, так и в пространстве имен символов (по этой причине имя ISO 6429 «BELL» не определяется как псевдоним для U + 0007, потому что U + 1F514 назван "BELL").

Как o f Unicode версии 12.1, двадцать восемь формальных псевдонимов имен символов определены как исправления для дефектных имен символов.

  • v
Список исправлений имен символов (имена псевдонимов)
СимволИмяПсевдоним
01A2ƢЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА OIЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА GHA
01A3ƣСТРОЧНАЯ ЛАТИНСКАЯ БУКВА OIСТРОЧНАЯ ЛАТИНСКАЯ БУКВА GHA
0709܉СИРИЯСНАЯ СУБЛИНЕЙНАЯ КОЛОНА С СКОРОМ ПРАВОСИРИАСНАЯ СУБЛИНЕЙНАЯ КОЛОНА С СКОРОМ СЛЕВА
0CDEБУКВА КАННАДА FAБУКВА КАННАДА LLLA
0E9D31БУКВА ФОТО31LAO 610>LAO ПИСЬМО FO FON
0E9FLAO LETTER FO SUNGLAO LETTER FO FAY
0EA3LAO LETTER LO LINGLAO LETTER RO
0EA5ЛАО ПИСЬМО ЛО ЛУТЛАО ПИСЬМО ЛО
0FD0ТИБЕТСКИЙ МАРК БСКА- ШОГ ГИ МГО РГЯНТИБЕТСКИЙ МАРК БКА- ШОГ ГИ МГО РГЯН
11ECХАНГЫЛЬ ЧОНСОН ЕНГ-КИЕОКХАНГЫЛЬ ЧОНСОН ЕСИЁНГ-КИЕОК
11EDХАНГЫЛЬ ЧОНСОНГ ЕНГ-ССАНГКИЁКХАНГЫЛЬ ЧОНГСОН ЕСИЁН-ССАНГКИЕОК
11EEХАНГЫЛЬ ЧОНГСОН САНГИЁНХАНГЫЛЬ ЧОНСОНГ ССАНГЕСИУН
11EFХАНГЫЛ ЧОНГОН>ХАНГЫЛ ЧОНГОН>ХАНГЫЛ ЧОНГОН>ХАНГЫЛ ЧОНГОН>YESIEUNG-KHIEUKH
2118SCRIPT CAPITAL PWEIERSTRASS ELLIPTIC FUNCTION
2448OCR DASHMICR ON СИМВОЛ США
2449 <1633ER>OCR CUST НОМЕР УЧЕТНОЙ ЗАПИСИСИМВОЛ MICR DASH
2B7AТРЕУГОЛЬНАЯ СТРЕЛКА ВЛЕВО С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ ХОДОМТРЕУГОЛЬНИК ВЛЕВО С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ УПРАВЛЕНИЕМ <16611657>ПРАВИЛЬНО 7 <16611657 ТРЕУГОЛЬНАЯ СТРЕЛКА С ДВОЙНЫМ ГОРИЗОНТАЛЬНЫМ ХОДОМВПРАВО ТРЕУГОЛЬНАЯ СТРЕЛКА С ДВОЙНЫМ ВЕРТИКАЛЬНЫМ ХОДОМ
A015YI SYLLABLE WUYI SYLLABLE ITERATION MARK <164061>FE ПРЕЗЕНТАЦИОННАЯ ФОРМА ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ЛЕНТИКУЛЯРНОГО ТОРМОЗАПРЕЗЕНТАЦИОННАЯ ФОРМА ДЛЯ ВЕРТИКАЛЬНОГО ПРАВОГО БЕЛОГО ПЛЕМЕННОГО КРОНШТЕЙНА
122D4𒋔КУЛИНОФОРМА SHIR TENUCUNEIFORM SIGN NU11 TU11 ENU
122D5𒋕ЗНАК CUNEIFORM НА РУБАШКЕ НА РУБАШКЕЗНАК CUNEIFORM NU11 НАД NU11 BUR OVER BUR
16E56𖹖MEDEFAIDRIN КАПИТАЛ ПИСЬМО HPMEDEFA H
16E57𖹗МЕДЕФАЙДРИН ЗАГЛАВНАЯ БУКВА NYМЕДЕФАИДРИН ЗАГЛАВНАЯ БУКВА NG
16E76𖹶МЕДЕФАИДРИН СТРОЧНАЯ БУКВА HPМЕДЕФАИДРИН СТРОЧНАЯ БУКВА H
1661>1661>СТРОЧНАЯ БУКВА МЕДЕФАЙДРИН NYСТРОЧНАЯ БУКВА МЕДЕФАЙДРИН NG
1B001𛀁БУКВА ХИРАГАНА АРХИКА YEПИСЬМО ХЕНТАЙГАНА E-1
1D0C5𝃅ВИЗАНТИЙСКИЙ СКАЗАНТВИЗАНТИЙСКИЙ МУЗЫКАЛЬНЫЙ СИМВОЛ FTHORA SKLIRON CHROMA VASIS

Помимо этих нормативных имен, неофициальные имена могут отображаться в таблицах кодов Unicode. Это другие часто используемые имена для символа, и их необязательно ограничивать буквами A – Z, цифрами 0–9, - (дефис-минус) и . Уникальность этих неофициальных имен не гарантируется, и они могут быть изменены или удалены в более поздних версиях стандарта.

Общая категория

Каждой кодовой точке присваивается значение для общей категории. Это одно из свойств символа, которые также определены для неназначенных кодовых точек и кодовых точек, которые определены как «не символ».

Общая категория (Unicode Свойство символа )
  • v
  • t
ЗначениеКатегория Основная, второстепеннаяБазовый типНазначенный символСчетчик. (по состоянию на 13.0)Примечания
Буква (L)
LuБуква, прописнаяГрафикаСимвол1,791
LlБуква, нижний регистрГрафикаСимвол2,155
LtБуква, регистрГрафикаСимвол31Лигатуры, содержащие прописные буквы, за которыми следуют строчные буквы (например, Dž, Lj, Nj и Dz )
LmLetter, модификаторGraphicCharacter260A модификатор буква
LoБуква, прочееГрафикаСимвол127,004Иероглиф или буква в unicase алфавит
Метка (M)
MnЗнак, без интервалаГрафикаСимвол1,839
McЗнак, объединение интервалаГрафикаСимвол443
MeЗнак, заключающийГрафикаСимвол13
Число (N)
NdЧисло, d десятичная цифраГрафикаСимвол650Все эти, и только эти, имеют числовой тип = De
NlЧисло, букваГрафикаСимвол236Цифры, состоящие из букв или буквоподобных символов (например, римские цифры )
NoЧисло, прочееГрафическийСимвол895Например, вульгарные дроби, надстрочный индекс и нижний индекс цифры
Пунктуация (P)
PcПунктуация, соединительГрафикаСимвол10Включает «_» подчеркивание
PdЗнаки пунктуации, тиреГрафикаСимвол25Включает несколько дефис символов
PsЗнаки пунктуации, открытоеГрафикаСимвол75Открытие квадратные скобки символы
Peзнаки препинания, закрывающиеграфическиесимволы73закрывающие скобки
Piзнаки препинания, начальные кавычкиграфическиеСимвол12Открывающая кавычка. Не включает "нейтральные" кавычки ASCII. Может вести себя как Ps или Pe в зависимости от использования
PfПунктуация, заключительная кавычкаГрафикаСимвол10Закрывающая кавычка. Может вести себя как Ps или Pe в зависимости от использования
PoЗнаки пунктуации, другиеГрафикаСимвол593
Символ (S)
SmСимвол, математикаГрафикаСимвол948Математические символы (например, +, , =, ×, ÷, , , ). Не включает круглые и квадратные скобки, которые есть в категориях Ps и Pe. Также не включает !, *, - или /, которые, несмотря на частое использование в качестве математических операторов, в первую очередь считаются «пунктуацией».
ScСимвол, валютаГрафикаСимвол62Символы валюты
SkСимвол, модификаторГрафикаСимвол123
SoСимвол, прочееГрафикаСимвол6,431
Разделитель (Z)
ZsРазделитель, пробелГрафикаСимвол17Включает пробел, но не TAB, CR или LF, которые являются Cc
ZlSeparator, lineFormatТолько символ1U + 2028 РАЗДЕЛЕНИЕ СТРОКИ (LSEP)
ZpРазделитель, абзацФорматСимвол1Только U + 2029 РАЗДЕЛЕНИЕ ПАРАМЕТРОВ (PSEP)
Другое (C)
CcДругое, элемент управленияЭлемент управленияСимвол65 (никогда не изменится)Без имени,
CfДругое, форматФорматСимвол161Включает мягкий дефис, объединение управляющих символов (zwnj и zwj ), управляющих символов для поддержки двунаправленного текста и языковых тегов символов
CsДругой, суррогатныйСуррогатныйНе (но абстрактный)2048 (никогда не изменится)Без имени,
CoДругое, частное использоватьдля частного использованияНе (но абстрактно)Всего 137,468 (никогда не изменится) (6,400 в BMP, 131,068 в Самолеты 15–16 )Без названия,
CnДругое, не присвоеноБез символаНе66 (никогда не изменится)Нет имя,
ЗарезервированоНет830,606Без имени,

Знаки пунктуации

Символы имеют отдельные свойства для обозначения того, что они знак препинания. Все свойства имеют значения Да / Нет : Штрих, Quotation_Mark, Sentence_Terminal, Terminal_Punctuation .

Пробел

Пробел - широко используемое понятие для типографского эффекта. В основном он охватывает невидимые символы, которые имеют эффект интервала в отображаемом тексте. Он включает пробелов, вкладки и элементы управления форматированием новой строки. В Юникоде для такого символа установлено свойство WSpace = yes. В версии 13.0 25 пробелов.

  • v
  • t
Символы Unicode со свойством White_Space
ИмяКодовая точка Поле шириныМожет нарушаться ?В. IDN ?Script Block General. категорияПримечания
табуляция символовU + 00099ДаНетОбычныйБазовый LatinOther,. controlHT, Horizontal Tab. HTML / XML именованный объект : , LaTeX : '\ tab'
перевод строкиU + 000A10Является разрывом строкиCommonBasic LatinOther,. controlLF, Перевод строки. Именованный объект HTML / XML:
табуляция строкU + 000B11Разрыв строкиCommonBasic LatinДругое,. управлениеVT, Вертикальная табуляция
подача формыU + 000C12Есть перенос строкиОбычныйBasic LatinOther,. controlFF, Form Feed
возврат кареткиU + 000D13Разрыв строкиОбычнаяБазовая латиницаДругое,. controlCR, Возврат каретки
пробелU + 002032ДаНетОбычнаяБазовая латиницаРазделитель,. пробелНаиболее часто встречающийся (обычный пробел ASCII)
следующая строкаU + 0085133Разрыв строкиОбычныйЛатинский-1. ДополнениеДругое,. controlNEL, Следующая строка
непрерывный пробелU + 00A0160NoНетCommonLatin-1. ДополнениеРазделитель,. пробелНеразрывный пробел : идентичен U + 0020, но не точка, в которой линия может быть разорвана. Именованный объект HTML / XML: , LaTeX: '\'
огамовый пробелU + 16805760ДаНетОгамОгамРазделитель,. пробелИспользуется для разделения слов в Огам текст. Обычно это вертикальная линия в вертикальном тексте или горизонтальная линия в горизонтальном тексте, но также может быть пустым пространством в шрифтах без основы. Требуется шрифт Oham.
en quadU + 20008192ДаНетCommonGeneral. ПунктуацияРазделитель,. пробелШирина единицы en. U + 2002 канонически эквивалентен этому персонажу; U + 2002 предпочтительнее.
em quadU + 20018193ДаНетОбычныйОбщий. ПунктуацияРазделитель,. пробелТакже известен как «баранина». Ширина один em. U + 2003 канонически эквивалентен этому персонажу; U + 2003 предпочтительнее.
en пробелU + 20028194ДаНетCommonGeneral. ПунктуацияРазделитель,. пробелТакже известен как «орех». Ширина одного en. U + 2000 En Quad канонически эквивалентен этому персонажу; U + 2002 предпочтительнее. Именованный объект HTML / XML: , LaTeX: '\ enspace'
em пробелU + 20038195ДаНетОбычноеОбщее. ПунктуацияРазделитель,. пробелТакже известен как «баранина». Ширина один em. U + 2001 Em Quad канонически эквивалентен этому персонажу; U + 2003 предпочтительнее. Именованный объект HTML / XML: , LaTeX: '\ quad'
пробел по три на emU + 20048196ДаНетОбычноеОбщее. ПунктуацияРазделитель,. пробелТакже известен как «толстое пространство». Одна треть em шириной. Именованный объект HTML / XML:
пробел с четырьмя точкамиU + 20058197ДаНетОбычныйОбщий. ПунктуацияРазделитель,. пробелТакже известен как «средний промежуток». Одна четверть em шириной. Именованный объект HTML / XML:
пробел из шести на emU + 20068198ДаНетОбычныйОбщий. Знаки пунктуацииРазделитель,. пробелШирина в одну шестую em. В компьютерной типографике иногда приравнивается к U + 2009.
пространство между цифрамиU + 20078199NoНетОбычноеОбщее. ПунктуацияРазделитель,. пробелПробел. В шрифтах с моноширинными цифрами, равными ширине одной цифры. Именованный объект HTML / XML:
пробелU + 20088200ДаНетОбычныйОбщие. Знаки пунктуацииРазделитель,. пробелПо ширине, равной узкой пунктуации в шрифте, т. Е. Продвинутой ширине точки или запятой. Именованный объект HTML / XML:
тонкий пробелU + 20098201ДаНетОбычныйОбщие. ПунктуацияРазделитель,. пробелТонкий пробел ; одна пятая (иногда одна шестая) ширины em. Рекомендуется использовать в качестве разделителя тысяч для измерений, выполненных с использованием единиц СИ. В отличие от U + 2002 - U + 2008, его ширина может регулироваться при наборе. Именованный объект HTML / XML: ; LaTeX: '\,'
пространство для волосU + 200A8202ДаНетОбычноеОбщие. ПунктуацияРазделитель,. пробелТоньше, чем тонкий пробел. Именованный объект HTML / XML: (работает не во всех браузерах)
разделитель строкU + 20288232Это строка -breakОбычноеОбщее. ПунктуацияРазделитель,. строка
разделитель абзацевU + 20298233Является разрывом строкиОбычноеОбщее. ПунктуацияРазделитель,. абзац
узкий нет- пробелU + 202F8239NoНетОбычныйОбщий. ПунктуацияРазделитель,. пробелУзкий непрерывный пробел. По функциям аналогичен U + 00A0 No-Break Space. При использовании с монгольским языком его ширина обычно составляет треть нормального пространства; в другом контексте его ширина иногда напоминает ширину тонкого пространства (U + 2009).
средний математический интервалU + 205F8287ДаНетОбычныйОбщий. Знаки пунктуацииРазделитель,. пробелMMSP. Используется в математических формулах. Четыре восемнадцатые эм. В математической типографике ширина пробелов обычно указывается в целых числах, кратных восемнадцатой em, и 4/18 em может использоваться в нескольких ситуациях, например между a и + и между + и b в выражении a + b . Именованный объект HTML / XML:
идеографическое пространствоU + 300012288ДаНетОбычныйСимволы CJK. и. ПунктуацияРазделитель,. пробелПо ширине, равной символьной ячейке CJK (полная ширина ). Используется, например, в tai tou.
  • v
  • t
Связанные символы Unicode без свойства White_Space
ИмяКодовая точка Поле шириныМожет нарушаться ?В. IDN ?Скрипт Блок Общие. категорияПримечания
монгольский разделитель гласныхU + 180E6158ДаНетМонгольскийМонгольскийДругой,. ФорматMVS. Символ с узким пространством, используемый в монгольском языке, чтобы последние два символа слова принимали разные формы. Он больше не классифицируется как пробел (то есть в категории Zs) в Unicode 6.3.0, хотя это было в предыдущих версиях стандарта.
пробел нулевой шириныU + 200B8203ДаНет?Общее. ПунктуацияДругое,. ФорматZWSP, пробел нулевой ширины. Используется для обозначения границ слов для систем обработки текста при использовании скриптов, не использующих явный интервал. Он похож на мягкий дефис , с той разницей, что последний используется для обозначения границ слогов и должен отображать видимый дефис, когда на нем прерывается строка. HTML / XML именованный объект :
без соединения с нулевой ширинойU + 200C8204ДаКонтекстно-зависимый?Общий. Знаки пунктуацииДругой,. ФорматZWNJ, без соединения с нулевой шириной. При размещении между двумя символами, которые в противном случае были бы связаны, ZWNJ заставляет их печатать в их окончательной и исходной формах соответственно. Именованный объект HTML / XML:
объединитель нулевой шириныU + 200D8205ДаКонтекстно-зависимый?Общие. ПунктуацияДругое,. ФорматZWJ, объединитель нулевой ширины. При размещении между двумя символами, которые в противном случае не были бы связаны, ZWJ заставляет их печатать в связанных формах. Также может использоваться для изолированного отображения объединяемых форм. В зависимости от того, ожидается ли по умолчанию лигатура или конъюнкт, может либо вызвать (как в эмодзи и в сингальском ), либо подавить (как в Деванагари ) замену с помощью одиночный глиф, при этом разрешая использование индивидуальных форм соединения (в отличие от ZWNJ). Именованный объект HTML / XML:
объединитель словU + 20608288NoНет?Общее. ПунктуацияДругое,. ФорматWJ, средство объединения слов. Подобно U + 200B, но не точка, в которой линия может быть прервана. Именованный объект HTML / XML:
неразрывный пробел нулевой шириныU + FEFF65279NoНет?Арабский. Презентация. Forms-BДругое,. ФорматНеразрывный пробел нулевой ширины. Используется в основном как метка порядка байтов. Использование в качестве индикатора неразрывности считается устаревшим с Unicode 3.2; см. вместо этого U + 2060.

.

Прочие общие характеристики

Идеографическая, буквенная, без символа.

Свойства, связанные с отображением

Формирование, ширина.

Двунаправленное письмо

Шесть свойств символов относятся к двунаправленному письму: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket и Bidi_Paired_Bracket_Type.

Одной из основных функций Unicode является поддержка двунаправленного (Bidi) отображения текста справа налево (R-to-L) и слева направо (L-to-R). Двунаправленный алгоритм Unicode UAX9 описывает процесс представления текста с изменением направления сценария. Например, он включает цитату на иврите в английском тексте. Bidi_Character_Type отмечает поведение персонажа при направленном письме. Чтобы отменить направление, Unicode определил специальные символы управления форматированием (Bidi-Control s). Эти символы могут указывать направление и по определению влияют только на двунаправленное письмо.

Каждая кодовая точка имеет свойство Bidi_Class . Он определяет его поведение в двунаправленном тексте, интерпретируемом алгоритмом:

  • v
  • t
Тип двунаправленного символа (Unicode свойство символа Bidi_Class)
ТипОписаниеСилаНаправленностьОбщая область действияСимвол Bidi_Control
LСлева направоСильныйL-to-RБольшинство буквенных и слоговых символов, китайские символы, неевропейские или неарабские цифры, символ LRM,...U + 200E LEFT-TO -ПРАВАЯ ЗНАЧКА (LRM)
RПрава-налевоСильноR-to-LАдлам, иврит, мандайский, Mende Kikakui, N'Ko, Самаритян, древние письменности, такие как харошти и набатейский, символ RLM,...U + 200F СПРАВА-ЛЕВАЯ ЗНАЧКА (RLM)
ALАрабская букваСильныйR-to-LАрабский, ханифи-рохинджа, согдийский, сирийский и танаский алфавиты и большинство знаков препинания, характерных для этих алфавитов, символ ALM,...U + 061C ARABIC БУКВА (ALM)
ENЕвропейский номерСлабыеевропейские цифры, восточно-арабские-индийские цифры, коптские эпактные числа,...
ESЕвропейский разделительСлабыйзнак плюс, знак минус,...
ETтерминатор европейского номераслабый знакградуса, символы валюты,...
ANарабское числослабыйарабско-индийские цифры, арабское десятичное число и разделители тысяч, цифры Руми, цифры Ханифи Рохинья,...
CSОбычный разделитель чиселСлабыйдвоеточие, запятая, точка, неразрывный пробел,...
NSMЗнак без пробеловСлабыйСимволы в общих категориях Знак, без пробелов и Знак, заключающий (Mn, Me)
BNГранично-нейтральныйСлабоеигнорируемые по умолчанию, несимволы, управляющие символы, кроме явно заданных других типов
BРазделитель абзацевНейтральныйразделитель абзацев, соответствующие функции новой строки, протокол более высокого уровня определение абзаца
SРазделитель сегментовНейтральныйТабуляция
WSПробелNeu tralпробел, пробел рисунка, разделитель строк, подача формы, общие пробелы в блоках пунктуации (меньше, чем список пробелов Unicode )
ONПрочие нейтральные символыНейтральныйВсе остальные символы, включая символ замены объекта
LREВстраивание слева направоЯвноеL- to-Rтолько символ LREU + 202A ВСТАВЛЕНИЕ СЛЕВА НАПРАВО (LRE)
LROПереопределение слева направоЯвноL-to-Rтолько символ LROU + 202D ПЕРЕХОД ВЛЕВО-ВПРАВО (LRO)
RLEВстраивание справа налевоЯвное встраиваниеR-to-Lтолько символ RLEU + 202B ВСТРОЕНИЕ СПРАВА ВЛЕВО ( RLE)
RLOПереопределение справа налевоЯвноеR-to-LТолько символ RLOU + 202E ПЕРЕМЕЩЕНИЕ ВПРАВО-ВЛЕВО (RLO)
PDFPop Directional FormatExplicitТолько символы PDFU + 202C POP DIRECTIONAL ФОРМАТИРОВАНИЕ (PDF)
LRIИзолировать слева направоЯвноLRIТолько символ LRIU + 2066 ИЗОЛЯЦИЯ СЛЕВА НАПРАВО (LRI)
RLIИзоляция справа налевоЯвнаяОт R к LТолько символ RLIU + 2067 ИЗОЛЯЦИЯ ПРАВО-ЛЕВО (RLI)
FSIПервый строгий изоляторЯвныйтолько символ FSIU + 2068 FIRST STRONG ISOLATE (FSI)
PDIPop Directional IsolateExplicitтолько символ PDIU + 2069 POP DIRECTIONAL ISOLATE (PDI)
Примечания
1.^Двунаправленный алгоритм Unicode (UAX # 9), начиная с версии Unicode 12.0
2.^Возможные двунаправленные типы символов для свойства символа: Bidi_Class или 'type'
3.^Символы Bidi_Control : определены двенадцать символов форматирования Bidi_Control. Они невидимы и не имеют никакого эффекта, кроме направленности. Девять из них имеют уникальный, отменяющий тип BiDi, который используется алгоритмом. Их тип также является их аббревиатурой (например, символ 'LRE' имеет тип BiDi 'LRE').

В обычных ситуациях алгоритм может определять направление текста по этому свойству символа. Для управления более сложными ситуациями с Bidi, например когда в английском тексте есть цитата на иврите, в Юникод добавляются дополнительные параметры. Двенадцать символов имеют свойство Bidi_Control = Yes : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM и RLO, как указано в таблице. Это невидимые управляющие символы форматирования, используемые только алгоритмом и не имеющие никакого эффекта, кроме двунаправленного форматирования. Несмотря на название, они являются символами форматирования, а не управляющими символами, и имеют общую категорию «Другой, формат (Cf)» в определении Unicode.

По сути, алгоритм определяет последовательность символов с одним и тем же строгим типом направления (R-to-L или L-to-R) с учетом отмены специальных элементов управления Bidi. Числовые строки (слабые типы) получают направление в соответствии с их сильным окружением, как и нейтральные символы. Наконец, символы отображаются в соответствии с направлением строки.

Два свойства символа имеют отношение к определению зеркального отображения глифа в двунаправленном тексте: Bidi_Mirrored = Yes указывает, что глиф должен быть зеркальным при записи R-to-L. Свойство Bidi_Mirroring_Glyph = U + hhhh может затем указывать на зеркальный символ. Например, скобки «()» отражаются таким образом. Формирование рукописных шрифтов, таких как арабский, и зеркальное отображение глифов, имеющих направление, не является частью алгоритма.

Регистр

Значение регистра является нормативным в Юникоде. Это относится к тем сценариям, в которых используются прописные (они же заглавные, мажускулы) и строчные (маленькие, минускульные) буквы. Разница в регистре встречается в адламском, армянском, чероки, коптском, кириллице, десеретском, глаголице, греческом, хуцури и мхедрули грузинском, латинском, медефайдринском, старовенгерском, осейджском и варангском шрифтах Citi.

(верхний, нижний, заголовок, складывающийся - как простой, так и полный)

Числовые значения и типы

Десятичный

Символы классифицируются как Числовой тип . Такие символы, как дроби, подстрочные и надстрочные индексы, римские цифры, числители денежных единиц, числа в кружках и цифры, относящиеся к конкретному сценарию, относятся к типу Numeric. У них есть числовое значение, которое может быть десятичным, включая ноль и отрицательные числа, или обычную дробь. Если такого значения нет, как у большинства символов, числовой тип - «Нет».

Символы, которые имеют числовое значение, разделены на три группы: десятичные (De), цифровые (Di) и числовые (Nu, т. Е. Все остальные). «Десятичный» означает, что символ представляет собой прямую десятичную цифру. Числовой тип Decimal имеют только символы, входящие в непрерывный диапазон кодирования 0–9. Другие цифры, такие как надстрочные, имеют числовой тип Digit. Все числовые символы, такие как дроби и римские цифры, заканчиваются типом «Числовой». Предполагаемый эффект состоит в том, что простой синтаксический анализатор может использовать эти десятичные числовые значения, не отвлекаясь, скажем, на числовой верхний индекс или дробь. Семьдесят три иероглифа CJK, которые представляют собой числа, в том числе используемые для бухгалтерского учета, набираются числовыми.

С другой стороны, символы, которые могут иметь числовое значение в качестве второго значения, по-прежнему помечаются как «Нет» числового типа и не имеют числового значения («»). Например. В нумерации абзацев можно использовать латинские буквы, такие как «II.A.1.b», но буквы «I», «A» и «b» не являются числовыми (тип «None») и не имеют числового значения.

  • v
  • t
Числовой тип (Юникод свойство символа )
Числовой типКодИмеет числовое значениеПримерПримечания
Не числовойНетNo
  • A
  • X(Латиница)
  • !
  • Д
  • μ
Числовое значение = "NaN"
Десятичное числоDeДа
  • 0
  • 1
  • 9
  • ६(Деванагари 6)
  • ೬(Каннада 6)
  • 𝟨(Математический стиль без засечек)
Прямая цифра (десятичная - основание ). Соответствует в обоих направлениях Общая категория = Nd
ЦифраDiДа
  • ¹(надстрочный индекс)
  • ⒈(цифра с точкой)
Десятичное, но в типографском контексте
ЧисловоеNuДа
  • ¾
  • ௰(тамильское число десять)
  • Ⅹ(римское число)
  • 六(число Хана 6)
Числовое значение, но не десятичная система счисления
a. ^«Раздел 4.6: Числовое значение» (PDF). Стандарт Юникода. Консорциум Unicode. Март 2020.
б. ^«Производные числовые типы Unicode 13.0». База данных символов Юникода. Консорциум Unicode. 2019-09-08.

Шестнадцатеричные цифры

Шестнадцатеричные символы - это символы в серии с шестнадцатеричными значениями 0... 9ABCDEF (шестнадцать символов, десятичное значение 0–15). Для свойства символа Hex_Digit установлено значение Да, если символ находится в такой последовательности:

Символы в Юникоде, отмеченные Hex_Digit = Да
0123456789ABCDEFБазовая латиница, заглавные буквыТакже ASCII_Hex_Digit = Да
0123456789abcdefБазовая латиница, строчные буквыТакже ASCII_Hex_Digit = Да
0123456789ABCDEFПолноширинные формы, заглавные
0123456789abcdefФормы полной ширины, строчные буквы
a. ^«Unicode 13.0 UCD: PropList.txt».2019-11-27. Проверено 12 марта 2020 г.

Сорок четыре символа помечены как Hex_Digit. Те, что в блоке Basic Latin, также помечены как ASCII_Hex_Digit .

Unicode не имеет отдельных символов для шестнадцатеричных значений. Следствием этого является то, что при использовании обычных символов невозможно определить, предназначено ли шестнадцатеричное значение или даже предназначено ли оно вообще. Это должно быть определено на более высоком уровне, например добавляя "0x" к шестнадцатеричному числу или по контексту. Единственная особенность заключается в том, что Unicode может отметить, что последовательность может быть или не может быть шестнадцатеричным значением.

Блок

A блок представляет собой непрерывный диапазон кодовых точек с уникальным именем. Он идентифицируется его первой и последней кодовой точкой. Блоки не перекрываются. Блок может содержать кодовые точки, которые зарезервированы, не назначены и т. Д. Каждый назначенный символ имеет одно значение «имени блока» из 308 имен, назначенных в версии 13.0 Unicode. Неназначенные кодовые точки вне существующего блока имеют значение по умолчанию «No_block».

  • v
  • t
Блоки Unicode и содержащие скрипты
Плоскость Диапазон блоковИмя блокаКодовые точкиНазначенные символыСкрипты
0 BMP U + 0000..U + 007FBasic Latin 128128Latin (52 символа), Common ( 76 символов)
U + 0080..U + 00FFДополнение Latin-1 128128Latin (64 символа), Common (64 символа)
U + 0100..U + 017FРасширенная латиница-A 128128Латиница
U + 0180..U + 024FЛатиница Extended-B 208208Latin
U + 0250..U + 02AFРасширения IPA 9696Latin
U + 02B0..U + 02FFБуквы модификатора интервала 8080Bopomofo (2 символа), Latin (14 символов), Common (64 символа)
U + 0300..U + 036FОбъединение диакритических знаков 112112Унаследовано
U + 0370..U + 03FFгреческое и коптское 144135коптское (14 символов), греческий (117 символов), общий (4 символа)
U+0400..U+04FFкириллица 256256кириллица (254 символа), наследуемая (2 символа)
U + 0500..U + 052FДополнение к кириллице 4848Кириллица
0 BMP U + 0530..U + 058F ​​Армянский 9691Армянский
U + 0590..U + 05FFИврит 11288Иврит
U + 0600..U + 06FFарабский 256255арабский (237 символов), общий ( 6 символов), наследуемый (12 символов)
U + 0700..U + 074Fсирийский 8077сирийский
U + 0750..U + 077Fарабское приложение 4848арабский
U + 0780..U + 07BFThaana 6450Thaana
U + 07C0..U + 07FFNKo 6462Nko
U + 0800..U + 083FСамаритянин 6461Самаритянин
U + 0840..U + 085FМандаик 3229Мандаик
U + 0860..U + 086FСирийское Дополнение 1611Сирийский
0 BMP U + 08A0..U + 08FFарабский расширенный-A 9684арабский (83 символа), общий (1 символ)
U + 0900..U + 097Fдеванагари 128128Деванагари (122 символа), общий (2 символа), наследуемый (4 канала символов)
U + 0980..U + 09FFбенгальский 12896бенгальский
U + 0A00..U + 0A7FГурмукхи 12880Гурмукхи
U + 0A80..U + 0AFFГуджарати 12891Гуджарати
U + 0B00..U + 0B7FОрия 12891Ория
U + 0B80..U + 0BFFТамил 12872Тамил
U + 0C00..U + 0C7FТелугу 12898Телугу
U + 0C80..U + 0CFFканнада 12889каннада
U + 0D00..U + 0D7Fмалаялам 128118малаялам
0 BMP U + 0D80..U + 0DFFсингальский 12891сингальский
U + 0E00..U + 0E7Fтайский 12887тайский (86 символов), Общий (1 символ)
U + 0E80..U + 0EFFЛаосский 12882Лаосский
U + 0F00..U + 0FFFТибетский 256211Тибетский (207 символов), Общий (4 символа)
U+1000..U+109FМьянма 160160Мьянма
U + 10A0..U + 10FFгрузинский 9688грузинский (87 символов), общий (1 символ)
U + 1100..U + 11FFхангыль Джамо 256256хангыль
U + 1200..U + 137Fэфиопский 384358эфиопский
U + 1380..U + 139Fэфиопское приложение 3226Эфиопский
U + 13A0..U + 13FFЧероки 9692Чероки
0 BMP U + 1400..U + 167FЕдиный слоговый язык канадских аборигенов 640640канадские аборигены
U + 1680..U + 169Fогам 3229огам
U + 16A0..U + 16FFрунический 9689рунический (86 символов), общий (3 символа)
U + 1700..U + 171Fтагальский 3220тагальский
U + 1720..U + 173FHanunoo 3223Hanunoo (21 символ), общий (2 символа)
U + 1740..U + 175FBuhid 3220Buhid
U + 1760..U + 177FTagbanwa 3218Тагбанва
U + 1780..U + 17FFкхмерский 128114кхмерский
U + 1800..U + 18AFмонгольский 176157Монгольский (154 символа), общий (3 символа)
U + 18B0..U + 18FFУнифицированный слоговый язык канадских аборигенов расширенный 8070Канадский абориген
0 BMP U + 1900..U + 194FЛимбу 8068Лимбу
U + 1950..U + 197FTai Le 4835Tai Le
U + 1980..U + 19DFNew Tai Lue 9683New Tai Lue
U + 19E0..U + 19FFКхмерские символы 3232Кхмерский
U + 1A00..U + 1A1FБугинский 3230Бугинский
U + 1A20..U + 1AAFТай Тхам 144127Тай Тхам
U + 1AB0..U + 1AFFРасширенное объединение диакритических знаков 8017Унаследовано
U + 1B00..U + 1B7FБалийский 128121Балийский
U + 1B80..U + 1BBFСунданский 6464Сунданский
U + 1BC0..U + 1BFFБатак 6456Батак
0 BMP U + 1C00..U + 1C4FLepcha 8074Lepcha
U + 1C50..U + 1C7FOl Chiki 4848Ol Chiki
U + 1C80..U + 1C8FКириллица расширенная-C 169Кириллица
U + 1C90..U + 1CBFГрузинская расширенная 4846Грузинская
U + 1CC0..U + 1CCFСунданское приложение 168Сунданское
U + 1CD0..U + 1CFFВедические расширения 4843Обычное (16 символов), унаследованное (27 символов)
U + 1D00..U + 1D7FФонетические расширения 128128Кириллица (2 символа), греческий (15 символов) rs), латиница (111 символов)
U + 1D80..U + 1DBFДополнение о фонетических расширениях 6464Греческий (1 символ), латинский (63 символа)
U + 1DC0..U + 1DFFДополнение о комбинированных диакритических знаках 6463Inherited
U + 1E00..U + 1EFFРасширенное латинское дополнение 256256Latin
0 BMP U + 1F00..U + 1FFFГреческий расширенный 256233Греческий
U + 2000..U + 206FОбщая пунктуация 112111Обычный (109 символов), унаследованный (2 символа)
U + 2070..U + 209FВерхние и нижние индексы 4842Латинский (15 символов)), Common (27 символов)
U + 20A0..U + 20CFСимволы валюты 4832Common
U + 20D0..U + 20FFОбъединение диакритических знаков для символов 4833Унаследовано
U + 2100..U + 214FБуквоподобные символы 8080греческий (1 символ), латинский (4 символа), общий (75 символов)
U + 2150..U + 218FФормы чисел 6460Латинский (41 символ), общий (19 символов)
U + 2190..U + 21FFСтрелки 11 2112Обычный
U + 2200..U + 22FFМатематические операторы 256256Обычный
U + 2300..U + 23FFРазное техническое 256256Обычное
0 BMP U + 2400..U + 243FКонтрольные изображения 6439Обычное
U + 2440..U + 245FОптическое распознавание символов 3211Обычное
U + 2460..U + 24FFЗакрытые буквенно-цифровые символы 160160Обычное
U + 2500..U + 257FЧертеж рамки 128128Обычный
U + 2580..U + 259FЭлементы блока 3232Общие
U + 25A0..U + 25FFГеометрические формы 9696Обычные
U + 2600..U + 26FFРазные символы 256256Обычные
U+2700..U+27BFДингбаты 192192Общий
U + 27C0..U + 27EFРазные математические символы-A 4848Обычный
U + 27F0..U + 27FFДополнительные стрелки-A 1616Обычный
0 BMP U + 2800..U + 28FFШаблоны Брайля 256256Брайль
U + 2900..U + 297FДополнительные стрелки-B 128128Обычный
U + 2980..U + 29FFРазные математические символы- B 128128Общий
U + 2A00..U + 2AFFДополнительные математические операторы 256256Общий
U + 2B00..U + 2BFFРазные символы и стрелки 256253Обычный
U + 2C00..U + 2C5FГлаголица 9694Глаголица
U + 2C60..U + 2C7FРасширенная латиница-C 3232Латиница
U + 2C80..U + 2CFFКоптский 128123Коптский
U + 2D00..U + 2D2FГрузинское приложение 4840Грузинское
U + 2D30..U + 2D7FТифинаг 8059Tifinagh
0 BMP U + 2D80..U + 2DDFEthiopic Extended 9679Ethiopic
U + 2DE0..U + 2DFFCyrillic Extended-A 3232Cyrillic
U + 2E00..U + 2E7FДополнительная пунктуация 12883Обычная
U + 2E80..U + 2EFFПриложение CJK Radicals 128115Хань
U + 2F00..U + 2FDFРадикалы Канси 224214Хан
U + 2FF0..U + 2FFFИероглифические символы описания 1612Обычные
U + 3000..U + 303FCJK-символы и знаки препинания 6464Хан (15 символов), Хангыль (2 символа), Общий (43 символа), Унаследованный (4 символа)
U + 3040..U + 309FХирагана 9693Хирагана (89 символов), Common (2 символа), Inherited (2 символа)
U + 30A0..U + 30FFKatakana 9696Katakana (93 символа), Common (3 символа)
U + 3100..U + 312FBopomofo 4843Bopomofo
0 BMP U + 3130..U + 318FСовместимость с хангыль Jamo 9694хангыль
U + 3190..U + 319FКанбун 1616Общий
U + 31A0..U + 31BFБопомофо расширенный 3232Бопомофо
U + 31C0..U + 31EFШтрихи CJK 4836Общие
U + 31F0..U + 31FFфонетические расширения катаканы 1616катакана
U + 3200..U + 32FFзаключенные буквы CJK и месяцы 256255Хангыль (62 символа), Катакана (47 символов), Общий (146 символов)
U + 3300..U + 33FFСовместимость с CJK bility 256256Катакана (88 символов), общий (168 символов)
U + 3400..U + 4DBFCJK Unified Ideographs Extension A 6,5926,592Хан
U + 4DC0..U + 4DFFСимволы гексаграммы Ицзин 6464Общие
U + 4E00..U + 9FFFУнифицированные иероглифы CJK 20,99220,989Хан
0 BMP U + A000..U + A48FYi слоги 1,1681,165Yi
U + A490..U + A4CFРадикалы Yi 6455Yi
U + A4D0..U + A4FFЛису 4848Лису
U + A500..U + A63FВай 320300Вай
U + A640..U + A69FКириллица расширенная-B 9696Кириллица
U + A6A0..U + A6FFBamum 9688Bamum
U + A700..U + A71FТональные буквы модификатора 3232Общие
U + A720..U + A7FFLatin Extended-D 224180Латинский (175 символов), общий (5 символов)
U + A800..U + A82FSyloti Nagri 4845Syloti Nagri
U + A830..U + A83FОбщие индийские числовые формы 1610Общие
0 BMP U + A840..U + A87FP hags-pa 6456Фагс Па
U + A880..U + A8DFСаураштра 9682Саураштра
U + A8E0..U + A8FFДеванагари расширенный 3232Деванагари
U + A900..U + A92FКая Ли 4848Кая Ли (47 символов), Общий (1 символ)
U + A930..U + A95FRejang 4837Rejang
U + A960..U + A97Fхангыль джамо расширенный-A 3229хангыль
U + A980..U + A9DFяванский 9691яванский (90 символов), Общий (1 символ)
U + A9E0..U + A9FFMyanmar Extended-B 3231Myanmar
U + AA00..U + AA5FCham 9683Cham
U +AA60..U+AA7FMyanmar Extended-A 3232Myanmar
0 BMP U+AA80..U+AADFTai Viet 9672Tai Viet
U+AAE0..U+AAFFMeetei Mayek Extensions 3223Meetei Mayek
U+AB00..U+AB2FEthiopic Extended-A 4832Ethiopic
U+AB30..U+AB6FLatin Extended-E 6460Latin (56 characters), Greek (1 character), Common (3 characters)
U+AB70..U+ABBFCherokee Supplement 8080Cherokee
U +ABC0..U+ABFFMeetei Mayek 6456Meetei Mayek
U+AC00..U+D7AFHangul Syllables 11,18411,172Hangul
U+D7B0..U+D7FFHangul Jamo Extended-B 8072Hangul
U+D800..U+DB7FHigh Surrogates 8960Unknown
U+DB80..U+DBFFHigh Private Use Surrogates 1280Unknown
0 BMP U+DC00..U+DFFFLow Surrogates 1,0240Unknown
U+E000..U+F8FFPrivate Use Area 6,4006,400Unknown
U+F900..U+FAFFCJK Compatibility Ideographs 512472Han
U+FB00..U+FB4FAlphabetic Presentation Forms 8058Armenian (5 characters), Hebrew (46 characters), Latin (7 characters)
U+FB50..U+FDFFArabic Presentation Forms-A 688611Arabic (609 characters), Common (2 characters)
U+FE00..U+FE0FVariation Selectors 1616Inherited
U+FE10..U+FE1FVertical Forms 1610Common
U+FE20..U+FE2FCombining Half Marks 1616Cyrillic (2 characters), Inherited (14 characters)
U+FE30..U+FE4FCJK Compatibility Forms 3232Common
U+FE50..U+FE6FSmall Form Variants 3226Common
U+FE70..U+FEFFArabic Presentation Forms-B 144141Arabic (140 characters), Common (1 character)
U+FF00..U+FFEFHalfwidth and Fullwidth Forms 240225Hangul (52 characters), Katakana (55 characters), Latin (52 characters), Common (66 characters)
U+FFF0..U+FFFFSpecials 165Common
1 SMP U+10000..U+1007FLinear B Syllabary 12888Linear B
U+10080..U+100FFLinear B Ideograms 128123Linear B
U+10100..U+1013FAegean Numbers 6457Common
U+10140..U+1018FAncient Greek Numbers 8079Greek
U+10190..U+101CFAncient Symbols 6414Greek (1 character), Common (13 characters)
U+101D0..U+101FFPhaistos Disc 4846Common (45 characters), Inherited (1 character)
U+10280..U+1029FLycian 3229Lycian
U+102A0..U+102DFCarian 6449Carian
U+102E0..U+102FFCoptic Epact Numbers 3228Common (27 characters), Inherited (1 character)
U+10300..U+1032FOld Italic 4839Old Italic
1 SMP U+10330..U+1034FGothic 3227Gothic
U+10350..U+1037FOld Permic 4843Old Permic
U+10380..U+1039FUgaritic 3231Ugaritic
U+103A0..U+103DFOld Persian 6450Old Persian
U+10400..U+1044FDeseret 8080Deseret
U+10450..U+1047FShavian 4848Shavian
U+10480..U+104AFOsmanya 4840Osmanya
U+104B0..U+104FFOsage 8072Osage
U+10500..U+1052FElbasan 4840Elbasan
U+10530..U+1056FCaucasian Albanian 6453Caucasian Albanian
1 SMP U+10600..U+1077FLinear A 384341Linear A
U+10800..U+1083FCypriot Syllabary 6455Cypriot
U+10840..U+1085FImperial Aramaic 3231Imperial Aramaic
U+10860..U+1087FPalmyrene 3232Palmyrene
U+10880..U+108AFNabataean 4840Nabataean
U+108E0..U+108FFHatran 3226Hatran
U+10900..U+1091FPhoenician 3229Phoenician
U+10920..U+1093FLydian 3227Lydian
U+10980..U+1099FMeroitic Hieroglyphs 3232Meroitic Hieroglyphs
U+109A0..U+109FFMeroitic Cursive 9690Meroitic Cursive
1 SMP U+10A00..U+10A5FKharoshthi 9668Kharoshthi
U+10A60..U+10A7FOld South Arabian 3232Old South Arabian
U+10A80..U+10A9FOld North Arabian 3232Old North Arabian
U+10AC0..U+10AFFManichaean 6451Manichaean
U+10B00..U+10B3FAvestan 6461Avestan
U+10B40..U+10B5FInscriptional Parthian 3230Inscriptional Parthian
U+10B60..U+10B7FInscriptional Pahlavi 3227Inscriptional Pahlavi
U+10B80..U+10BAFPsalter Pahlavi 4829Psalter Pahlavi
U + 10C00..U + 10C4Fдревнетюркский 8073древнетюркский
U + 10C80..U + 10CFFдревневенгерский 128108древневенгерский
1 SMP U + 10D00..U + 10D3FХанифи Рохинья 6450Ханифи Рохинья
U + 10E60..U + 10E7FЦифровые символы Руми 3231Арабский
U + 10E80..U + 10EBFЕзиды 6447Езиды
U + 10F00..U + 10F2FСтаросогдийский 4840Старосогдийский
U + 10F30..U + 10F6FСогдийский 6442Согдийский
U + 10FB0..U + 10FDFХорезмийский 4828Хорезмийский
U + 10FE0..U + 10FFFЭлимаский 3223Элимаский
U + 11000..U + 1107FБрахми 128109Брахми
U + 11080..U + 110CFKaithi 8067Kaithi
U + 110D0..U + 110FFСора Сомпенг 4835Сора Сомпенг
1 SMP U + 11100..U + 1114FЧакма 8071Чакма
U + 11150..U + 1117FМахаджани 4839Махаджани
U + 11180..U + 111DFШарада 9696Шарада
U + 111E0..U + 111FFсингальские архаические числа 3220сингальский
U + 11200..U + 1124FХойки 8062Хойки
U + 11280..U + 112AFМултани 4838Мултани
U + 112B0..U + 112FFХудавади 8069Худавади
U + 11300..U + 1137FGrantha 12886Grantha (85 символов), Унаследовано (1 символ)
U + 11400..U + 1147FNewa 12897Newa
U + 11480..U + 114DFTirhuta 9682Tirhuta
1 SMP U + 11580..U + 115FFСиддхам 12892Сиддхам
U + 11600..U + 1165FМоди 9679Моди
U + 11660..U + 1167FДополнение к монгольскому языку 3213Монгольское
U + 11680..U + 116CFТакри 8067Такри
U + 11700..U + 1173FАхом 6458Ахом
U + 11800..U + 1184FДогра 8060Догра
U + 118A0..U + 118FFWarang Citi 9684Warang Citi
U + 11900.. U + 1195FDives Akuru 9672Dives Akuru
U + 119A0..U + 119FFNandinagari 9665Nandinagari
U + 11A00..U + 11A4FZanabazar Square 8072Площадь Занабазар
1 SMP U + 11A50..U + 11AAFСоёмбо 9683Соёмбо
U + 11AC0..U + 11AFFПау Цин Хау 6457Пау Цин Хау
U + 11C00..U + 11C6FBhaiksuki 11297Bhaiksuki
U + 11C70..U + 11CBFMarche n 8068Марчен
U + 11D00..U + 11D5FМасарам Гонди 9675Масарам Гонди
U + 11D60..U + 11DAFГунджала Гонди 8063Гунджала Гонди
U + 11EE0..U + 11EFFМакасар 3225Макасар
U + 11FB0..U + 11FBFПриложение Lisu 161Lisu
U + 11FC0..U + 11FFFПриложение на тамильском языке 6451Тамильский
U+12000..U+123FFCuneiform 1,024922Cuneiform
1 SMP U + 12400..U + 1247FКлинописные числа и пунктуация 128116Клинопись
U + 12480..U + 1254FРаннединастическая клинопись 208196Клинопись
U + 13000..U + 1342FЕгипетские иероглифы 10721071Египетские иероглифы
U + 13430..U + 1343FУправление форматом египетских иероглифов 169Египетские иероглифы
U + 14400..U + 1467Fанатолийские иероглифы 640583анатолийские иероглифы
U + 16800..U + 16A3FДополнение к Бамуму 576569Бамум
U + 16A40..U + 16A6FMro 4843Mro
U + 16AD0.. U + 16AFFБасса Вах 4836Басса Вах
U + 16B00..U + 16B8FПахау Хмонг 144127Пахав Хмонг
U + 16E40..U + 16E9FMedefaidrin 9691Medefaidrin
1 SMP U + 16F00..U + 16F9FMiao 160149Miao
U + 16FE0..U + 16FFFИдеографические символы и пунктуация 327Хан (2 символа), Киданьский маленький шрифт (1 символ), Нушу (1 символ), Тангут (1 символ), Общий (2 символа))
U+17000..U+187FFТангут 6,1446,136Тангут
U + 18800..U + 18AFFТангутские компоненты 768768Тангутский
U + 18B00..U + 18CFFКиданьский маленький шрифт 512470Киданьский маленький шрифт
U + 18D00..U + 18D8FТангутское приложение 1449Тангутское
U + 1B000..U + 1B0FFКанаское приложение 256256Хирагана (255 символов), Катакана (1 символ)
U + 1B100..U + 1B12FKana Extended-A 4831Hiragana
U + 1B130..U + 1B16FМаленькое расширение Кана 647Хирагана (3 символа), Катакана (4 символа)
U+1B170..U+1B2FFNushu 400396Nüshu
1 SMP U + 1BC00..U + 1BC9FДуплоян 160143Дуплоян
U + 1BCA0..U + 1BCAFЭлементы управления сокращенным форматом 164Общий
U + 1D000..U + 1D0FFВизантийские музыкальные символы 256246Обычные
U + 1D100..U + 1D1FFМузыкальные символы 256231Обычный (209 символов), Унаследованный (22 символа)
U + 1D200..U + 1D24FДревнегреческая музыкальная нотация 8070Греческий
U + 1D2E0..U + 1D2FFЦифры майя 3220Общие
U + 1D300..U + 1D35FСимволы Тай Сюань Цзин 9687Общие
U + 1D360..U + 1D37FЧисла счетных стержней 3225Обычный
U + 1D400..U + 1D7FFМатематические буквенно-цифровые символы 1,024996Обычный
U + 1D800..U + 1DAAFSutton SignWriting 688672SignWriting
1 SMP U + 1E000..U + 1E02FГлаголическое приложение 4838Глаголица
U + 1E100..U + 1E14FNyiakeng Puachue Hmong 8071Nyiakeng Puachue Hmong
U + 1E2C0..U + 1E2FFWancho 6459Wancho
U + 1E800..U + 1E8DFMende Kikakui 224213Mende Kikakui
U + 1E900..U + 1E95FAdlam 9688Adlam
U + 1EC70..U + 1ECBFИндийские числа сийак 8068Общие
U + 1ED00..U + 1ED4FОсманские числа сиак 8061Общие
U + 1EE00..U + 1EEFFАрабские математические алфавитные символы 256143Арабский
U + 1F000..U + 1F02FПлитки маджонга 4844Обычные
U + 1F030..U + 1F09FПлитки домино 112100Обычный
1 SMP U + 1F0A0..U + 1F0FFИгральные карты 9682Обычный
U + 1F100..U + 1F1FFЗакрытое буквенно-цифровое приложение 256200Обычное
U + 1F200..U + 1F2FFЗакрытое идеографическое приложение 25664Хирагана (1 символ), Общий (63 символа)
U + 1F300..U + 1F5FFРазные символы и пиктограммы 768768Обычный
U + 1F600..U + 1F64FСмайлики 8080Обычные
U + 1F650..U + 1F67FДекоративные дингбаты 4848Обычные
U + 1F680..U + 1F6FFТранспортные и картографические символы 128114Обычный
1 SMP U + 1F700..U + 1F77FАлхимические символы 128116Общий
U + 1F780..U + 1F7FFРасширенные геометрические формы 128101Обычный
U + 1F800..U + 1F8FFДополнительные стрелки-C 256150Обычный
U + 1F900..U + 1F9FFДополнительные символы и пиктограммы 256254Общий
U + 1FA00..U + 1FA6FШахматные символы 11298Обычный
U + 1FA70..U + 1FAFFСимволы и пиктограммы Extended-A 14457Общие
U + 1FB00..U + 1FBFFСимволы для устаревших вычислений 256212Common
2 SIP U + 20000..U + 2A6DFCJK Unified Ideographs Extension B 42,72042,718Han
U + 2A700.. U + 2B73FCJK Unified Ideographs Расширение C 4,1604,149Хан
U + 2B740..U + 2B81FРасширение унифицированных иероглифов CJK D 224222Хан
U + 2B820..U + 2CEAFРасширение унифицированных иероглифов CJK E 5,7765,762Han
U + 2CEB0..U + 2EBEFCJK Расширение унифицированных иероглифов F 7,4887,473Han
U + 2F800..U + 2FA1FПриложение иероглифов по совместимости CJK 544542Han
3 TIP U + 30000..U + 3134FCJK Unified Ideographs Extension G 4,9444,939Han
14 SSP U + E0000..U + E007FТеги 12897Общие
U + E0100..U + E01EFДополнение к селекторам вариаций 240240Унаследовано
15 PUA-A U + F0000..U + FFFFFДополнительная зона частного использования-A 65,53665,534Неизвестно
16 PUA-B U + 100000..U + 10FFFFДополнительная зона частного использования-B 65,53665,534Неизвестно

Скрипт

Каждый назначенный символ может имеют единственное значение для его свойства «Сценарий», указывающее, какому сценарию он принадлежит. Значение представляет собой четырехбуквенный код в диапазоне Aaaa-Zzzz, как это доступно в ISO 15924, который отображается в систему записи. Помимо описания фона и использования сценария, Unicode не использует связь между сценарием и языками, которые используют этот сценарий. Итак, «иврит» относится к еврейскому письму, а не к еврейскому языку.

Специальный код Zyyy для «Common» допускает одно значение для символа, который используется в нескольких сценариях. Код Zinh «Унаследованный сценарий», используемый для комбинирования символов и некоторых других кодовых точек специального назначения, указывает на то, что символ «наследует» свою идентичность сценария от символа, с которым он комбинируется. (Ранее для этой цели Unicode использовал частный код Qaai.) Код Zzzz «Неизвестно» используется для всех символов, которые не принадлежат сценарию (т. Е. Значения по умолчанию), таких как символы и символы форматирования. В целом, символы одного скрипта могут быть разбросаны по нескольким блокам, например латинские символы. И наоборот: может присутствовать несколько скриптов в одном блоке, например. блок Буквоподобные символы содержит символы из латинского, греческого и общеупотребительного алфавита.

Когда сценарий "" (пустой), в соответствии с Unicode символ не принадлежит сценарию. Это относится к символам, поскольку существующие коды сценариев ISO «Zmth» (математическая нотация), «Zsym» (символ) и «Zsye» (символ, вариант эмодзи) не используются в Unicode. Свойство «Сценарий» также пусто для кодовых точек, не являющихся типографскими символами, таких как элементы управления, замены и кодовые точки для частного использования.

Если в ISO 15924 существует конкретное имя псевдонима сценария, оно используется в имени символа: U + 0041 A ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A и U + 05D0 א ЕВРЕЙСКАЯ БУКВА ALEF.

  • v
  • t
коды сценариев ISO 15924 и Unicode
КодИмяАлиасНаправлениеВерсия. (добавлено)СимволыПримечание
Adlm166Adlam AdlamR-to -L9.088
Afak439Afaka ВарьируетсяНе в Unicode, предложение рассматривается Техническим комитетом Unicode
Aghb239Кавказский албанец Кавказский албанецL-to-R7.053Древний / исторический
Ахом338Ахом, Тай Ахом АхомL-to-R8,058Древний / исторический
Арабский160Арабский АрабскийR-to-L1.01,291
Аран161Арабский (вариант Насталик) СмешанныйТипографский вариант арабского
Арми124Императорский арамейский Императорский арамейскийR-to-L5.231Древний / исторический
Армн230Армянский АрмянскийL-to-R1.096
Avst134Avestan AvestanR-to-L5.261Древний / исторический
Бали360Балийский балийскийL-to-R5.0121
Баму435Бамум БамумL-to-R5.2657
Бас259Басса Вах Басса ВахL-to-R7.036Древний / исторический
Батк365Батак БатакL-to-R6.056
Бенг325бенгальский (Bangla) БенгальскийL-to-R1.096
Bhks334Bhaiksuki BhaiksukiL-to-R9.097Древний / исторический
Blis550Blissymbols ВарьируетсяНе в Unicode, предложение находится на начальной / исследовательской стадии
Bopo285Бопомофо БопомофоL-to-R1.077
Брах300Брахми БрахмиL-to-R6.0109А Древний / исторический
Брайль570Брайль БрайльL-to-R3.0256
Буги367Бугинский БугинскийL-to-R4.130
Бухд372Бухид БухидL-to-R3.220
Cakm349Chakma ChakmaL-to- R6.171
Банки440Единый слоговый язык канадских аборигенов Канадские аборигеныL-to-R3.0710
Кари201Карийский КарийскийL-to-R5.149Древний / исторический
Чам358Чам ЧамL-to-R5.183
Шер445Cherokee CherokeeL-to-R3.0172
Chrs109Chorasmian ChorasmianСмешанный13,028Древний / исторический
Цирт291Цирт ВарьируетсяНе в Юникоде
Копт204коптский коптскийLt oR1.0137Древний / исторический, разделенный с греческим в 4.1
Cpmn402Кипро-минойский L-к-RНе в Unicode
Cprt403Кипрская слоговая запись КипрскийR-to-L4.055Древний / исторический
Кирл220Кириллица КириллицаL-to-R1.0443
Кирис221Кириллица (старославянский вариант) ВарьируетсяДревний / исторический, типографский вариант кириллицы
Дева315Деванагари (Нагари) ДеванагариL-to-R1.0154
Diak342Dives Akuru Ныряет АкуруL-to-R13.072Древний / исторический
Догр328Догра Дограслева направо11.060древний / исторический
дсрт250Дезерет (мормон) ДезеретП- to-R3.180
Dupl755стенография Дуплояна, стенография Дуплояна D уплоянL-to-R7.0143
Египетский070Египетский демотический СмешанныйНе в Юникоде
Египетский060Египетский иератический СмешанныйНе в Юникоде
Египетский050Египетские иероглифы Египетские иероглифыСзади5.21080Древний / исторический
Эльба226Эльбасан ЭльбасанL-to-R7.040Древний / исторический
Элим128Elymaic ElymaicR-to-L12.023Древний / исторический
Ethi430эфиопский (Geʻez) эфиопскийL-to -R3.0495
Геок241Хуцури (Асомтаврули и Нусхури) ГрузинскийВарьируетсяЮникод объединяет Геок и Геор как «грузинский»
Геор240Грузинский (Мхедрули и Мтаврули) ГрузинскийL-to-R1.0173Для Unicode см. Также Geok
Glag225Глаголица ГлаголицаL-to-R4.1132Древний / исторический
Гонг312Гунджала Гонди Гунджала ГондиL-to-R11.063
Гонм313Масарам Гонди Масарам ГондиL-to-R10.075
Гот206Готика ГотикаL -to-R3.127Древний / исторический
Gran343Grantha GranthaL-to-R7.085Древний / исторический
Грек200Греческий ГреческийL-to-R1.0518Иногда выражается как бустрофедон (зеркальное отображение альтернативных линий, а не только слева направо)
Гуджр320Гуджарати ГуджаратиL-to-R1.091
Guru310Gurmukhi GurmukhiL-to- R1.080
Ханб503Хан с Бопомофо (псевдоним Хан + Бопомофо) ВарьируетсяСм. Хани, Бопо
Ханг286хангыль (Hangŭl, Hangeul) хангыльL-to-R1.011,739Слоги хангыля перемещены в 2.0
Хани500Хан (Ханзи, Кандзи, Ханджа) ХанL-to-R1.094,204
Хано371Хануноо (Хануноо) ХанунооL-to-R3,221
Ханс501Хан (упрощенный вариант) ВарьируетсяПодмножество Хани
Хант502Хан (традиционный вариант) ВарьируетсяПодмножество Хани
Хатр127Хатран ХатранR-to-L8,026Древний / исторический
Hebr125Иврит ИвритR-to -L1.0134
Хира410Хирагана ХираганаL-to-R1.0379
Hluw080Анатолийские иероглифы (Лувийские иероглифы, хеттские иероглифы) Анатолийские иероглифыL-to-R8,0583Древние / исторические
Hmng450Pahawh Hmong Pahawh HmongL -to-R7.0127
Hmnp451Nyiakeng Puach ue Hmong Nyiakeng Puachue HmongL-to-R12.071
Hrkt412Японские слоговые слова (псевдоним для Хирагана + Катакана) Катакана или ХираганаВарьируетсяСм. Хира, Кана
Венгерский176Древневенгерский (Венгерский рунический) ДревневенгерскийR-to-L8.0108Древний / исторический
Иенды610Инд (Хараппан) СмешанныйНе в Юникоде, предложение на начальной / исследовательской стадии
Итал210Старый курсив (этрусский, оссканский и Старый т. Д.) курсивL-to-R3,139Древний / исторический
Джамо284Джамо (псевдоним для подмножества Джамо в хангыль) РазличаетсяПодмножество Hang
Java361Яванский ЯванскийL-to-R5.290
Jpan413Японский (псевдоним Ha n + Hiragana + Katakana) ВарьируетсяСм. Хани, Хира и Кана
Юрк510Чжурчжэнь Л-к-ПНе в Unicode
Кали357Кая Ли Кая ЛиL-to-R5.147
Кана411Катакана КатаканаL- to-R1.0304
Хар305Харошти ХароштиR-to-L4.168Древний / исторический
Кхмр355Кхмерский КхмерскийL -к-Р3,0146
Ходж322Хойки ХойкиЛ-к-П7.062Древний / исторический
Китл505Киданьский большой шрифт L-to-RНе в Unicode
Наборы288Киданьское маленькое письмо Киданьское маленькое письмоT-to-B13.0471Древний / исторический
Канда345Каннада КаннадаL-to-R1.089
Kore287Корейский (псевдоним хангыль + хань) L-к -RСм. Хани и Ханг
Кпел436Кпелле L-to-RНе в Unicode, предложение находится на начальной / исследовательской стадии
Kthi317Kaithi KaithiL-to-R5.267Древний / исторический
Лана351Тай Тхам ( Ланна) Тай ТхамL-to-R5.2127
Лаоо356Лаосский ЛаосскийL-to-R1.082
Латф217Латинский (вариант Fraktur) ВарьируетсяТипографский вариант латыни
Латг216Латинский (гэльский вариант) L-to-RТипографский вариант латыни
Latn215Латинский ЛатинскийL-to-R1.01,374См. Латинский шрифт в Юникоде
Leke364Leke L-to-RНе в Unicode
Lepc335Лепча (Рунг) ЛепчаL-to-R5.174
Лимб336Лимбу ЛимбуП-к-П4.068
Лина400Линейное A Линейное AД-к-П7.0341Древнее / историческое
Linb401Линейный B Линейный BL-to-R4.0211Древний / исторический
Лису399Лису (Фрейзер) ЛисуП-к-П5.249
Лома437Лома П-к-ПНе в Unicode, предложение на начальной / исследовательской стадии
Лики202Ликийский ЛикийскийЛ-к-Р5.129Древний / исторический
Лидский116лидийцы лидийцыR-to-L5.127Древний / исторический
Махдж314Махаджани МахаджаниL-to-R7.039Древний / исторический
Мака366Макасар МакасарL-to-R11.025Древний / исторический
Манд140мандайский, мандайский мандаикскийR -к-л6.029
Мани139Манихей МанихейR-to-L7.051Древний / исторический
Марк332Марчен МарченL-to-R9.068Древние / исторические
Майя090Иероглифы майя СмешанныеНе в Юникоде
Медф265Медефайдрин (Обери Окайме, Обери каимɛ) МедефайдринСзади11.091
Починить438Менде Кикакуи Менде КикакуиПравильно7.0213
Merc101Meroitic Cursive Meroitic CursiveR-to-L6.190Древний / исторический
Меро100Мероитские иероглифы Меройские иероглифыR-to-L6.132Древний / исторический
Млым347Малаялам МалаяламL-to-R1.0118
Modi324Modi, Moḍī ModiL-to-R7.079Древний / исторический
Монг145Монгол МонголT-to- B3.0167Включает Ясные, маньчжурские скрипты
Луна218Луна (код Луны, сценарий Луны, тип Луны) СмешанныйНе в Unicode, предложение на начальной / исследовательской стадии
Mroo264Mro, Mru MroL-to-R7.043
Мтей337Мейтей Майек (Мейтей, Митей) Митей МайекL-to-R5.279
Mult323Мултани МултаниL-to-R8,038Древний / исторический
Мимр350Мьянма (бирманский) МьянмаL-to-R3.0223
Нанд311Нандинагари НандинагариL-to-R12.065Древний / исторический
Нарб106Древний северноаравийский (древний северноаравийский) Древний северноаравийскийR-to-L7.032Древний / исторический
Нбат159Набатейский НабатейскийR-to-L7.040Древний / исторический
Newa333Newa, Newar, Невари, Непала липи НьюаL-to-R9.097
Nkdb085Наси Донгба (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) L-to-RНе в Unicode
Nkgb420Накхи Геба (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-baw, Nakhi Geba) L-to-RНе в Unicode, предложение на начальной / исследовательской стадии
Нкоо165Н'Ко НКоР-к-Л5,062
Ншу499Нюшу НушуL-к-R10.0397
Огам212Огам ОгамСмешанный3,029Древний / исторический
Олк261Ол Чики (Оль Семет, Ол, Сантали) Ол ЧикиЛ-то -R5.148
Орх175Древнетюркский, Орхонский Рунический ДревнетюркскийR-to-L5.273Древний / исторический
Орья327Ория (Odia) ОрияL-to-R1.091
Osge219Osage OsageL-to-R9.072
Osma260Османья ОсманьяL-to-R4.040
Palm126Palmyrene ПальмиринR-to-L7,032Древний / исторический
Паук263Пау Цин Хау Пау Цин Хауслева направо7.057
пермь227старопермия старопермияслева направо7.043Древний / исторический
Phag331Phags-pa Phags-paT-to-B5,056Древний / исторический
Фли131Пехлеви с надписью Пехлеви с надписьюR-to-L5,227Древний / исторический
Phlp132Псалтырь Пехлевий Псалтырь ПехлевийR-to-L7.029Древний / исторический
Phlv133Книга Пехлеви СмешаннаяНе в Юникоде
Phnx115Финикийский ФиникийскийR-to-L5.029Древний / исторический
Piqd293Klingon (KLI pIqaD) L-to-RОтклонено для включения в стандарт Unicode
Plrd282Мяо (Поллард) МяоL-to-R6.1149
Прити130Парфянская надпись Парфянская надписьR-to-L5.230Древний / исторический
Qaaa900Зарезервировано для частного использования ия (начало) Не в Unicode
Qaai908(Частное использование)Не в Unicode (до версии 5.2 он использовался вместо Zinh)
Qabx949Зарезервировано для частного использования (конец) Не в Unicode
Rjng363Реджанг (Реджанг, Каганга) РеджангL-to-R5.137
Рог167Ханифи Рохинджа Ханифи РохинджаR-to-L11.050
Роро620Ронгоронго СмешанныйНе в Юникоде, предложение в исходном / исследовательский этап
Рунр211Рунический РуническийL-to-R3.086Древний / исторический
Самр123Самаритянин СамаритянинR-to-L5.261
Сара292Сарати СмешанныйНе в Юникоде
Сарб105Древний южноаравийский Древний южноаравийскийR-to-L5.232Древний / историческ ий
Саур344Саураштра СаураштраL-to-R5.182
Sgnw095SignWriting SignWritingT-to-B8.0672
Шоу281Шавиан (Шоу) ШавианСлева к П4.048
Шрд319Шарада, Шарада ШарадаСзади6.196
Шуй530Шуйшу L-to-RНе в Юникоде
Сидд302Сиддхам, Сиддха, Сиддхаматука СиддхамL-to-R7.092Древний / исторический
Синд318Худавади, Синдхи ХудавадиL-to-R7.069
Sinh348Sinhla SinhalaL-to-R3.0111
Согд141Согдийский СогдийскийR-to-L11.042Древний / исторический
Сого142Старосогдийский СтаросогдийскийR-to-L11.040Др евний / исторический
Сора398Сора Сомпенг Сора СомпенгL-to-R6.135
Soyo329Соёмбо СоёмбоЛ-к-Р10.083Древний / исторический
Сунд362Сунданский СунданскийL-to-R5.172
Sylo316Syloti Nagri Syloti NagriL -to-R4.145Древний / исторический
Syrc135Сирийский СирийскийR-to-L3.088
Syre138Сирийский (Estrangelo вариант) СмешанныйТипографический вариант сирийского
Сырский137Сирийский (западный СмешанныйТипографский вариант сирийского
Сырн136Сирийский (восточный вариант) СмешанныйТипографский вариант сирийского
Tagb373Тагбанва ТагбанваL-to-R3,218
Такр321Такр и, Шакри, Чанкри ТакриL-to-R6.167
Повесть353Тай Ле Тай ЛеСлева направо4,035
Талу354Новый Тай Луэ Новый Тай ЛуэСлева направо4.183
Тамл346Тамил ТамилL-to-R1.0123
Тан520Тангут ТангутL-to-R9.06,914Древний / исторический
Тавт359Тай-Вьет Тай-ВьетL-to-R5.272
Телу340телугу телугуL-to-R1.098
Teng290Tengwar L-to- RНе в Юникоде
Tfng120Тифинаг (берберский) ТифинагL-to-R4.159
Tglg370Тагальский (Байбайн, Алибата) ТагальскийL-to-R3,220
Таа170Tha ana ThaanaR-to-L3.050
Тайский352Тайский ТайскийЛ-к-П1.086
Тибт330Тибетский ТибетскийL-to-R2.0207Добавлено в 1.0, удалено в 1.1 и вновь введено в 2.0
Тирх326Тирхута ТирхутаЛ-к- R7.082
Тото294Тото L-to-RНе в Unicode
Угар040Угаритский УгаритскийL-to-R4.031Древний / исторический
Вайи470Вай ВайL-to-R5.1300
Visp280Видимая речь L-to-RНе в Unicode
Wara262Warang Citi (Варанг Кшити) Warang CitiL-to-R7.084
Wcho283Wancho WanchoL -to-R12.059
Wole480Woleai СмешанныйНе в Юникоде, предложение на начальной / исследовательской с тадии
Xpeo030Древнеперсидский ДревнеперсидскийL-to-R4.150Древний / исторический
Xsux020Шумеро-аккадская клинопись КлинописьL-to-R5.01,234Древние / исторические
Йези192Езиды ЕзидыR-to-L13.047Древний / исторический
Йиии460Yi ИL-to-R3.01,220
Занб339Площадь Занабазар ( Занабазарин Дёрбёлджин Усег, Xewtee Dörböljin Bicig, Horizontal Square Script) Площадь ЗанабазарL-to-R10.072Древний / исторический
Зинь994Код унаследованного скрипта УнаследованоУнаследовано573
Zmth995Матическая нотация L-to-RНе «сценарий» в Юникоде
Zsym996Символы Не «сценарий» в Юникоде
Zsye993Сим bols (вариант эмодзи) Не «сценарий» в Юникоде
Zxxx99 7Код для неписаных документов Не «сценарий» в Юникоде
Zyyy998Код неопределенного сценария ОбычныйСмешанный8,087
Zzzz999Код незакодированного сценария Неизвестно970,188Все остальные кодовые точки
Примечания
  1. ^Публикации ISO 15924 По состоянию на 16 апреля 2020 г.
  2. ^Нормативный текстовый файл ISO 15924 По состоянию на 16 апреля 2020 г.
  3. ^ISO 15924: изменения (включая псевдонимы для Unicode; по состоянию на 16 апреля 2020 г.)
  4. ^Unicode версии 13.0
  5. ^Диаграммы Unicode
  6. ^Unicode использует «Псевдоним значения свойства» (Псевдоним) в качестве имени сценария. Эти псевдонимы являются частью Unicode и публикуются информативно рядом с ISO 15924. Имя сценария псевдонима может использоваться в имени персонажа: Palm, Palmyrene → U + 10860 𐡠 ПАЛМИРЕННОЕ ПИСЬМО ALEPH.

Свойства нормализации

Декомпозиции, тип декомпозиции, канонический класс комбинирования, исключения композиции и многое другое.

Возраст

Возраст - это версия Стандарта, в которой кодовая точка была впервые обозначена. Номер версии сокращен до нумерации major.minor, хотя используются более подробные номера версий: версии 4.0.0 и 4.0.1 обе называются 4.0 как Age. Для выпусков возраст может быть из диапазона: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0., 12,0, 12,1 и 13,0. Длинные значения для Age начинаются с буквы V и используют подчеркивание вместо точки: например, V1_1. Кодовые точки без специально назначенного значения возраста имеют значение «NA» с длинной формой «Unassigned».

Устарело

После определения символа он не будет отозван или изменен при определении свойств (кодовая точка, имя). Но его можно объявить устаревшим. : закодированный символ, использование которого настоятельно не рекомендуется. Начиная с версии Unicode 10.0, пятнадцать символов устарели:

  • U + 0149 СТРОЧНАЯ ЛАТИНСКАЯ БУКВА N, ПРЕДШЕСТВУЮЩАЯ АПОСТРОФУ: используйте последовательность ʼ0020 006E (ʼ n) вместо
  • U + 0673 АРАБСКИЙ БУКВОЙ ALEF С ВОЛНОВОЙ ХАМЗА НИЖЕ: используйте последовательность 0627 065F (اٟ) вместо
  • U + 0F77 TIBETAN VOWEL SIGN VOCALIC RR: используйте последовательность 0FB2 0F81 (ྲཱ ྀ) вместо
  • U + 0F79 TIBETAN VOWEL SIGN VOCALIC LL: используйте последовательность 0FB3 0F81 (ླཱ ྀ) вместо
  • U + 17A3 KHMER INDEPENDENT VOWEL QAQ: используйте 17A2 KHMER LETTER QA (អ) вместо
  • U + 17A4 KHMER INDEPENDENT VOWEL QAA: используйте последовательность 17A 17B6 (អា) вместо
  • U + 206A ЗАПРЕТИТЬ СИММЕТРИЧНУЮ ЗАМЕНУ
  • U + 206B АКТИВИРОВАТЬ СИММЕТРИЧЕСКУЮ ЗАМЕНУ
  • U + 206C ЗАПРЕТИТЬ ФОРМУ АРАБСКОЙ ФОРМЫ
  • U + 206D АКТИВАЦИЯ ФОРМЫ АРАБСКОЙ ФОРМЫ
  • U + 206E ФОРМЫ НАЦИОНАЛЬНЫХ ЦИФРОВ
  • U + 206F НОМИНАЛЬНЫЕ ФОРМЫ ЦИФРЫ
  • U + 2329 КРОНШТЕЙН ЛЕВОГО УГЛА: используйте U + 3008 ЛЕВЫЙ УГОЛ КРОНШТЕЙН (〈) вместо
  • U + 232A УГЛОВОЙ КРОНШТЕЙН НАПРАВЛЯЮЩИЙ ВПРАВО: используйте U + 3009 R IGHT ANGLE BRACKET (〉) вместо
  • U + E0001 LANGUAGE TAG

Символы формата от U + 206A до U + 206F и U + E0001 не должны использоваться вообще, но для других устаревших символов есть рекомендуемые альтернативы, как показано выше.

Границы

Стандарт Unicode определяет следующие свойства, связанные с границами:

  • Кластер графем
  • Word
  • Строка
  • Предложение

Ссылки

  1. ^ «Стандарт Unicode, Глава 4: Свойства символов» (PDF). Unicode, Inc., март 2020 г. Получено 15 марта 2020 г.
  2. ^ «Приложение № 44 к стандарту Unicode: База данных символов Unicode». Стандарт Юникода. 14.06.2017.
  3. ^"UCD: Псевдонимы". База данных символов Юникода. Консорциум Unicode. 2019-03-08.
  4. ^«Стандарты дизайна персонажей - пробелы». Стандарты дизайна персонажей. Microsoft. 1998–1999. Архивировано из оригинала 23 августа 2000 г. Проверено 18 мая 2009 г.
  5. ^Стандарт Unicode 5.0, печатное издание, стр.205
  6. ^«Общая пунктуация» (PDF). Стандарт Unicode 5.1. Юникод Инк.. 1991–2008 гг. Проверено 13 мая 2009 г.
  7. ^Сарджент, Мюррей III (29 августа 2006 г.). «Математическое кодирование почти простого текста Unicode (версия 2)». Техническое примечание Unicode № 28. Юникод Инк.. С. 19–20. Проверено 19 мая 2009 г.
  8. ^Гиллам, Ричард (2002). Unicode Demystified: Практическое руководство программиста по стандарту кодирования. Эддисон-Уэсли. ISBN 0-201-70052-2.
  9. ^ Хиксон, Ян. «12.5 Ссылки на именованные символы». Стандарт HTML. WHATWG.
  10. ^Вольфрам. "\ [NegativeThickSpace]". Документация на языке Wolfram Language.
  11. ^Вольфрам. "\ [NegativeMediumSpace]". Документация на языке Wolfram Language.
  12. ^Вольфрам. "\ [NegativeThinSpace]". Документация на языке Wolfram Language.
  13. ^Вольфрам. "\ [NegativeVeryThinSpace]". Документация на языке Wolfram Language.
  14. ^Фальтстрем, П., изд. (Август 2010 г.). «Не соединяющийся с нулевой шириной». Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA). IETF. сек. А.1. doi : 10.17487 / RFC5892. RFC 5892. Проверено 4 сентября 2019 г.
  15. ^Фальтстрем, П., изд. (Август 2010 г.). «Соединитель нулевой ширины». Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA). IETF. сек. А.2. doi : 10.17487 / RFC5892. RFC 5892. Получено 4 сентября 2019 г.
  16. ^«Приложение № 44 к стандарту Unicode, база данных символов Unicode».
  17. ^ «Приложение № 9 к стандарту Unicode: двунаправленный алгоритм Unicode». Стандарт Юникода. 2017-05-14.
  18. ^«Приложение № 24 к стандарту Unicode: свойство сценария Unicode». Стандарт Юникода. 2015-06-01.
  19. ^ «Предлагаемые новые сценарии». Консорциум Unicode. 2018-05-25. Проверено 12 сентября 2018 г.
  20. ^«Дорожная карта для SMP». Консорциум Unicode. 2018-08-08. Проверено 12 сентября 2018.
  21. ^Майкл Эверсон (1997-09-18). «Предложение по кодированию клингонов в плоскости 1 по ISO / IEC 10646-2».
  22. ^Консорциум Unicode (2001-08-14). «Утвержденный совокупное собрание UTC 87 / L2 184».
  23. ^«UCD: Расчетный возраст». База данных символов Юникода. Консорциум Unicode. 2019-09-08.
  24. ^«Стандарт Unicode, Глава 3.4. Символы и кодировка, D13: устаревший символ » (PDF). Стандарт Юникода. Март 2020.
Последняя правка сделана 2021-06-20 11:00:42
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте