Консорциум Unicode (UC) и Международная организация для стандартизации (ISO) сотрудничают с универсальным набором символов (UCS). UCS - это международный стандарт для преобразования символов, используемых в естественном языке, математике, музыке и других областях, в машиночитаемые значения. Создавая это сопоставление, UCS позволяет поставщика компьютерного обеспечения предоставить и передачу закодированные текстовые строки в кодировке UCS от одного к другому. Это можно использовать для универсального представления нескольких языков. Это позволяет избежать использования устаревших кодировок тех же символов , что может привести к тому же, что одна и та же последовательность кодов будет иметь несколько значений и, следовательно, будет неправильно декодирована, если будет выбран неправильный.
UCS может кодировать более 1 миллиона символов. Каждый символ UC абстрактно представлен кодовой точкой , которая представляет собой целое число от 0 до 1,114,111, используемое для представления каждого символа во внутренней логике программного обеспечения обработки текста (1,114,112 = 2²⁰ + 2¹⁶ или 17 × 2¹⁶, или шестнадцатеричный 110 000 кодовых точек). В Unicode 13.0, выпущенном в марте 2020 года, выделено 287 472 (26%) из этих кодовых точек, включая 143 924 (13%) назначенных символов, 137 468 (12,3%) зарезервировано для частного использования, 2048 для суррогаты, а 66 обозначили несимволы, оставив 826 640 (74%) нераспределенными. Количество закодированных символов составляет:
ISO поддерживает базовое изображение символов от символа к кодовой точке. Часто термины «символ» и «кодовая точка» используются как синонимы. Однако, когда проводится различие, кодовая точка относится к целому символу: то, что можно было считать его адресом. В то время как символ в UCS 10646 включает комбинацию кодовой точки и своего имени, Unicode набор других свойств набору символов, таких как блок, категория, сценарий и направленность.
В дополнение к UCS, Unicode также предоставляет другие детали реализации, такие как:
конечные пользователи компьютерного программного обеспечения вводят эти символы в программы с помощью различных методов ввода. Методы ввода могут быть через клавиатуру или графическую палитру символов.
ПСК можно разделить различными способами, например, по плоскости, блоку, категории символа или свойству символа.
HTML HTML или Ссылка на числовой символ XML относится к символу по его кодовой точка универсального набора символов / Unicode и использует формат
#
nnnn ;
или
# x
hhhh ;
, где nnnn - это кодовая точка в десятичной, а хххх - это кодовая точка в шестнадцатеричной форме. В XML-документах x должен быть в нижнем регистре. Nnnn или hhhh могут быть любыми ведущими цифр. В hhhh могут смешиваться прописные и строчные буквы, хотя прописные буквы являются обычным стилем.
Нап, ссылка на символьный объект указан на символ по имени объект, который имеет желаемый символ в качестве заместителя текста. Сущность должна быть либо предопределена (встроена в язык разметки), либо явно объявлена в Определение типа документа (DTD). Формат такой же, как и для любых ссылок на сущность:
имя ;
, где имя - это имя сущности с учетом регистра. Точка с запятой обязательна.
Юникод и ISO делят набор кодовых точек на 17 плоскостей, каждая из которых может содержать 65536 различных символов или 1114 112 всего. По состоянию на 2020 год (Unicode 13.0) ISO и Консорциум Unicode выделяют символы и блоки только в семи из 17 плоскостей. Остальные остаются пустыми и зарезервированы для использования в будущем.
Большинство персонажей в настоящее время назначены на первый уровень: базовый многоязычный уровень. Это помогает упростить переход к устаревшему программному обеспечению, поскольку базовая многоязычная плоскость адресуется всего двумя октетами. Персонажи вне первого плана используются очень редко или редко.
Каждой плоскости соответствует значение одной или двух шестнадцатеричных цифр (0–9, A - F), предшествующих четырем последним: следовательно, U + 24321 находится в плоскости 2, U +4321 находится в плоскости 0 (неявно читается как U + 04321), а U + 10A200 будет в плоскости 16 (шестнадцатеричное 10 = десятичное 16). В пределах одной плоскости диапазона кодовых точек является шестнадцатеричным 0000-FFFF, что дает максимум 65536 кодовых точек. Самолеты ограничивают кодовые точки подмножеством этого диапазона.
Unicode свойство блока к UCS, которое также разделяет каждый плоскость на отдельные блоки. Каждый блок представляет собой группу символов по их использованию, например «математические операторы» или «символы еврейского алфавита». При назначении символов ранее неназначенным кодовым точкам Консорциум обычно выделяют целые блоки похожих символов: например, все символы, соответствующие одному и той же сценарию, или все символы назначения назначаются одному блоку. Блоки могут также поддерживать неназначенные или зарезервированные кодовые точки, когда Консорциум ожидает, что блокует дополнительных назначений.
Первые 256 кодовых точек в UCS соответствуют кодовым точкам ISO 8859-1, самой популярной 8-битной кодировке символов в западном мире.. В результате первые 128 символов также идентичны ASCII. Хотя Unicode называет их блоками латинского алфавита, эти два блока содержат много символов, обычно за пределами латинского алфавита. В общем, не все символы в данном блоке должны принадлежать одному и тому же сценарию, и данный сценарий может находиться в нескольких разных блоках.
Unicode обозначает символу UCS общую категорию и подкатегорию. Общая категориям число: буква, знак, пунктуация, символ или управляющий элемент (другими, форматирующий или неграфический символ).
Типы включают:
Unicode кодирует более ста тысяч символов. Большинство из них представляют собой графемы для обработки в виде линейного текста. Однако некоторые из них либо не требуют особой обработки. В отличие от управляющих символов ASCII и других символов, включенных для устаревших возможностей двустороннего обмена, эти другие символы специального назначения наделяют простой текст семантикой.
Некоторые специальные символы могут изменить макет текста, например, элемент объединения с нулевой шириной и элемент объединения с нулевой шириной, тогда как другие не влияют на макет текста вообще, а вместо этого способ сопоставления, сопоставления или другого обработки текстовых строк. Другие специальные символы, такие как математические невидимые символы, обычно не влияют на рендеринг текста, хотя сложное программное обеспечение для верстки текста может выбрать тонкую настройку интервалов вокруг них.
Unicode не определяет разделение труда между шрифтом и программным верстки текста (или «движком») при рендеринге текста Unicode. Более простой форматы шрифтов, такие как OpenType или Apple Advanced Typography, используя контекстную замену и позиционирование глифов, простой механизм макета текста может полностью полагаться на шрифт при принятии всех решений. выбора и размещения глифа. В же ситуации более сложный движок может комбинировать информацию из шрифта со своими собственными предписаниями для достижения своей собственной идеи наилучшего рендеринга. Чтобы реализовать все спецификации Unicode, текстовый движок должен быть подготовлен к работе со шрифтами любого уровня сложности, поскольку правила контекстной подстановки и позиционирования не существуют в некоторых форматах шрифтов и являются необязательными для остальных. Дробная косая черта является примером: сложные шрифты могут быть использованы правила позиционирования при наличии дробной косой черты для создания дроби, в то время как шрифты в простых форматах не могут.
При появлении в заголовке текстового файла или потока знак порядка байтов (BOM) U + FEFF намекает на форму кодирования и ее порядок байтов.
Если первый байт потока - 0xFE, а второй - 0xFF, то текст потока вряд ли будет закодирован в UTF-8, поскольку эти байты недопустимы в UTF-8. Также маловероятно, что это будет UTF-16 в обратном порядке байтов, потому что 0xFE, 0xFF, прочитанное как 16-битное слово с прямым порядком байтов, будет U + FFFE, что бессмысленно. Последовательность также имеет значения в каком порядке кодировки UTF-32, поэтому в целом она служит надежным индикатором, что текстовый поток закодирован как UTF-16 в с прямым порядком байтов. порядок байтов. И наоборот, если первые два байта - это 0xFF, 0xFE, то можно предположить, что текстовый поток закодирован как UTF-16LE, потому что, прочитанные как 16-байтовое значение с прямым порядкомтов, байты дают ожидаемую метку порядка байтов 0xFEFF. Однако это предположение становится сомнительным, если следующие два байта равны 0x00; либо текст начинается с нулевого символа (U + 0000), либо правильная кодировка на самом деле UTF-32LE, в которой полная 4-байтовая последовательность FF FE 00 00 представляет собой один символ, спецификацию.
Последовательность UTF-8, соответствующая U + FEFF, - это 0xEF, 0xBB, 0xBF. Эта последовательность не имеет значения в других формах кодирования Unicode, поэтому она может служить для обозначения того, что этот поток закодирован как UTF-8.
Спецификация Unicode не требует использования меток порядка байтов в текстовых потоках. Далее в нем говорится, что они не упоминаются в сообщении, когда уже используется какой-либо другой метод сигнализации формы кодирования.
В первую очередь для математики невидимый разделитель (U + 2063) обеспечивает разделитель между символами, где знаки пунктуации или пробелы быть опущены, например, в двумерном индексе, таком как i J. Невидимые времена (U + 2062) и Приложение функции (U + 2061) полезны в математическом тексте, где умножение терминов или применение подразумевается без какого-либо глифа, указывающего на операцию. Unicode 5.1 также вводит символ математического невидимого плюса (U + 2064), который может указать на то, что целое число, за которым следует дробь, должно обозначать их сумму, но не их произведение.
Знак дробной косой черты (U + 2044) имеет особое поведение в стандарте Unicode: (раздел 6.2, Другая пунктуация)
Стандартная форма дроби, построенная с использованием дробной косой черты, определяется следующим образом: любая последовательность из одной или нескольких нескольких десятичных цифр (общая категория = Nd), за которой следует дробная косая черта, за которой следует последовательность одной или нескольких десятичных цифр. Такая дробь должна иметь в виде единицы, например ¾. Если программное обеспечение для отображения не способно отобразить дробь на единицу, то ее также можно отобразить как простую линейную последовательность в качестве запасного варианта (например, 3/4). Если дробь должна быть отделена от предыдущего числа, можно использовать пробел, выбрав соответствующую ширину (нормальную, тонкую, нулевую и т. Д.). Например, 1 + ZERO WIDTH SPACE + 3 + FRACTION SLASH + 4 отображается как 1¾.
Следуя этой рекомендации Unicode, системы обработки текста выдают сложные символы из простого текста. один. Здесь наличие дробной косой черты указывает механизму компоновки синтезировать дробную часть из всех последовательных цифр, предшествующих и следующих косой чертой. На практике различаются из-за сложного взаимодействия между шрифтами и механизмами компоновки. Механизмы простой верстки текста, как правило, вообще не синтезируют дроби, а вместо этого рисуют глифы в виде линейной последовательности, как описано в резервной схеме Unicode.
Более сложные механизмы компоновки сталкиваются с двумя практическими методами: они могут полагаться на собственные инструкции для синтеза. Игнорируя инструкции шрифта, механизм компоновки может рекомендованное поведение Unicode. Следуя инструкциям шрифта, механизм компоновки может добиться лучшего типографики, потому что этот конкретный шрифт с этим конкретным размером.
<<>Проблема со следованием инструкциям шрифта заключается в том, что более простые форматы шрифтов не имеют возможности указать поведение дробного синтез. Между тем, более сложные форматы не требуют, чтобы шрифт определял поведение фракционного синтеза, и поэтому многие не делают. Большинство шрифтов сложных форматов могут указать механизму компоновки заменить последовательность простого текста, например, «1⁄2», составленным глифом «½». Обычная текстовая строка, как «221⁄225», вполне может быть как 22½25 (где ½ представляет собой замененную компиляционную дробь, а не синтезированную). Предполагается, что предполагается рекомендуемое поведение Unicode, следует выбирать шрифты, которые, как известно, синтезируют дробные части, или программное обеспечение для верстки текста, которое, как известно, обеспечивает рекомендуемое поведение Unicode независимо от типа.Направление письма - это направление глифов, которые размещаются на странице прямого продвижения символов в строке Unicode. Английский и другие языки латинского алфавита имеют направление письма слева направо. Некоторые основные письменные шрифты, такие как арабский и иврит, имеют направление письма справа налево. Спецификация Unicode присваивает каждому символу направленный тип, чтобы информировать текстовые процессоры о том, как указать символы, которые должны быть упорядочены на странице.
Хотя лексические символы (то есть буквы) обычно используются к одному письменному сценарию, некоторые символы и символы препинания используются во многих письменных сценариях. Unicode может создавать повторяющиеся символы в репертуаре, которые отличаются только типом направленности, но вместо этого предпочитают объединить их и присвоить им нейтральный направленный тип. Они получают направление во время рендеринга от соседних символов. Некоторые из этих символов также имеют свойство двунаправленного зеркального отображения, которое глиф должно быть в зеркальном отображении при использовании в тексте с письмом справа налево.
Тип направления нейтрального персонажа во время рендеринга может оставаться неоднозначным, когда метка помещается на границу между изменениями направления. Чтобы решить эту проблему, Unicode включает символы, которые имеют сильную направленность, не связаны с ними глифов и игнорируются системы, не обрабатываемыми двунаправленными текстами:
Окружение нейтрального налево в двух направлениях символа знаком слева направо заставит символ вести себя как Символ с письмом слева направо, окруженный знаком с письмом справа налево, заставит его вести себя как символ с письмом справа налево. Поведение этих символов подробно описано в двунаправленном алгоритме Unicode.
Хотя Unicode предназначен для работы с использованием языковых систем и даже текстом, который перемещается слева направо или справа налево с минимальным вмешательством автора, существуют особые обстоятельства, когда сочетание двунаправленного текста может стать сложным, требуя большего авторского контроля. Для этих обстоятельств Unicode включает пять других символов для управления сложным встраиванием текста направо в текст с письмом справа налево и наоборот:
Unicode предоставляет список символов, которые он считает пробельными символами для поддержки взаимодействия. Программные и другие стандарты могут использовать термин для обозначения немного другого набора символов. Например, Java не считает U + 00A0 NO-BREAK SPACE или U + 0085
Объединители нулевой ширины (U + 200D) и объединители нулевой ширины (U + 200C) контролируют соединение и лигирование глифов. Соединитель не соединяет символы, соединяющие друг друга, соединяющие два соединяющихся или лигирующих символов. Объединение объединяющих графем (U + 034F) используется для различения двух базовых символов как одной общей базы или орграфа, в основном для данной обработки текста, сопоставления строк, сворачивания регистра и т. Д.
Наиболее распространенным разделителем слов является пробел (U + 0020). Однако есть и другие элементы объединения и разделители слов, которые также указывают на разрыв между словами и участвуют в алгоритмах разрыва строки. Пробел без разрыва (U + 00A0) также обеспечивает продвижение базовой линии без глифа, но тормозит, а не разрешает разрыв строки. Пробел нулевой ширины (U + 200B) допускает разрыв строки, но не дает пробела: в некотором смысле соединяет, а не разделяет два слова. Наконец, Word Joiner (U + 2060) запрещает разрывы строк, а также не задействует пустое пространство, возникающее при продвижении базовой линии.
Расширение базовой линии | Нет продвижения базовой линии | |
Разрешить разрыв строки . (разделители) | Пробел U + 0020 | Пробел нулевой ширины U + 200B |
Запретить разрыв строки . (Объединители) | Пробел без разрывов U + 00A0 | Объединитель слов U + 2060 |
Обеспечивает Unicode с собственными разделителями абзацев и строк, независимыми от устаревших управляющих символов ASCII, таких как возврат каретки (U + 000A), перевод строки (U + 000D) и Следующая строка (U + 0085). Unicode не предусматривает других управляющих символов форматирования ASCII, которые, предположительно, не являются частью модели обработки простого текста Unicode. Эти устаревшие символы управления форматированием включают табуляцию (U + 0009), табуляцию строки или вертикальную табуляцию (U + 000B) и канал формы (U + 000C), которые также рассматриваются как разрыв страницы.
Пробел (U + 0020), обычно вводимый клавишей пробела на клавиатуре, семантически служит разделителем слов во многих языках. По причинам, связанным с устареванием, ПСК также включает пробелы разного размера, которые являются эквивалентами совместимости для символов пробела. Эти промежутки ширины важны в типографике, модель обработки требует Unicode, чтобы такие визуальные эффекты обрабатывались с помощью форматированного текста, разметки и других протоколов. Они включены в репертуар Unicode в первую очередь для обработки двустороннего транскодирования без потерь из других кодировок набора символов. Эти пробелы включают:
Помимо исходного пробела ASCII, все остальные пробелы являются символами совместимости. Это настоящее управление семантическим содержимым к тексту. В Юникоде этот несемантический элемент управления стилем часто называют форматированным текстом и выходит за рамки целей Юникода. Вместо того, чтобы использовать разные пробелы в разных контекстах, этот стиль текста следует обрабатывать с помощью интеллектуального программного обеспечения для верстки.
Три других разделителя слов, зависящих от системы письма:
Некоторые инструменты разработаны, чтобы помочь инструментам строки, либо препятствуя их переносу (символы без разрыва), либо предлагая перенос строки, такой как мягкий дефис (U + 00AD) (иногда называемый «Застенчивым дефисом»). Такие символы, хотя и предназначены для стилизации, вероятно, незаменимы для обычных разрыва строки, которые делают возможными.
Запрещение разрыва
Символы, запрещающие разрыв, должны быть эквивалентны символов, заключенной в Word Joiner U + 2060. Однако слово Joiner может быть добавлено до или после любого символа, которое позволяет разрыву строки препятствовать такому разрыву строки.
Включение разрыва
Оба символа Запрещение разрыва и разрешающий разрыв символы участвуют с другими символами пунктуации и пробелов, чтобы различные системыам визуализации текста определяли разрывы строк в пределах Юникода Алгоритм разрыва строки.
Среди миллионов кодовых точек, доступных в UCS, многие зарезервированы для других целей или для обозначения третьими сторонами. Эти отложенные кодовые точки включают несимвольные кодовые точки, суррогаты и кодовые точки для частного использования. Они могут иметь несколько связанных с ними символов или иметь несколько связанных с ними свойств.
66 несимвольных кодовых точек (помеченных
) откладываются гарантированно никогда не будут обозначены для символов. Каждый из 17 плоскостей имеет две конечные кодовые точки, зарезервированные как несимволы. Итак, несимволы: U + FFFE и U + FFFF на BMP, U + 1FFFE и U + 1FFFF на Плоскости 1 и так далее, до U + 10FFFE и U + 10FFFF на Плоскости 16, всего 34 кода. точки. Кроме того, в BMP есть непрерывный диапазон из 32 несимвольных кодовых точек: U + FDD0..U + FDEF. Поэтому программные реализации могут свободно использовать эти кодовые точки для внутреннего использования. Одним из особенно полезных примеров несимвола является кодовая точка U + FFFE. Эта кодовая точка имеет обратную последовательность байтов UTF-16 / UCS-2 метки порядка байтов (U + FEFF). Если поток текста содержит этот несимвольный символ, это хороший признак того, что текст был интерпретирован с неправильным порядком байтов..
Версии стандарта Unicode от 3.1.0 до 6.3.0 утверждали, что несимволы "никогда не должны заменяться местами.". Исправление № 9 стандарта позже указывало, что это приводило к «неуместному чрезмерному отклонению», поясняя, что «[Несимволы] не являются незаконными при обмене и не вызывают неправильного формата текста Unicode», и удаляют оригинальную претензия.
UCS использует суррогаты для символов за пределами начала Basic Multilingual Plane, не прибегая к представлениям байтов более чем 16 бит. Есть 1024 «высоких» суррогата (D800 - DBFF) и 1024 «низких» суррогата (DC00 - DFFF). Комбинируя пару суррогатов, можно адресовать оставшиеся символы во всех других плоскостях (1024 × 1024 = 1048576 кодовых точек в других 16 плоскостях). В UTF-16 они всегда должны появляться парами, как старший суррогат, за которым следует младший суррогат, таким образом, используя 32 бита для обозначения одной кодовой точки.
Суррогатная пара обозначает кодовую точку
, где H и L - числовые значения высокого и низкого суррогатов соответственно.
Высокие суррогатные значения в диапазоне DB80 - DBFF всегда производят значения в плоскостном частном использовании, высокий суррогатный диапазон может быть дополнительно разделен на (нормальные) высокие суррогаты (D800 - DB7F) и «суррогаты для высокого уровня использования». "(DB80 - DBFF).
Изолированные суррогатные кодовые точки не имеют общей интерпретации; следовательно, для этого диапазона не применяются таблицы кодов символов или списки имен. В языке программирования Python отдельные суррогатные коды используются
UCS включает 137468 кодовых точек для частного использования в трех различных диапазонах, каждый из которых называется частным использованием (PUA), для встраивания недекодируемых байтов в строки Unicode. коды символов Unicode, но не присваивает им какие-либо (абстрактные) символы. Вместо этого лица, организации, поставщики программного обеспечения, поставщики операционных систем, поставщики шрифтов и сообщества конечных пользователей могут свободно использовать их по своему усмотрению. могут работать однозначно, что позволяет таким системам использовать символы или глиф, не будет в Unicode. использовать более проблематично, поскольку отсутствует реестр и нет методов помешать нескольким организациям использовать одни и те же кодовые точки для разных целей. Одним из примеров такого конфликта является использование Apple U + F8FF для логотипа Apple по сравнению с ConScript Unicode Registry с использованием U + F8FF в как символы мумификации клингонов в скрипте клингонов.
Базовая многоязычная плоскость включает PUA в диапазоне от U + E000 до U + F8FF (6400 расположение кода). Самолеты Пятнадцать и Шестнадцать PUA, которые состоят из всех, кроме последних двух позиций кода, которые обозначены не-символами. PUA в Пятнадцатом самолете - это диапазон от U + F0000 до U + FFFFD (65534 кодовых ячеек). PUA в шестнадцатом плане - это диапазон от U + 100000 до U + 10FFFD (65534 кодовых ячеек).
PUA - это концепция, унаследованная от азиатских систем кодирования. Эти системы имеют частные области использования для кодирования того, что японцы называют гайдзи (редкие символы, которые обычно не встречаются в шрифтах), специфические для приложений использования.
В то время как многие другие наборы символов назначают символ для каждого возможного представления символов символы, Unicode начать обрабатывать символы отдельно от глифов. Это различие не всегда однозначно, однако несколько примеров проиллюстрировать это различие. Часто два символа могут быть объединены типографически, чтобы улучшить читаемость текста. Например, трехбуквенная последовательность «ffi» может рассматриваться как один глиф. Другие наборы часто назначают эту глифу кодовую точку в дополнение к символам буквам: «f» и «i».
Кроме того, Unicode приближает диакритические модифицированные буквы как символы, которые при отображении становятся одним глифом. Например, «o» с диэрезисом : «ö ». Традиционно другим наборам символов присваивается уникальный код символа для каждой измененной диакритической буквы, используемой в каждом языке. Unicode стремится создать более гибкий подход, позволяя комбинировать диакритические символы с любым буквой. Это может уменьшить количество активных кодовых точек, необходимых для набора символов. В качестве примера рассмотрим язык, в котором используется латинский алфавит и сочетаются диэрезис с прописными и строчными буквами «a», «o» и «u». При подходе Unicode к набору символов для использования с латинскими буквами необходимо добавить только диакритический знак диэрезиса: «a», «A», «o», «O», «u» и «U»: всего семь персонажей. В устаревших наборах символов используются шесть шести составленных букв с диэрезисом в дополнение к шести кодовым точкам, которые используют для букв без диэрезиса: всего двенадцать кодовых точек символов.
ПСК включает тысячи символов, которые Unicode определяет как символы совместимости. Это символы, которые были включены в UCS, чтобы предоставить точки для символов, которые различаются другими наборами символов, но не будут дифференцироваться в подходе Unicode к символам.
Основная причина этого различия заключалась в том, что Unicode проводит различие между символами и глифами. Например, при написании английского курсивом буква «i» может принимать разные формы независимо от того, появляется ли она в начале слова, в конце слова, в середине слова или отдельно.. Такие языки, как арабский, написанные арабским шрифтом, всегда пишутся курсивом. Каждое письмо имеет много разных форм. UCS включает 730 символов арабской формы, которые разлагаются всего на 88 уникальных арабских символов. Однако эти дополнительные арабские символы включены, так что программное обеспечение для обработки текста может переводить текст из других наборов символов в UCS и обратно без какой-либо информации для программного обеспечения, не поддерживающего Unicode.
Однако, в частности, для UCS и Unicode предпочтительным подходом является всегда кодирование или отображение этой буквы в один и тот же символ, независимо от того, где она встречается в словах. Использует различные формы каждой буквы программного обеспечения для шрифта и верстки текста. Таким образом, внутренняя память для символов остается идентичной, независимо от того, где символ появляется в слове. Это упрощает поиск, сортировку и другие операции по обработке текста.
Каждый символ в Юникоде определяется большим и постоянно растущим набором свойств. Большинство этих свойств не являются частью универсального набора символов. Свойства облегчают обработку текста, включая сопоставление или сортировку текста, идентификацию слов, предложений и графем, визуализацию или отображение текста и так далее. Ниже приведен список некоторых основных свойств. В базе данных символов Unicode задокументировано много других.
Свойство | Пример | Подробности |
Имя | ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A | Это постоянное имя, присвоенное совместным сотрудничеством Unicode и ISO UCS. Существует несколько известных плохо выбранных имен. |
Кодовая точка | U + 0041 | Кодовая точка Unicode - это номер, также присвоенный на постоянной основе вместе со своим "Имя" и включается в сопутствующую ПСК. Обычно кодовую возможность предоставить как шестнадцатеричное с префиксом "U +" впереди. |
Типичный символ | Типичный представлен представлен в кодовых таблицах. | |
Общая категория | Прописные буквы | Общая категория выражается в виде двухбуквенной последовательности, «Lu» для прописных букв буква или "Nd" для десятичного числа. |
Класс комбинирования | Not_Reordered (0) | Знаки диакритические и другие комбинированные знаки могут быть выражены символами в Юникоде, свойство «Комбинирующий класс» позволяет различать символы по типу комбинируемого символа. представляет собой. Комбинирующий класс может быть выражен целым числом от 0 до 255 или именованным числом. Целочисленные значения позволяют переупорядочивать объединяющие метки в каноническом порядке, чтобы сделать возможное сравнение идентичных строк. |
Двунаправленная категория | Left_To_Right | Указывает тип символа для применения двунаправленного алгоритма Unicode. |
Двунаправленное зеркальное отображение | no | Указывает, что глиф символа необходимо перевернуть или отразить в рамках двунаправленного алгоритма. Зеркальные глифы могут быть предоставлены создателями шрифтов, извлечены из других символов, связанных с помощью свойств «Двунаправленный зеркальный символ», или синтезированы системой визуализации текста. |
Глиф двунаправленного зеркального отображения | Н / Д | Это свойство указывает кодовую точку другого символа, глиф которого может служить зеркальным отображением глифа для текущего символа при зеркальном отображении в рамках двунаправленного алгоритма. |
Значение десятичной цифры | NaN | Для чисел это свойство указывает числовое значение символа. Для десятичных цифр все три значения одно и то же значение имеют символы совместимости с форматированным текстом и другие арабско-индийские недесятичные цифры обычно только два последних свойства, данные на числовое значение символов, в то время как числа, не относящиеся к арабским индийским цифрам., например Римские цифры или цифры Ханьчжоу / Сучжоу обычно имеют только "числовое значение". |
Цифровое значение | NaN | |
Числовое значение | NaN | |
Идеографическое | Ложное | Указывает, что является символом идеограммой CJK : a logograph в скрипте Han. |
Default Ignorable | False | Указывает, что символ игнорируется для реализаций и что не нужно отображать глиф, глиф последнего средства или символ замены. |
Устарело | False | Unicode никогда не удаляет символы из репертуара, но иногда Unicode устарел для небольшого количества символов. |
Unicode предоставляет онлайн-базу данных для интерактивного запроса всего репертуара символов Unicode по свойствам.
На Викискладе есть носители, связанные с Unicode. |