Цифры в Юникоде

редактировать

Позиция (часто называемый номером в Unicode ) представляет собой символ, который обозначает число. Десятичная дробь широко используется в различных системах письма по всему миру, однако графемы, представляющие десятичные цифры, сильно различаются, поэтому Unicode включает 22 различных набора графем для десятичных цифр, а также различные десятичные точки, разделители тысяч, отрицательные знаки и т. Д. Unicode также включает несколько недесятичных чисел, таких как эгейские числа, римские числа, числа счетной палочки, клинописные числа и древнегреческие числа. Существует также большое количество типографских вариаций западных арабских цифр, предназначенных для специального математического использования и для совместимости с более ранними наборами символов, такими как ² или ②, и составными символами, такими как ½.

СОДЕРЖАНИЕ

1 Цифры по числовому свойству
2 шестнадцатеричные цифры
3 цифры по алфавиту
- 3.1 Индо-арабские цифры
  - 3.1.1 Дроби
  - 3.1.2 Десятичные дроби
  - 3.1.3 Символы математических констант
  - 3.1.4 Форматированный текст и другие цифры совместимости
- 3.2 CJK Suzhou (huām) цифры
- 3.3 Сучжоу (huām) цифры в Юникоде
- 3.4 японские и корейские цифры
- 3.5 Древнегреческие цифры
- 3.6 Римские цифры
- 3.7 Числа на счетных стержнях
4 См. Также
5 ссылки

Цифры по числовому свойству

Сгруппированные по числовому свойству, используемому в тексте, Unicode имеет четыре значения для числового типа. Во-первых, это тип «не число». Кроме того, существуют числа с десятичной системой счисления, обычно используемые в десятичных дробях западного стиля (простые 0–9), есть числа, не являющиеся частью десятичной системы, например римские числа, и десятичные числа в типографском контексте, например числа в кружках. Не отмечена нумерация типа "ABC" для нумерации глав.

v т е Числовой тип ( свойство символа Юникода )
Числовой тип	Код	Имеет числовое значение	Пример	Замечания
Не числовой	`None`	Нет	А X (латиница) ! Д μ に	Числовое значение = "NaN"
Десятичный	`De`	да	0 1 9 ६ (Деванагари 6) ೬ (каннада 6) 𝟨 (математический, без засечек)	Прямая цифра (десятичная система счисления ). Соответствует в обоих направлениях General Category = Nd
Цифра	`Di`	да	¹ (верхний индекс) ① ⒈ (цифра с точкой)	Десятичный, но в типографском контексте
Числовой	`Nu`	да	¾ ௰ (тамильский номер десять) Ⅹ (римская цифра) 六 (хань номер 6)	Числовое значение, но не десятичная система счисления
а. ^ «Раздел 4.6: Числовое значение» (PDF). Стандарт Юникода. Консорциум Unicode. Март 2020.
б. ^ «Производные числовые типы Unicode 13.0». База данных символов Юникода. Консорциум Unicode. 2019-09-08.

Шестнадцатеричные цифры

Шестнадцатеричные цифры в Юникоде не являются отдельными символами; используются существующие буквы и цифры. Эти символы имеют отмеченные свойства персонажа Hex_digit=Yes и, ASCII_Hex_digit=Yes когда это необходимо.

Символы в Юникоде отмечены `Hex_Digit=Yes`
`0123456789ABCDEF`	Базовая латынь, заглавные буквы	Также `ASCII_Hex_Digit=Yes`
`0123456789abcdef`	Базовая латиница, строчные буквы	Также `ASCII_Hex_Digit=Yes`
`０１２３４５６７８９ＡＢＣＤＥＦ`	Полноширинные формы, заглавные буквы
`０１２３４５６７８９ａｂｃｄｅｆ`	Полноширинные формы, строчные буквы
а. ^ "Unicode 13.0 UCD: PropList.txt". 2019-11-27. Проверено 12 марта 2020.

Цифры по шрифту

Индусско-арабские цифры

Индо-арабская цифра, система включает в себя десять цифры, представляющих 0-9. Unicode включает западные арабские цифры в блоке Basic Latin (или ASCII). Цифры повторяются в нескольких других шрифтах: восточно-арабском, балийском, бенгальском, деванагари, эфиопском, гуджарати, гурмукхи, телугу, кхмерском, лаосском, лимбу, малаялам, монгольском, мьянманском, новом тай-лу, нко, ория, телугу, тайском, Тибетский, Османья. Unicode включает свойство числового значения для каждой цифры, чтобы помочь в сопоставлении и других операциях обработки текста. Однако нет никакого соответствия между различными связанными цифрами.

Хотя арабский пишется справа налево, а английский - слева направо, на обоих языках числа пишутся так, что самая значимая цифра находится слева, а наименее значимая - справа.

Фракции

Символ дробной косой черты (U + 2044) позволяет авторам, использующим Unicode, составлять любую произвольную дробь вместе с десятичными цифрами. Это было предназначено, чтобы проинструктировать визуализацию шрифта, чтобы уменьшить окружающие цифры и поднять их слева и опустить их справа, но это редко реализуется. (Обходной путь - использовать символы верхнего и нижнего индекса, описанные ниже, но доступны только арабские цифры.) Unicode также включает в себя несколько вульгарных дробей в качестве символов совместимости, но не рекомендует их использование.

Десятичные дроби

Несколько символов в Юникоде могут служить десятичным разделителем в зависимости от языкового стандарта. Десятичные дроби представлены в тексте как последовательность десятичных цифр с десятичным разделителем, отделяющим целую часть от дробной части. Например, десятичная дробь для выражается как ноль два и пять («0,25»). Unicode не имеет специального общего десятичного разделителя, но объединяет функцию десятичного разделителя с другими символами пунктуации. Итак "." в "0,25" используется тот же символ точки (U + 002E), который используется в конце предложения. Однако культуры различаются глифом или графемой, используемыми для десятичного разделителя. Поэтому в некоторых регионах вместо нее может использоваться запятая (U + 002C): «0,25». В других странах используется пробел (или неразрывный пробел) для «0 25». Арабская система письма включает специальный символ для десятичного разделителя, который очень похож на запятую «٫» (U + 066B), которая в сочетании с арабскими цифрами для выражения одной четверти выглядит как «٠ ٫ ٢٥».

Символы математических констант

В настоящее время три символа Unicode семантически представляют собой математические константы: U + 210E ℎ постоянная Планка, в U + 210F ℏ ПЛАНКА ПОСТОЯННАЯ НАД ДВУМЯ PI и U + 2107 ℇ EULER CONSTANT. Другие математические константы могут быть представлены с использованием символов, которые имеют несколько семантических применений. Например, хотя Unicode включает в себя символ натуральной экспоненты ℯ (U + 212F), его каноническое имя UCS происходит от его глифа: U + 212F ℯ SCRIPT SMALL E ; а математическая константа π, 3,141592.., представлена как U + 03C0 π ГРЕЧЕСКАЯ СТРОЧНАЯ БУКВА PI.

Форматированный текст и другие цифры совместимости

Западные арабские цифры также появляются среди символов совместимости в виде вариантов форматированного текста, включая полужирный, двойной, моноширинный, без засечек и без засечек, а также полноширинные варианты для поддержки устаревшего вертикального текста.

Форматированный текст в круглых скобках, в кружках и другие варианты также включены в блоки «Прилагаемые буквы CJK и месяцы»; Вложенные буквы, цифры, надстрочные и подстрочные индексы; Числовые формы; и дингбаты.

CJK Suzhou (huām) числительные

Основные статьи: цифры Сучжоу и китайские цифры

Система хуаму - это разновидность стержневой системы счисления. Цифры на стержнях тесно связаны со счетными стержнями и счетами, поэтому числовые символы для 1, 2, 3, 6, 7 и 8 в системе хуамо представлены таким же образом, как и на счетах. В настоящее время система huām используется только для отображения цен на китайских рынках или на традиционных счетах, написанных от руки.

Числа Сучжоу (huām) в Юникоде

Согласно стандарту Unicode версии 3.0 эти символы называются цифрами в стиле Ханчжоу. Это указывает на то, что в Гонконге он не используется только кантонским диалектом. В стандарте Unicode 4.0 была добавлена ошибка, в которой говорилось:

Цифры цифр Сучжоу обозначены в блоке символов и пунктуации CJK между U + 3021 и U + 3029, U + 3007, U + 5341, U + 5344 и U + 5345.

Японские и корейские цифры

Основные статьи: японские цифры и корейские цифры

Древнегреческие цифры

Unicode обеспечивает поддержку нескольких вариантов греческих цифр, присвоенных дополнительной многоязычной плоскости от U + 10140 до U + 1018F.

Основная статья: Чердачные цифры

Аттические цифры использовались древними греками, возможно, с 7 века до нашей эры. Они также были известны как иродианские числа, потому что впервые были описаны в рукописи II века Иродианом. Их также называют акрофоническими цифрами, потому что все используемые символы происходят от первых букв слов, которые они представляют: «один», «пять», «десять», «сто», «тысяча» и «десять тысяч».. См. Греческие цифры и акрофонию.

Десятичный	Символ	Греческая цифра
1	Ι	ἴος или ἰός ( ios )
5	Π	πέντε ( пенте )
10	Δ	δέκα ( дека )
100	Η	ἑκατόν ( гекатон )
1000	Χ	χίλιοι ( хилиой )
10000	Μ	μύριοι ( мириои )

Таблица кодов официального консорциума Unicode в древнегреческих числах (PDF)
	0	1	2	3	4	5	6	7	8	9	А	B	C	D	E	F
U + 1014x	𐅀	𐅁	𐅂	𐅃	𐅄	𐅅	𐅆	𐅇	𐅈	𐅉	𐅊	𐅋	𐅌	𐅍	𐅎	𐅏
U + 1015x	𐅐	𐅑	𐅒	𐅓	𐅔	𐅕	𐅖	𐅗	𐅘	𐅙	𐅚	𐅛	𐅜	𐅝	𐅞	𐅟
U + 1016x	𐅠	𐅡	𐅢	𐅣	𐅤	𐅥	𐅦	𐅧	𐅨	𐅩	𐅪	𐅫	𐅬	𐅭	𐅮	𐅯
U + 1017x	𐅰	𐅱	𐅲	𐅳	𐅴	𐅵	𐅶	𐅷	𐅸	𐅹	𐅺	𐅻	𐅼	𐅽	𐅾	𐅿
U + 1018x	𐆀	𐆁	𐆂	𐆃	𐆄	𐆅	𐆆	𐆇	𐆈	𐆉	𐆊	𐆋	𐆌	𐆍	𐆎
Заметки 1. ^ Начиная с версии Unicode 13.0 2. ^ Серая область указывает неназначенную кодовую точку.

римские цифры

Римские цифры возникли в Древнем Риме, адаптировав этрусские цифры. Система, используемая в классической античности, была немного изменена в средние века, чтобы создать систему, которую мы используем сегодня. Он основан на определенных буквах, которым даны значения в виде цифр.

Римские цифры сегодня обычно используются в нумерованных списках (в формате схемы), циферблатах, страницах, предшествующих основной части книги, трезвучиях аккордов в музыкальном анализе (анализ римских цифр ), нумерации сиквелов фильмов и видеоигр, датах публикации книг, сменяющие друг друга политические лидеры или дети с одинаковыми именами, а также нумерация некоторых спортивных мероприятий, таких как Олимпийские игры или Суперкубок.

Unicode имеет ряд символов, специально обозначенных как римские цифры, как часть диапазона числовых форм от U + 2160 до U + 2188. Этот диапазон включает цифры как в верхнем, так и в нижнем регистре, а также предварительно объединенные символы для чисел до 12 (Ⅻ или XII). Одна из причин существования предварительно составленных чисел - облегчить установку многобуквенных чисел (например, VIII) на одной горизонтальной строке в вертикальном азиатском тексте. Стандарт Unicode, однако, включает специальные кодовые точки римских цифр только для совместимости, утверждая, что «[f] или для большинства целей предпочтительно составлять римские цифры из последовательностей соответствующих латинских букв».

Кроме того, существуют символы для архаичных форм 1000, 5000, 10 000, большой перевернутой буквы C (Ɔ), конца 6 (ↅ, аналогично греческой стигме : Ϛ), начала 50 (ↆ, аналогично стрелке вниз ↓ ⫝⊥), 50 000, и 100000. Маленькая перевернутая c, ↄ, предназначена не для использования в римских цифрах, а в качестве строчной клавдийской буквы Ↄ.

Таблица римских цифр в Юникоде
	0	1	2	3	4	5	6	7	8	9	А	B	C	D	E	F
Значение	1	2	3	4	5	6	7	8	9	10	11	12	50	100	500	1,000
U + 216x	Ⅰ	Ⅱ	Ⅲ	Ⅳ	Ⅴ	Ⅵ	Ⅶ	Ⅷ	Ⅸ	Ⅹ	Ⅺ	Ⅻ	Ⅼ	Ⅽ	Ⅾ	Ⅿ
U + 217x	Ⅰ	Ⅱ	Ⅲ	Ⅳ	Ⅴ	Ⅵ	Ⅶ	Ⅷ	Ⅸ	Ⅹ	Ⅺ	Ⅻ	Ⅼ	Ⅽ	Ⅾ	Ⅿ
Значение	1000	5000	10 000	100	100	6	50	50 000	100 000
U + 218x	ↀ	ↁ	ↂ	Ↄ	ↄ	ↅ	ↆ	ↇ	ↈ

При использовании шрифтов blackletter или script римские цифры устанавливаются латинскими буквами. Такие гарнитуры могут содержать римские цифры, соответствующие стилю гарнитуры в диапазоне Unicode U + 2160–217F; если они не существуют, для римских цифр используется соответствующий шрифт Antiqua.

Unicode содержит символы римских дробей в блоке Ancient Symbols : sextans, uncia, semuncia, sextula, dimidia sextula, siliqua и as.

Счетные числа на стержнях

Основная статья: Счетные стержни

Числа счетных стержней включены в отдельный блок в дополнительной многоязычной плоскости (SMP), начиная с Unicode 5.0. Есть девять «горизонтальных» цифр (от U + 1D360 до U + 1D368) и девять «вертикальных» цифр (от U + 1D369 до U + 1D371), горизонтальные цифры используются для нечетных степеней десяти, а вертикальные цифры - для четных степеней десять. Ноль должен быть представлен как U + 3007 (〇, идеографическое число ноль), а отрицательный знак должен быть представлен как U + 20E5 (объединение наложения с обратной солидусом). Этот блок также содержит другие символы в виде счетных стержней, такие как хорошо известная метка подсчета для 5 ~~||||~~. Поскольку они были недавно добавлены к набору символов и отсутствуют в BMP, поддержка шрифтов все еще может быть ограничена.

Цифры счетных стержней Официальная таблица кодов Консорциума Unicode (PDF)
	0	1	2	3	4	5	6	7	8	9	А	B	C	D	E	F
U + 1D36x	𝍠	𝍡	𝍢	𝍣	𝍤	𝍥	𝍦	𝍧	𝍨	𝍩	𝍪	𝍫	𝍬	𝍭	𝍮	𝍯
U + 1D37x	𝍰	𝍱	𝍲	𝍳	𝍴	𝍵	𝍶	𝍷	𝍸
Заметки 1. ^ Начиная с версии Unicode 13.0 2. ^ Серые области обозначают неназначенные кодовые точки.

Смотрите также

Числовые формы (блок Unicode)

Рекомендации