Повторяющиеся символы в Unicode

редактировать

Unicode имеет определенное количество повторений символов. Это пары одиночных кодовых точек Unicode, которые канонически эквивалентны. Причина этого - проблемы совместимости с устаревшими системами.

Если два символа канонически не эквивалентны, они не являются «дубликатами» в узком смысле. Однако существуют разногласия по поводу того, действительно ли два символа Unicode кодируют одну и ту же графему в таких случаях, как «микрознак» µ vs. греческий μ.

Его следует четко отличать от символов Юникода, которые отображаются как идентичные глифы или почти идентичные глифы (гомоглифы ), либо потому, что они исторически родственны (например, греческий Η против латинского H ) или из-за случайного сходства (например, греческий Ρ против латинского P или греческий Η против кириллицы Н, или следующие четверные гомоглифы: астрономический символ для «Солнца» ☉, «оператор точки в кружке» ⊙, готическая буква 𐍈, символ IPA для двухгубного щелчка ʘ ).

Содержание

1 Дублирование и производный символ
2 Проблемы совместимости
- 2.1 Полноширинные формы CJK
3 Буквоподобные символы
- 3.1 Греческий
- 3.2 Римские цифры
4 См. Также
5 Ссылки

Дублирование и производный символ

Unicode нацелен на кодирование графем, а не отдельных «значений» («семантики») графем, а не глифов. Вопрос о том, должны ли такие символы получать отдельную кодировку при использовании в технических контекстах, например: Греческие буквы, используемые в качестве математических символов: таким образом, выбор иметь «микро- знак» µ отдельно от греческого µ, но не «Mega знак» отдельно от латинского M был прагматическое решение консорциума Unicode по историческим причинам (совместимость с Latin-1, который включал микрознак). Технически µ и µ не являются повторяющимися символами, поскольку консорциум рассматривал эти символы как отдельные символы (в то время как он рассматривал M как «Mega» и латинский M как один и тот же символ).

Обратите внимание, что просто наличие разных «значений» не является достаточным основанием для разделения графемы на несколько символов: Таким образом, острый акцент может представлять словесный акцент на валлийском или шведском языке, он может выражать гласную качество на французском языке, и может выражать длину гласных на венгерском, исландском или ирландском языках. Поскольку все эти языки написаны одним и тем же шрифтом, а именно латинским шрифтом, острый ударение в его различных значениях считается одним и тем же сочетанием диакритического знака (U + 0301), как а также буква с ударением é - это один и тот же символ во французском и венгерском языках. Существует отдельный «комбинированный диакритический знак острого тона» в U + 0341 для латинизации языков тонов, одно важное различие между ними состоит в том, что на таком языке, как французский, острый акцент может заменять точку над строчной буквой i, тогда как в в таких языках, как вьетнамский, над точкой добавляется знак острого тона. Диакритические знаки для алфавитов, считающихся независимыми, могут быть закодированы отдельно, например, острый (тонос) для греческого алфавита в U + 0384 и для армянского алфавита в U + 055B. В некоторых алфавитах на основе кириллицы (например, русский ) также используется острый ударение, но нет отдельного закодированного «кириллица с острым ударением», а U + 301 следует использовать как для кириллицы, так и для латиницы (см. Кириллические символы в Unicode ). То, что одна и та же графема может иметь много "значений", становится еще более очевидным, учитывая, например, буква U, которая имеет совершенно разные фонематические референты в разных языках, использующих ее в своей орфографии (английский / juː /, / ʊ /, / ʌ / и т. д., французский / y /, немецкий / uː /, / u / и т. д., не говоря уже о различных вариантах использования U как символа ).

Проблемы совместимости

Полноширинные формы CJK

В традиционных китайских кодировках символов символы обычно занимают либо один байт (известный как полуширина) или два байта (известная как полная ширина). Символы, занимавшие один байт, обычно отображались с половиной ширины символов, занимавших два байта. Некоторые символы, такие как латинский алфавит, были доступны как в полушириной, так и в полноширинной версиях. Поскольку версии с половинной шириной использовались чаще, они, как правило, соответствовали стандартным кодовым точкам для этих символов. Поэтому для полноширинных форм понадобился отдельный раздел, чтобы сохранить различие.

Буквоподобные символы

В некоторых случаях определенные графемы приобрели особое символическое или техническое значение, отличное от их первоначальной функции. Ярким примером является греческая буква π, которая широко известна как символ математической постоянной длины окружности круга, деленной на его диаметр, даже люди, не владеющие греческим языком.

Несколько вариантов всего греческого и латинского алфавитов, специально предназначенных для использования в качестве математических символов, закодированы в диапазоне математических буквенно-цифровых символов. Этот диапазон устраняет неоднозначность символов, которые обычно считаются вариантами шрифта, но кодируются отдельно из-за широкого использования вариантов шрифта (например, L против «script L» ℒ против «Blackletter L» 𝔏 против «жирного шрифта blackletter L "𝕷) как отличительные математические символы. Он предназначен для использования только в математических или технических обозначениях, а не в нетехническом тексте.

Греческий

Многие греческие буквы используются в качестве технических символов. Все греческие буквы закодированы в греческом разделе Unicode, но многие закодированы во второй раз под названием технического символа, который они представляют. «микрознак » (U + 00B5, µ), очевидно, унаследован от ISO 8859-1, но происхождение остальных менее ясно.

Другие варианты греческих глифов, закодированные как отдельные символы, включают полулунную сигму Ϲ ϲ, контрастирующую с Σ σ, заключительную сигму ς (строго говоря, контекстный вариант глифа), контрастирующую с σ, Qoppa числовой символ Ϟ ϟ, контрастирующий с архаичным Ϙ ϙ.

греческие буквы, которым присвоены отдельные кодовые точки «символа», включают буквоподобные символы ϐ, ϵ, ϑ, ϖ, ϱ, ϒ и ϕ (в отличие от β, ε, θ, π, ρ, Υ, φ) ; символ Ом Ω (контрастирующий с Ω); и математические операторы для произведения ∏ и суммы ∑ (в отличие от Π и Σ ).

Римские цифры

Юникод имеет ряд символов, специально обозначенных как Римские цифры, как часть диапазона числовых форм от U + 2160 до U + 2183. Например, Roman 1988 (MCMLXXXVIII) можно было бы записать как ⅯⅭⅯⅬⅩⅩⅩⅧ. Этот диапазон включает в себя цифры в верхнем и нижнем регистре, а также предварительно скомбинированные глифы для чисел до 12 (Ⅻ для XII), в основном предназначенные для циферблатов.

Предварительно объединенные глифы должны использоваться только для представления отдельных чисел, где использование отдельных глифов не требуется, а не для замены составных чисел. Например, можно объединить Ⅹ с Ⅰ, чтобы обозначить римскую цифру одиннадцать (), поэтому U + 216A (Ⅺ) канонически эквивалентно ⅩⅠ. Такие символы также называются составными символами совместимости или разложимыми символами совместимости. Такие символы обычно не включались бы в стандарт Unicode, за исключением совместимости с другими существующими кодировками (см. символы совместимости Unicode ). Цель состояла в том, чтобы обеспечить простой перевод существующих кодировок в Unicode. Это усложняет перевод в обратном направлении, поскольку несколько символов Unicode могут отображаться на один символ в другой кодировке. Без проблем совместимости единственными необходимыми символами были бы: Ⅰ, Ⅴ, Ⅹ, Ⅼ, Ⅽ, Ⅾ, Ⅿ, ⅰ, ⅴ, ⅹ, ⅼ, ⅽ, ⅾ, ⅿ, ↀ, ↁ, ↂ, ↇ, ↈ и Ↄ; все остальные римские цифры могут быть составлены из них.