В цифровой типографии, объединяющие символы - это символы, предназначенные для изменения других символов. Наиболее распространенными комбинационными символами в латинском алфавите являются, объединяющие диакритические знаки (включая объединяющие диакритические знаки ).
Unicode также содержит множество предварительно составленных символов, так что во многих случаях можно использовать как комбинированные диакритические, так и предварительно составленные символы по выбору пользователя или приложения. Это приводит к требованию выполнить нормализацию Unicode перед сравнением двух строк Unicode и тщательно спроектировать конвертеры кодирования, чтобы правильно сопоставить все допустимые способы представления символа в Unicode с устаревшей кодировкой, чтобы избежать потери данных. 80>
В Юникоде основным блоком сочетания диакритических знаков для европейских языков и международного фонетического алфавита является U + 0300 – U + 036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Unicode. В Юникоде диакритические знаки всегда добавляются после главного символа (в отличие от некоторых более старых наборов комбинированных символов, таких как ANSEL ), и к одному и тому же символу можно добавить несколько диакритических знаков, включая сложенные диакритические знаки сверху и снизу., хотя некоторые системы могут плохо их отображать.
следующие блоки предназначены специально для объединения символов:
Объединение символов этими блоками не ограничивается; например, объединение дакутэн (U + 3099) и объединение хандакутэн (U + 309A) находятся в блоке хирагана, деванагари блок содержит комбинацию знаков гласных и других знаков для использования с этим скриптом и так далее. Комбинированным символам присваивается основная категория Unicode «M» («Метка»).
Объединение диакритических знаков. Таблица кодов официального консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U + 030x | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̅ | ◌̆ | ◌̇ | ◌̈ | ◌̉ | ◌̊ | ◌̋ | ◌̌ | ◌̏ | ||
U + 031x | ◌̐ | ◌̑ | ◌̓ | ◌̔ | ◌̘ | ◌̙ | ◌̚ | ◌̛ | ◌̝ | ◌̞ | ◌̟ | |||||
U + 032x | ◌̠ | ◌̡ | ◌̢ | ◌̣ | ◌̤ | ◌̥ | ◌̧ | ◌̨ | ◌̩ | ◌̪ | ◌̬ | ◌̮ | ◌̯ | |||
U + 033x | ◌̰ | ◌̱ | ◌̴ | ◌̵ | ◌̶ | ◌̸ | ◌̻ | ◌̼ | ◌̾ | ◌̿ | ||||||
U + 034x | ◌̀ | ◌́ | ◌͂ | ◌̓ | ◌ͅ | ◌͆ | ◌͈ | ◌͋ | CGJ | |||||||
U + 035x | ◌͐ | ◌͑ | ◌͒ | ◌͓ | ◌͔ | ◌͕ | ◌͖ | ◌͗ | ◌͛ | ◌͜ | ◌͝ | ◌͞ | ◌͟ | |||
U + 036x | ◌͡ | ◌͢ | ◌ͤ | ◌ͦ | ◌ͫ | ◌ͬ | ◌ͭ | |||||||||
Примечания
|
Кодовые точки U + 032A и U + 0346–034A являются символами IPA :
Кодовые точки U + 034B – 034E являются диакритическими знаками IPA для расстройства речи :
U + 034F представляет собой «объединяющий элемент графема » (CGJ) и не имеет видимого глифа.
Кодовые точки U + 035C – 0362 - это двойные диакритические знаки, диакритические знаки, расположенные между двумя буквами.
Кодовые точки U + 0363–036F - это средневековые диакритические знаки надстрочных букв, буквы, написанные непосредственно над другими буквами, появляющиеся в средневековых германских рукописях, но в некоторых случаях использовавшиеся вплоть до XIX века. Например, U + 0364 - это буква e, написанная над предыдущей буквой, которая должна использоваться для обозначения (Early ) New High German umlaut, например uͤ для Современный немецкий ü.
Расширенное объединение диакритических знаков. Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U + 1ABx | ◌᪰ | ◌᪱ | ◌ ᪲ | ◌᪳ | ◌᪴ | ◌᪵ | ◌᪶ | ◌᪷ | ◌᪸ | ◌᪹ | ◌᪺ | ◌᪻ | ◌᪼ | ◌᪽ | ◌᪾ | ◌ᪿ |
U + 1ACx | ◌ᫀ | |||||||||||||||
U + 1ADx | ||||||||||||||||
U + 1AEx | ||||||||||||||||
U + 1AFx | ||||||||||||||||
Примечания
|
Дополнение по объединению диакритических знаков. Таблица кодов официального консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U + 1DCx | ◌᷀ | ◌᷁ | ◌᷂ | ◌᷃ | ◌᷄ | ◌᷅ | ◌᷆ | ◌ ᷇ | ◌᷈ | ◌᷉ | ◌᷊ | ◌᷋ | ◌᷌ | ◌᷍ | ◌᷎ | ◌᷏ |
U + 1DDx | ◌᷐ | ◌᷑ | ◌᷒ | ◌ᷓ | ◌ᷔ | ◌ᷕ | ◌ᷖ | ◌ᷗ | ◌ᷘ | ◌ ᷙ | ◌ᷚ | ◌ᷛ | ◌ᷜ | ◌ᷝ | ◌ᷞ | ◌ᷟ |
U + 1DEx | ◌ᷠ | ◌ᷡ | ◌ᷢ | ◌ᷣ | ◌ᷤ | ◌ᷥ | ◌ᷦ | ◌ᷧ | ◌ᷨ | ◌ᷩ | ◌ᷪ | ◌ᷫ | ◌ᷬ | ◌ᷭ | ◌ᷮ | ◌ᷯ |
U + 1DFx | ◌ᷰ | ◌ᷱ | ◌ᷲ | ◌ᷳ | ◌ᷴ | ◌᷵ | ◌᷶ | ◌᷷ | ◌᷸ | ◌᷹ | ◌᷻ | ◌᷼ | ◌᷽ | ◌᷾ | ◌᷿ | |
Примечания
|
Объединение диакритических знаков для символов. Таблица кодов официального консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U + 20Dx | ◌⃐ | ◌⃑ | ◌⃒ | ◌⃓ | ◌⃔ | ◌⃕ | ◌⃖ | ◌⃗ | ◌⃘ | ◌⃙ | ◌⃚ | ◌⃛ | ◌⃜ | ◌⃝ | ◌⃞ | ◌⃟ |
U + 20Ex | ◌⃠ | ◌⃡ | ◌⃢ | ◌⃣ | ◌⃤ | ◌⃥ | ◌⃦ | ◌⃧ | ◌⃨ | ◌⃩ | ◌⃪ | ◌⃫ | ◌⃬ | ◌⃭ | ◌⃮ | ◌⃯ |
U + 20Fx | ◌⃰ | |||||||||||||||
Примечания
|
Объединение половинных знаков. Официальный Unicode Консорциум co из диаграммы (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U + FE2x | ◌︠ | ◌︡ | ◌︢ | ◌︣ | ◌︤ | ◌︥ | ◌︦ | ◌︧ | ◌︨ | ◌︩ | ◌︪ | ◌︫ | ◌︬ | ◌︭ | ◌︮ | ◌︯ |
Примечания
|
OpenType имеет ccmp «тег функции» для определения глифов, которые представляют собой композиции или декомпозиции, включающие комбинирование символов, тег mark для определения положения комбинируемых символов на базовом глифе и mkmk для позиционирования совмещения символов друг с другом.
Комбинирование символов использовалось для создания так называемого «текста Zalgo », который представляет собой текст, который выглядит «поврежденным» или «жутким» из-за чрезмерного использования диакритических знаков. Это приводит к удлинению текста по вертикали, перекрывая другой текст.