Китайский, японский и корейский (CJK ) скрипты имеют общий фон, вместе известный как символы CJK. В процессе, называемом объединением хань, общие (общие) символы были идентифицированы и названы CJK Unified Ideographs . Начиная с Unicode 13.0, Unicode определяет в общей сложности 92 856 CJK унифицированных иероглифов.
Термины «идеограммы» или «идеограммы» могут вводить в заблуждение, поскольку китайское письмо не является строго пиктографическим или идеографическим система.
Исторически Вьетнам также использовал китайские иероглифы, поэтому иногда используется аббревиатура «CJKV». Эта система была заменена основанной на латинице вьетнамским алфавитом в 1920-х годах.
Базовый блок с именем CJK Unified Идеограммы (4E00–9FFF) содержат 20 989 основных китайских иероглифов в диапазоне от U + 4E00 до U + 9FFC. Блок включает не только символы, используемые в китайской системе письма, но также и кандзи, используемые в японской системе письма и ханья, использование которых уменьшается в Корее. Многие символы в этом блоке используются во всех трех системах записи , тогда как другие используются только в одной или двух из трех. Китайские иероглифы также используются в сценарии Nôm Вьетнама (ныне устаревший). Первые 20 902 символа в блоке расположены в соответствии с порядком радикалов словаря Kangxi Dictionary. В этой системе сначала указываются символы, написанные наименьшим количеством штрихов. Остальные символы были добавлены позже, поэтому не в радикальном порядке.
Блок является результатом ханьского объединения, которое вызвало несколько споров в Восточной Азии. Поскольку китайские, японские и корейские символы были закодированы в одном месте, внешний вид выбранного глифа может зависеть от конкретного используемого шрифта. Однако правило разделения источников гласит, что символы, закодированные отдельно в более раннем наборе символов, останутся отдельными в новой кодировке Unicode.
Используя селекторы вариантов, можно указать определенные вариантные идеограммы CJK в Юникоде. Набор символов Adobe-Japan1 , который имеет 14 683 идеографических последовательностей вариантов, является крайним примером использования селекторов вариантов.
4E00-62FF, 6300-77FF, 7800-8CFF, 8D00-9FFF.
Примечание: Большинство символов появляется в нескольких источниках, что составляет сумму количества отдельных символов (102 437) намного больше, чем количество закодированных символов (20 989).
Страна или регион | Код | Стандарт | Количество символов | Всего |
---|---|---|---|---|
Китай | G0 | GB 2312-80 | 6,763 | 20,839 |
G1 | GB 12345-90 | 2202 | ||
G3 | GB 7589-87 традиционная форма | 4834 | ||
G5 | GB 7590-87 традиционная форма | 2,841 | ||
G7 | Общая таблица символов современного китайского (упрощенный китайский : 现代 汉语 通用 字 表) | 42 | ||
G8 | GB8565-88 | 199 | ||
GCE | Национальная академия исследований в области образования | 4 | ||
GE | GB16500-95 | 3,775 | ||
GFC | Современный китайский стандартный словарь (现代 汉语 规范 词典) | 2 | ||
GGFZ | Общий китайский стандартный Di ctionary (通用 规范 汉字 字典) | 1 | ||
GH | GB / T 15564-1995 | 59 | ||
GHZ | Hanyu Da Zidian | 1 | ||
GHZR | 汉语大字典 (第二 Версия ) | 1 | ||
GK | GB 12052-89 | 89 | ||
GKJ | Термины в области науки и технологий (科技 用 字), утвержденные Китайским национальным комитетом по терминологии в области науки и технологий (CNCTST) | 13 | ||
GKX | Словарь канси | 3 | ||
GLK | 龍 龕 手 鑑 | 1 | ||
GT | Стандартная телеграфная кодовая книга (пересмотренная), 1983 | 8 | ||
GZFY | Словарь китайских диалектов (汉语 方言 大 辞典) | 1 | ||
Гонконг | H | Дополнительный набор символов Гонконга, 2008 | 2292 | 15376 |
HB0 | Таблица сопоставления кодов символов и символов китайского языка, Технический отчет C-26. (電腦 用 中文 字型 與 字 碼 對照 表, 技術 通報 C-26) | 9 | ||
HB1 | Big-5, Уровень 1 | 5,401 | ||
HB2 | Big-5, уровень 2 | 7650 | ||
HD | Дополнительный набор символов Гонконга, 2016 | 24 | ||
Япония | J0 | JIS X 0208-1990 | 6,356 | 12,565 |
J1 | JIS X 0212-1990 | 3,058 | ||
J13 | JIS X 0213: 2004 уровень -3 символа заменяют символы J1 | 1,037 | ||
J13A | Добавление символов JIS X 0213: 2004 уровня 3 из JIS X 0213: 2000 уровень 3 заменяет символ J1 | 2 | ||
J14 | Символы JIS X 0213: 2004 уровня 4 заменяют символы J1 | 1,704 | ||
J3 | JIS X 0213: 2004 Уровень 3 | 95 | ||
J3A | JIS X 0213: 2004 Уровень 3, приложение | 7 | ||
J4 | Уровень JIS X 0213: 2004 4 | 301 | ||
JARIB | ARIB STD-B24 | 3 | ||
JMJ | Проект разработки и сопровождения информации о персонажах для электронного правительства «Проект MojiJoho-Kiban» (文字 情報 基 盤整 備事業) | 2 | ||
Северная Корея | KP0 | KPS 9566-97 | 4,652 | 15011 |
KP1 | KPS 10721-2000 | 10,359 | ||
Южная Корея | K0 | KS C 5601-87 (сейчас KS X 1001: 2004 ) | 4,620 | 15,434 |
K1 | KS C 5657-91 (сейчас KS X 1002: 2001 ) | 2,855 | ||
K2 | PKS C 5700-1: 1994 | 7,911 | ||
K3 | PKS C 5700-2: 1994 | 1 | ||
K4 | PKS 5700-3: 1998 | 4 | ||
K6 | KS X 1027-5: 2014 | 43 | ||
Тайвань | T1 | CNS 11643-1992 самолет 1 | 5,413 | 18,383 |
T2 | CNS 11643 -1992 самолет 2 | 7,650 | ||
T3 | CNS 11643-1992 самолет 3 | 4,144 | ||
T4 | CNS 11643- Самолет 1992 4 | 894 | ||
T5 | самолет CNS 11643-1992 5 | 64 | ||
T6 | самолет CNS 11643-1992 6 | 31 | ||
T7 | самолет CNS 11643-1992 7 | 16 | ||
TB | Плоскость CNS 11643-1992 11 | 2 | ||
TC | Плоскость CNS 11643-1992 12 | 2 | ||
TE | Плоскость CNS 11643-1992 14 | 9 | ||
TF | Плоскость CNS 11643-1992 15 | 158 | ||
Вьетнам | V0 | TCVN 5773-1993 | 593 | 4,762 |
V1 | TCVN 6056: 1995 | 3,310 | ||
V2 | VHN 01-1998 | 763 | ||
V3 | VHN 02-1998 | 91 | ||
V4 | Словарь по ному (Từ điển chữ Nôm). Словарь по этническому ному Tay (Từ điển chữ Nôm Tày). Поиск Таблица для Nom на юге (Bảng trachữ Nôm miền Nam) | 1 | ||
VU | Вьетнамские горизонтальные расширения | 4 | ||
нет данных | UTC | Источники UTC | 67 | 67 |
В Unicode 4.1, 14 HKSCS-2004 символов и 8 GB 18030 символов были назначены между кодовыми точками U + 9FA6 и U + 9FBB. С тех пор в этот блок по разным причинам были добавлены другие дополнения, все они описаны в разделе истории версий ниже.
Блок с именем CJK Unified Ideographs Extension A (3400–4DBF) содержит 6 592 дополнительных символа в диапазоне от U + 3400 до U + 4DBF.
Примечание: Большинство символов встречается более чем в одном источнике, поэтому сумма количества отдельных символов (18 804) намного больше, чем количество закодированные символы (6592).
Страна или регион | Код | Стандартный | Количество символов | Всего |
---|---|---|---|---|
Китай | G3 | GB 7589 -87 традиционная форма | 2,391 | 6,196 |
G5 | GB 7590-87 традиционная форма | 1,226 | ||
G7 | Современная китайская общая таблица символов | 120 | ||
GGFZ | Общий китайский стандартный словарь (通用 规范 汉字 字典) | 2 | ||
GHZ | Hanyu Da Zidian | 340 | ||
GKJ | Термины в науке и технологиях (科技 用 字) утверждено Китайским национальным комитетом по терминологии в науке и технологиях (CNCTST) | 2 | ||
GKX | Словарь Kangxi | 1889 | ||
GS | иероглифы сингапурского китайского языка | 226 | ||
Гонконг | H | Гонконгский дополнительный символ Набор, 2008 | 572 | 572 |
Япония | J3 | JIS X 0213: 2004 Уровень 3 | 2 | 738 |
J4 | Уровень JIS X 0213: 2004 4 | 78 | ||
JA | Японский I T Vendors Contemporary Ideographs, 1993 | 574 | ||
JA3 | JIS X 0213: 2004 символы уровня 3, заменяющие символы JA | 17 | ||
JA4 | JIS X 0213: 2004 символы уровня 4 заменяют символы JA | 67 | ||
Северная Корея | KP0 | KPS 9566-97 | 1 | 3,189 |
KP1 | KPS 10721-2000 | 3,188 | ||
Южная Корея | K3 | PKS C 5700-2: 1994 | 1,833 | 1,863 |
K4 | PKS 5700- 3: 1998 | 2 | ||
K6 | KS X 1027-5: 2014 | 28 | ||
Тайвань | T3 | CNS 11643-1992 самолет 3 | 2,179 | 5,916 |
T4 | Плоскость CNS 11643-1992 4 | 2,919 | ||
T5 | Плоскость CNS 11643-1992 5 | 399 | ||
T6 | Плоскость CNS 11643-1992 6 | 200 | ||
T7 | Самолет CNS 11643-1992 7 | 133 | ||
TE | самолет CNS 11643-1992 14 | 1 | ||
TF | самолет CNS 11643-1992 15 | 85 | ||
Соединенное Королевство | UK | IRG N2107R2 | 2 | 2 |
Вьетнам | V0 | TCVN 5773-1993 | 138 | 309 |
V2 | VHN 01-1998 | 151 | ||
V3 | VHN 02-1998 | 19 | ||
VU | Вьетнамские горизонтальные расширения | 1 | ||
нет | UTC | Источники UTC | 19 | 19 |
Блок с именем CJK Unified Ideographs Extension B (20000–2A6DF) содержит 42 718 символов в диапазоне от U + 20000 до U + 2A6DD. К ним относятся большинство символов, используемых в Словаре Kangxi, которых нет в базовом блоке CJK Unified Ideographs, а также многие символы Nôm, которые ранее использовались для написания вьетнамского языка.
20000-215FF, 21600-230FF, 23100-245FF, 24600-260FF, 26100-275FF, 27600-290FF, 29100-2A6DF.
Примечание: Многие символы появляются в более чем одном источнике, что составляет сумму отдельных символов подсчитывает (74037) намного больше, чем количество закодированных символов (42718).
Страна или регион | Код | Стандартный | Количество символов | Всего |
---|---|---|---|---|
Китай | G3 | GB 7589-87 традиционная форма | 1 | 30,488 |
G4K | Siku Quanshu | 477 | ||
GBK | Энциклопедия Китая | 86 | ||
GCH | Цихай | 247 | ||
GCY | Ciyuan | 66 | ||
GFZ | Основатель Press System | 65 | ||
GGFZ | Общие Китайский стандартный словарь (通用 规范 汉字 字典) | 5 | ||
GHC | Hanyu Da Cidian | 553 | ||
GHF | 漢文 佛典 疑難 俗字 彙 | 1 | ||
GHZ | Hanyu Da Zidian | 10,508 | ||
GHZR | 汉语大字典 (第二 大) | 1 | ||
GKJ | Термины в области науки и технологий (科技 用 字), утвержденные Национальным комитетом Китая по Термины в науках и те chnologies (CNCTST) | 7 | ||
GKX | Словарь Kangxi | 18,471 | ||
Гонконг | H | Дополнительный набор символов Гонконга, 2008 | 1,703 | 1,703 |
Япония | J3 | JIS X 0213: 2004 Уровень 3 | 25 | 303 |
J3A | JIS X 0213: 2004 Дополнение к Уровню 3 | 1 | ||
J4 | JIS X 0213: 2004 Уровень 4 | 277 | ||
Macau | MAC | Набор символов информационной системы Макао (澳門 資訊 系統 字 集) | 1 | 1 |
Северная Корея | KP1 | KPS 10721-2000 | 5766 | 5,766 |
Южная Корея | K1 | KS C 5657-91 (сейчас KS X 1002: 2001 ) | 1 | 247 |
K4 | PKS 5700-3: 1998 | 166 | ||
K6 | KS X 1027-5: 2014 | 80 | ||
Тайвань | T3 | CNS 11643-1992 самолет 3 | 25 | 30,190 |
T4 | CNS 11643- Самолет 1992 4 | 3,408 | ||
T5 | самолет CNS 11643-1992 5 | 8,111 | ||
T6 | самолет CNS 11643-1992 6 | 5,934 | ||
T7 | самолет CNS 11643-1992 7 | 6299 | ||
TA | 化學 命名 原則 (第四 Version) (Химическая номенклатура: 4-е издание) | 6 | ||
TB | Плоскость CNS 11643-1992 11 | 6 | ||
TF | Плоскость CNS 11643-1992 15 | 6 401 | ||
Соединенное Королевство | UK | IRG N2107R2 | 12 | 12 |
Вьетнам | V0 | TCVN 5773-1993 | 1515 | 5,260 |
V2 | VHN 01-1998 | 2,290 | ||
V3 | VHN 02-1998 | 425 | ||
V4 | Словарь по номеру (Từ điển chữ Nôm). Словарь по этническому ному тай (Từ điển chữ Nôm Tày). Справочная таблица по ному на юге (Bảng tra chữ Nôm miền Nam) | 1 | ||
VU | Вьетнамские горизонтальные расширения | 1,029 | ||
н / д | SAT | Текстовая база данных SAT Daizōkyō | 1 | 67 |
UTC | Источники UTC | 66 |
Блок с именем Расширение унифицированных иероглифов CJK C (2A700–2B73F) содержит 4 149 символов в диапазоне от U + 2A700 до U + 2B734, которые были добавлены в Unicode 5.2 (2009).
Примечание: Некоторые символы появляются более чем в одном источнике, в результате чего сумма подсчетов отдельных символов (4548) больше, чем количество закодированных символов (4149).
Страна или регион | Код | Стандарт | Количество символов | Всего |
---|---|---|---|---|
Китай | GBK | Энциклопедия Китая | 74 | 1,126 |
GCH | Cihai | 264 | ||
GCY | Ciyuan | 1 | ||
GCYY | Идеографы Китайской академии геодезии и картографии | 55 | ||
GFZ | Основатель Press System | 1 | ||
GGFZ | Общий китайский стандартный словарь (通用 规范 汉字 字典) | 2 | ||
GGH | Старый китайский словарь (古代汉语 词典) | 51 | ||
GHC | Hanyu Da Cidian | 14 | ||
GHZ | Hanyu Da Zidian | 1 | ||
GJZ | Commercial Press идеограммы | 61 | ||
GKJ | Термины в науке и технологиях (科技 用 字), утвержденные Китайским национальным комитетом по терминологии в науке и технологиях (CNCTST) | 4 | ||
GKX | Словарь Kangxi | 6 | ||
GXC | Xiandai Hanyu Cidian | 25 | ||
GZFY | Dict ionary китайских диалектов (汉语 方言 大 辞典) | 202 | ||
GZJW | Коллекции бронзовых надписей из Инь и Чжоу Династии. (殷 周金文 集成 引得) | 365 | ||
Гонконг | H | Гонконгский дополнительный набор символов, 2008 | 1 | 1 |
Япония | JK | Японский Кокудзи Коллекция | 367 | 367 |
Macau | MAC | Набор символов информационной системы Макао (澳門 資訊 系統 字 集) | 16 | 16 |
Северная Корея | KP1 | KPS 10721-2000 | 8 | 8 |
Южная Корея | K5 | Корейский IRG Набор символов ханджа | 404 | 405 |
K6 | KS X 1027-5: 2014 | 1 | ||
Тайвань | TC | CNS 11643-1992 самолет 12 | 634 | 1750 |
TD | CNS 11643-1992 самолет 13 | 766 | ||
TE | Самолет CNS 11643-1992 14 | 350 | ||
Соединенное Королевство | UK | IRG N2107R2 | 1 | 1 |
Вьетнам | V1 | TCVN 6056: 1995 | 1 | 787 |
V4 | Словарь по ному (Từ điển chữ Nôm). Словарь по ному этнического Tay (Từ điển chữ Nôm Tày). Таблица поиска по ному на юге (Bảng tra chữ Nôm miền Nam) | 784 | ||
VU | Вьетнамские горизонтальные пристройки | 2 | ||
н / д | UTC | источники UTC | 87 | 87 |
Блок с именем CJK Unified Ideographs Extension D (2B740–2B81F) содержит 222 символа в диапазоне от U + 2B740 до U + 2B81D, которые были добавлены в Unicode 6.0 (2010).
Примечание: Некоторые символы появляются более чем в одном источнике, что делает сумму количества отдельных символов (227) больше, чем количество закодированных символов (222).
Страна или регион | Код | Стандарт | Количество символов | Всего |
---|---|---|---|---|
Китай | GCH | Cihai | 1 | 76 |
GIDC | Система идентификации Министерства общественной безопасности Китая | 32 | ||
GXC | Xiandai Hanyu Cidian | 4 | ||
GZH | Чжунхуа Цзихай | 39 | ||
Япония | JH | Программа Ханьо-Дэнси (汎 用 電子 情報 交換 環境 整 プ ム) | 107 | 107 |
Тайвань | TB | CNS 11643- 1992 самолет 11 | 24 | 24 |
н / д | UTC | источники UTC | 20 | 20 |
Блок с именем CJK Расширение унифицированных иероглифов E (2B820–2CEAF) содержит 5762 символа в диапазоне от U + 2B820 до U + 2CEA1, которые были добавлены в Unicode 8.0 (2015).
Примечание: Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (5 812) больше, чем количество закодированных символов (5762).
Страна или регион | Код | Стандарт | Количество символов | Всего | |
---|---|---|---|---|---|
Китай | GBK | Энциклопедия Китая | 15 | 2,820 | |
GCH | Cihai | 112 | |||
GCY | Ciyuan | 3 | |||
GCYY | Идеографы Китайской академии геодезии и картографии | 98 | |||
GDZ | Идеографы Geology Press | 1 | |||
GGFZ | Общий китайский стандартный словарь (通用 规范 汉字 字典) | 4 | |||
GGH | Старый китайский словарь (古代汉语 词典) | 175 | |||
GHC | Hanyu Da Cidian | 7 | |||
GIDC | Система идентификации Министерства общественной безопасности Китая | 36 | |||
GJZ | Commercial Press иероглифы | 147 | |||
GKJ | Термины в области науки и технологий (科技 用 字), утвержденные Китайским национальным комитетом по терминологии в области науки и технологий ( CNCTST) | 2 | |||
GKX | Словарь Kangxi | 22 | |||
GRM | People's Daily иероглифы | 3 | |||
GWZ | Ханью Да Цидиан Пресса иероглифы | 12 | |||
GXC | Сяндай Ханью Цидиан | 57 | |||
GXH | Xinhua Zidian | 4 | |||
GZFY | Hanyu Fangyan Dacidian (汉语 方言 大 辞典, Словарь китайских диалектов) | 712 | |||
GZJW | Коллекции Бронзовые надписи из Инь и Чжоу династий. (殷 周金文 集成 引得) | 1,410 | |||
Япония | JK | Японский Кокудзи Коллекция | 415 | 415 | |
Макао | MAC | Набор символов информационной системы Макао (澳門 資訊 系統 字 集) | 48 | 48 | |
Тайвань | T3 | CNS 11643-1992 самолет 3 | 2 | 1,260 | |
TB | CNS 11643-1992 самолет 11 | 1 | |||
TC | CNS 11643-1992 самолет 12 | 323 | |||
TD | CNS 11643 -1992 самолет 13 | 595 | |||
TE | CNS 11643-1992 самолет 14 | 339 | |||
Соединенное Королевство | UK | IRG N2107R2 | 2 | 2 | |
Вьетнам | V4 | Словарь по номеру (Từ điển chữ Nôm). Словарь по этническому ному тай (Từ điển chữ Nôm Tày). Справочная таблица для нома на юге (Bảng tra chữ Nôm miền Nam) | 1,027 | 1,031 | |
VU | Вьетн amese горизонтальные расширения | 4 | |||
н / д | UCI | источники UTC | 236 | 236 |
Блок с именем CJK Unified Ideographs Extension F (2CEB0–2EBEF) содержит 7 473 символа в диапазоне от U + 2CEB0 до 2EBE0, которые были добавлены в Unicode 10.0 (2017). Он включает более 1000 символов Sawndip для Zhuang.
Примечание: Некоторые символы появляются в нескольких источниках, что делает сумма количества отдельных символов (7,733) больше, чем количество закодированных символов (7,473).
Страна или регион | Код | Стандарт | Количество символов | Всего |
---|---|---|---|---|
Китай | GCY | Ciyuan | 122 | 1,304 |
GFC | Современный китайский стандартный словарь (现代 汉语 规范 词典) | 27 | ||
GIDC | Система идентификации Министерства общественной безопасности Китая | 1 | ||
GLGYJ | Исследование песен Чжуан Ляо (壮族 嘹 歌 研究) | 1 | ||
GOCD | Оксфордский англо-китайский китайско-английский словарь (牛津 英汉 汉英 词典) | 2 | ||
GPGLG | Серия о культуре народной песни Чжуан - Песни Ляо округа Пинго (壮族 民歌 文化 丛书 ・ 平 果 嘹 歌) | 70 | ||
GXHZ | Большой словарь Синьхуа (新华 大 字典) | 51 | ||
GZ | Словарь древних символов Чжуан (古 壮 字 字典) | 995 | ||
GZJW | Коллекции бронзовых надписей из Инь и Чжоу Династии. (殷 周金文 集成 引得) | 33 | ||
GZYS | Исследование древних этнических персонажей Китая (中国 民族 古 文字 研究) | 2 | ||
Япония | JMJ | Проект разработки и сопровождения информации о персонажах для электронного правительства «Проект MojiJoho-Kiban» (文字 情報 基 盤整 備 事業) | 1,645 | 1,645 |
Южная Корея | KC | История Кореи в Интернете (한국 역사 정보 통합 시스템) | 1,793 | 1,793 |
Макао | MAC | Набор символов информационной системы Макао (澳門 資訊 系統字 集) | 22 | 22 |
Тайвань | T3 | CNS 11643-1992 самолет 3 | 1 | 3 |
T6 | CNS 11643-1992 самолет 6 | 1 | ||
TC | CNS 11643-1992 самолет 12 | 1 | ||
Соединенное Королевство | UK | IRG N2107R2 | 2 | 2 |
Вьетнам | VU | Вьетнамские горизонтальные расширения | 1 | 1 |
н / д | SAT | Текстовая база данных SAT Daizōkyō | 2,884 | 2,963 |
UTC | Источники UTC | 79 |
Блок с именем CJK Unified Ideographs Extension G был добавлен как часть Unicode 13.0 в Tertiary Ideograph Плоскость в диапазоне от U + 30000 до U + 3134F, содержащая 4939 символов.
Примечание: Некоторые символы появляются в нескольких источниках, в результате чего сумма количества отдельных символов (4997) больше, чем количество закодированных символов (4939).
Страна или регион | Код | Стандарт | Количество символов | Всего |
---|---|---|---|---|
Китай | GHZR | 汉语大字典 (第二 大) | 878 | 2,082 |
GPGLG | Серия о культуре народной песни Чжуан - Песни Ляо округа Пинго (壮族 民歌 文化 丛书 ・ 平 果嘹 歌) | 13 | ||
GZ | Словарь древних символов Чжуан (古 壮 字 字典) | 1,191 | ||
Южная Корея | KC | История Кореи в Интернете (한국 역사 정보 통합 시스템) | 428 | 428 |
Тайвань | T13 | TCA-CNS 11643 19-й самолет (ожидается новая версия) | 347 | 353 |
TB | Самолет CNS 11643-1992 11 | 3 | ||
TC | Самолет CNS 11643-1992 12 | 2 | ||
TD | Самолет CNS 11643-1992 13 | 1 | ||
Соединенное Королевство | UK | IRG N2107R2 | 1,566 | 1,566 |
n/a | SAT | SAT Daizōkyō Text Database | 329 | 568 |
UTC | Источники UTC | 239 |
Блок с именем CJK Compatibility Ideographs (F900 – FAFF) был создан для сохранения двусторонней совместимости с другими стандартами. Только двенадцать его персонажей обладают свойством «Единая идеограмма»: U + FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29. Ни один из других символов в этом и других блоках «Совместимости» не имеет отношения к CJK Unification.
Примечание: Некоторые символы появляются более чем в одном источнике, что делает сумму количества отдельных символов (22) больше, чем количество закодированных Унифицированные символы (12).
Страна или регион | Код | Стандарт | Количество символов | Всего |
---|---|---|---|---|
Япония | J3 | JIS X 0213: 2004 Уровень 3 | 3 | 8 |
J4 | JIS X 0213: 2004 Уровень 4 | 3 | ||
JA | Современные иероглифы японских поставщиков ИТ, 1993 | 1 | ||
JA3 | JIS X 0213: 2004 символы уровня 3 заменяют символы JA | 1 | ||
Тайвань | TF | CNS 11643-1992 самолет 15 | 1 | 1 |
Вьетнам | V2 | VHN 01-1998 | 1 | 1 |
н / д | UTC | Источники UTC | 12 | 12 |
Группа идеографических исследований (IRG) несет формальную ответственность за разработку расширений для закодированных репертуаров унифицированных идеографов CJK. Консорциум Unicode участвует в этой группе как представитель ISO. Символы, представленные Техническим комитетом Unicode, имеют префикс «UTC». Все унифицированные иероглифы CJK в ISO / IEC10646 должны иметь хотя бы один идентификатор источника. Однако изменения в информации об источнике IRG могут оставить данную идеограмму без каких-либо таких источников. В таких случаях идеограмма включается в базу данных U-источника, чтобы гарантировать наличие хотя бы одного источника. Такие идеограммы обозначаются префиксом источника «UCI» вместо «UTC».
Источники UTC состоят из следующего:
Символ U + 4039 (䀹) представлял собой объединение двух разных символов (одного с jiā 夾 фонетическим, а другого с shǎn 㚒 фонетическим) до Unicode 5.0. Однако это были лексически разные символы, которые не следовало объединять; у них разное произношение и разное значение.
Предложение о разъединении U + 4039 было принято, и новый символ закодирован в U + 9FC3 (鿃) в Unicode 5.1.
В расширении B унифицированных иероглифов CJK некоторые символы неправильно объединены с другими. Эти символы включают U + 2017B (𠅻), U + 204AF (𠒯) и U + 24CB2 (𤲲). Первые два символа содержат неправильное объединение материкового Китая и вьетнамского источника их символа, в то время как последний объединяет материковый Китай и Тайвань.
Также в CJK Unified Ideographs Extension B были закодированы сотни вариантов глифов. В дополнение к преднамеренному кодированию близких вариантов глифов, шесть точных дубликатов (где один и тот же символ был случайно закодирован дважды) и два полудупликата (где символ CJK-B представляет собой де-факто разъединение двух форм глифов, объединенных в соответствующие BMP) были закодированы по ошибке:
Помимо восьми блоков «Unified Ideographs», Unicode имеет еще около дюжины блоков с неунифицированными CJK-символами. В основном это радикалы CJK, штрихи, знаки препинания, знаки, символы и совместимые символы. Хотя некоторые символы имеют свои (разлагаемые) аналоги в других блоках, их использование может быть другим.
Четыре блока символов совместимости включены для совместимости с устаревшими системами обработки текста и более старыми наборами символов:
Они включают формы символов для вертикального расположения текста и символы форматированного текста, которые рекомендует Unicode обработка другими способами. Поэтому их использование не рекомендуется.
Обычно символы совместимости - это символы, которые не кодировались бы, за исключением совместимости и возможности двустороннего преобразования с другими стандартами. Однако количество идеографов CJK в любом стандарте, отличном от Unicode, слишком велико, чтобы поместиться в блоки Unicode CJK Compatibility Ideographs. Вместо этого кодовые точки назначаются, когда затронутые символы одобрены Консорциумом Unicode, но еще не назначены какие-либо кодовые точки в блоках CJK Unified Ideographs.
Блоки CJK Unified Ideographs и CJK Unified Ideographs Extension A, являющиеся частями Basic Multilingual Plane, поддерживаются большинством Шрифты CJK. Однако японские и корейские шрифты обычно содержат меньше символов (около 13 000 и 8 000 соответственно), чем китайские. Расширения B, C, D поддерживаются дополнительными шрифтами MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB, SimSun-ExtB, включенными в Microsoft Windows с Vista.
Версия Unicode | Дополнение | Плоскость | Добавлены символы | Всего символов |
---|---|---|---|---|
1.0 (1991) | Унифицированные идеограммы CJK | Базовая многоязычная плоскость (BMP) | 20,902 | 20,914 |
Идеограммы совместимости CJK | BMP | 12 | ||
3.0 (1999) | CJK Unified Ideographs Extension A | BMP | 6,582 | 27,496 |
3,1 (2001) | Расширение B унифицированных иероглифов CJK | Дополнительная идеографическая плоскость (SIP) | 42,711 | 70,207 |
4.1 (2005) | Унифицированные иероглифы CJK: идеограммы из HKSCS-2004 и GB 18030-2000 не в ISO 10646 | BMP | 22 | 70,229 |
5.1 (2008) | CJK Единые идеограммы: идеограммы от Adobe Japan и разделение U + 4039 | BMP | 8 | 70,237 |
5.2 (2009) | CJK Unified Ideographs Extension C | SIP | 4,149 | 74,394 |
8 других символов из ARIB # 47, # 95, # 93 и HKSCS | BMP | 8 | ||
6.0 (2010) | CJK Unified Ideographs Extension D | SIP | 222 | 74,616 |
6.1 (2012) | 1 символ, соответствующий Adobe-Japan 1-6 CID + 20156 | BMP | 1 | 74,617 |
8.0 (2015) | CJK Unified Ideographs Extension E | SIP | 5,762 | 80,388 |
9 других символов | BMP | 9 | ||
10.0 (2017) | Расширение унифицированных иероглифов CJK F | SIP | 7,473 | 87,882 |
21 другой символ | BMP | 21 | ||
11.0 (2018) | CJK Unified Ideographs | BMP | 5 | 87,887 |
13.0 (2020) | CJK Унифицированные иероглифы | BMP | 13 | 92,856 |
CJK Unified Ideographs Extension A | BMP | 10 | ||
CJK Unified Ideographs Extension B | BMP | 7 | ||
Расширение унифицированных иероглифов CJK G | Третичная идеографическая плоскость (TIP) | 4,939 |