Унифицированные иероглифы CJK

редактировать
Идеограмма CJKV в традиционном и упрощенном китайском, Корейский, вьетнамский и японский

Китайский, японский и корейский (CJK ) скрипты имеют общий фон, вместе известный как символы CJK. В процессе, называемом объединением хань, общие (общие) символы были идентифицированы и названы CJK Unified Ideographs . Начиная с Unicode 13.0, Unicode определяет в общей сложности 92 856 CJK унифицированных иероглифов.

Термины «идеограммы» или «идеограммы» могут вводить в заблуждение, поскольку китайское письмо не является строго пиктографическим или идеографическим система.

Исторически Вьетнам также использовал китайские иероглифы, поэтому иногда используется аббревиатура «CJKV». Эта система была заменена основанной на латинице вьетнамским алфавитом в 1920-х годах.

Содержание
  • 1 Блоки унифицированных иероглифов CJK
    • 1.1 Единые иероглифы CJK
      • 1.1.1 Диаграммы
      • 1.1.2 Источники
    • 1.2 Расширение унифицированных иероглифов CJK A
      • 1.2.1 Диаграммы
      • 1.2.2 Источники
    • 1.3 CJK Unified Ideographs Extension B
      • 1.3.1 Charts
      • 1.3.2 Sources
    • 1.4 CJK Unified Ideographs Extension C
      • 1.4.1 Charts
      • 1.4. 2 Источники
    • 1.5 CJK Unified Ideographs Extension D
      • 1.5.1 Charts
      • 1.5.2 Sources
    • 1.6 CJK Unified Ideographs Extension E
      • 1.6.1 Charts
      • 1.6.2 Sources
    • 1,7 CJK Unified Ideographs Extension F
      • 1.7.1 Charts
      • 1.7.2 Sources
    • 1.8 CJK Unified Ideographs Extension G
      • 1.8.1 Charts
      • 1.8.2 Sources
    • 1.9 CJK Compatibility Идеограммы
      • 1.9.1 Диаграммы
      • 1.9.2 Источники
    • 1.10 Источники UTC
  • 2 Известные проблемы
    • 2.1 Разъединение
      • 2.1.1 U + 4039
      • 2.1.2 Остальные 3 символа в расширении B
    • 2.2 Унифицированные варианты и точные дубликаты в расширении B
  • 3 Другие идеограммы CJK в Unicode, не Unified
  • 4 Поддержка шрифтов
  • 5 Unicode история версий
  • 6 См. также
  • 7 Примечания
  • 8 Внешние ссылки
Блоки унифицированных идеографов CJK

Объединенные иероглифы CJK

Базовый блок с именем CJK Unified Идеограммы (4E00–9FFF) содержат 20 989 основных китайских иероглифов в диапазоне от U + 4E00 до U + 9FFC. Блок включает не только символы, используемые в китайской системе письма, но также и кандзи, используемые в японской системе письма и ханья, использование которых уменьшается в Корее. Многие символы в этом блоке используются во всех трех системах записи , тогда как другие используются только в одной или двух из трех. Китайские иероглифы также используются в сценарии Nôm Вьетнама (ныне устаревший). Первые 20 902 символа в блоке расположены в соответствии с порядком радикалов словаря Kangxi Dictionary. В этой системе сначала указываются символы, написанные наименьшим количеством штрихов. Остальные символы были добавлены позже, поэтому не в радикальном порядке.

Блок является результатом ханьского объединения, которое вызвало несколько споров в Восточной Азии. Поскольку китайские, японские и корейские символы были закодированы в одном месте, внешний вид выбранного глифа может зависеть от конкретного используемого шрифта. Однако правило разделения источников гласит, что символы, закодированные отдельно в более раннем наборе символов, останутся отдельными в новой кодировке Unicode.

Используя селекторы вариантов, можно указать определенные вариантные идеограммы CJK в Юникоде. Набор символов Adobe-Japan1 , который имеет 14 683 идеографических последовательностей вариантов, является крайним примером использования селекторов вариантов.

Charts

4E00-62FF, 6300-77FF, 7800-8CFF, 8D00-9FFF.

Источники

Примечание: Большинство символов появляется в нескольких источниках, что составляет сумму количества отдельных символов (102 437) намного больше, чем количество закодированных символов (20 989).

Страна или регионКодСтандартКоличество символовВсего
Китай G0GB 2312-80 6,76320,839
G1GB 12345-902202
G3GB 7589-87 традиционная форма4834
G5GB 7590-87 традиционная форма2,841
G7Общая таблица символов современного китайского (упрощенный китайский : 现代 汉语 通用 字 表)42
G8GB8565-88199
GCEНациональная академия исследований в области образования 4
GEGB16500-953,775
GFCСовременный китайский стандартный словарь (现代 汉语 规范 词典)2
GGFZОбщий китайский стандартный Di ctionary (通用 规范 汉字 字典)1
GHGB / T 15564-199559
GHZHanyu Da Zidian 1
GHZR汉语大字典 (第二 Версия )1
GKGB 12052-8989
GKJТермины в области науки и технологий (科技 用 字), утвержденные Китайским национальным комитетом по терминологии в области науки и технологий (CNCTST)13
GKXСловарь канси 3
GLK龍 龕 手 鑑1
GTСтандартная телеграфная кодовая книга (пересмотренная), 19838
GZFYСловарь китайских диалектов (汉语 方言 大 辞典)1
Гонконг HДополнительный набор символов Гонконга, 2008229215376
HB0Таблица сопоставления кодов символов и символов китайского языка, Технический отчет C-26. (電腦 用 中文 字型 與 字 碼 對照 表, 技術 通報 C-26)9
HB1Big-5, Уровень 15,401
HB2Big-5, уровень 27650
HDДополнительный набор символов Гонконга, 201624
Япония J0JIS X 0208-1990 6,35612,565
J1JIS X 0212-1990 3,058
J13JIS X 0213: 2004 уровень -3 символа заменяют символы J11,037
J13AДобавление символов JIS X 0213: 2004 уровня 3 из JIS X 0213: 2000 уровень 3 заменяет символ J12
J14Символы JIS X 0213: 2004 уровня 4 заменяют символы J11,704
J3JIS X 0213: 2004 Уровень 395
J3AJIS X 0213: 2004 Уровень 3, приложение7
J4Уровень JIS X 0213: 2004 4301
JARIBARIB STD-B24 3
JMJПроект разработки и сопровождения информации о персонажах для электронного правительства «Проект MojiJoho-Kiban» (文字 情報 基 盤整 備事業)2
Северная Корея KP0KPS 9566-974,65215011
KP1KPS 10721-200010,359
Южная Корея K0KS C 5601-87 (сейчас KS X 1001: 2004 )4,62015,434
K1KS C 5657-91 (сейчас KS X 1002: 2001 )2,855
K2PKS C 5700-1: 19947,911
K3PKS C 5700-2: 19941
K4PKS 5700-3: 19984
K6KS X 1027-5: 201443
Тайвань T1CNS 11643-1992 самолет 15,41318,383
T2CNS 11643 -1992 самолет 27,650
T3CNS 11643-1992 самолет 34,144
T4CNS 11643- Самолет 1992 4894
T5самолет CNS 11643-1992 564
T6самолет CNS 11643-1992 631
T7самолет CNS 11643-1992 716
TBПлоскость CNS 11643-1992 112
TCПлоскость CNS 11643-1992 122
TEПлоскость CNS 11643-1992 149
TFПлоскость CNS 11643-1992 15158
Вьетнам V0TCVN 5773-19935934,762
V1TCVN 6056: 19953,310
V2VHN 01-1998763
V3VHN 02-199891
V4Словарь по ному (Từ điển chữ Nôm). Словарь по этническому ному Tay (Từ điển chữ Nôm Tày). Поиск Таблица для Nom на юге (Bảng trachữ Nôm miền Nam)1
VUВьетнамские горизонтальные расширения4
нет данныхUTCИсточники UTC6767

В Unicode 4.1, 14 HKSCS-2004 символов и 8 GB 18030 символов были назначены между кодовыми точками U + 9FA6 и U + 9FBB. С тех пор в этот блок по разным причинам были добавлены другие дополнения, все они описаны в разделе истории версий ниже.

CJK Unified Ideographs Extension A

Блок с именем CJK Unified Ideographs Extension A (3400–4DBF) содержит 6 592 дополнительных символа в диапазоне от U + 3400 до U + 4DBF.

Диаграммы

3400-4DBF.

Источники

Примечание: Большинство символов встречается более чем в одном источнике, поэтому сумма количества отдельных символов (18 804) намного больше, чем количество закодированные символы (6592).

Страна или регионКодСтандартныйКоличество символовВсего
КитайG3GB 7589 -87 традиционная форма2,3916,196
G5GB 7590-87 традиционная форма1,226
G7Современная китайская общая таблица символов 120
GGFZОбщий китайский стандартный словарь (通用 规范 汉字 字典)2
GHZHanyu Da Zidian 340
GKJТермины в науке и технологиях (科技 用 字) утверждено Китайским национальным комитетом по терминологии в науке и технологиях (CNCTST)2
GKXСловарь Kangxi 1889
GSиероглифы сингапурского китайского языка 226
Гонконг HГонконгский дополнительный символ Набор, 2008572572
ЯпонияJ3JIS X 0213: 2004 Уровень 32738
J4Уровень JIS X 0213: 2004 478
JAЯпонский I T Vendors Contemporary Ideographs, 1993574
JA3JIS X 0213: 2004 символы уровня 3, заменяющие символы JA17
JA4JIS X 0213: 2004 символы уровня 4 заменяют символы JA67
Северная КореяKP0KPS 9566-9713,189
KP1KPS 10721-20003,188
Южная КореяK3PKS C 5700-2: 19941,8331,863
K4PKS 5700- 3: 19982
K6KS X 1027-5: 201428
Тайвань T3CNS 11643-1992 самолет 32,1795,916
T4Плоскость CNS 11643-1992 42,919
T5Плоскость CNS 11643-1992 5399
T6Плоскость CNS 11643-1992 6200
T7Самолет CNS 11643-1992 7133
TEсамолет CNS 11643-1992 141
TFсамолет CNS 11643-1992 1585
Соединенное Королевство UKIRG N2107R222
ВьетнамV0TCVN 5773-1993138309
V2VHN 01-1998151
V3VHN 02-199819
VUВьетнамские горизонтальные расширения1
нетUTCИсточники UTC1919

CJK Unified Ideographs Extension B

Блок с именем CJK Unified Ideographs Extension B (20000–2A6DF) содержит 42 718 символов в диапазоне от U + 20000 до U + 2A6DD. К ним относятся большинство символов, используемых в Словаре Kangxi, которых нет в базовом блоке CJK Unified Ideographs, а также многие символы Nôm, которые ранее использовались для написания вьетнамского языка.

Диаграммы

20000-215FF, 21600-230FF, 23100-245FF, 24600-260FF, 26100-275FF, 27600-290FF, 29100-2A6DF.

Источники

Примечание: Многие символы появляются в более чем одном источнике, что составляет сумму отдельных символов подсчитывает (74037) намного больше, чем количество закодированных символов (42718).

Страна или регионКодСтандартныйКоличество символовВсего
КитайG3GB 7589-87 традиционная форма130,488
G4KSiku Quanshu 477
GBKЭнциклопедия Китая 86
GCHЦихай 247
GCYCiyuan 66
GFZОснователь Press System65
GGFZОбщие Китайский стандартный словарь (通用 规范 汉字 字典)5
GHCHanyu Da Cidian 553
GHF漢文 佛典 疑難 俗字 彙1
GHZHanyu Da Zidian 10,508
GHZR汉语大字典 (第二 大)1
GKJТермины в области науки и технологий (科技 用 字), утвержденные Национальным комитетом Китая по Термины в науках и те chnologies (CNCTST)7
GKXСловарь Kangxi 18,471
Гонконг HДополнительный набор символов Гонконга, 20081,7031,703
ЯпонияJ3JIS X 0213: 2004 Уровень 325303
J3AJIS X 0213: 2004 Дополнение к Уровню 31
J4JIS X 0213: 2004 Уровень 4277
MacauMACНабор символов информационной системы Макао (澳門 資訊 系統 字 集)11
Северная КореяKP1KPS 10721-200057665,766
Южная КореяK1KS C 5657-91 (сейчас KS X 1002: 2001 )1247
K4PKS 5700-3: 1998166
K6KS X 1027-5: 201480
Тайвань T3CNS 11643-1992 самолет 32530,190
T4CNS 11643- Самолет 1992 43,408
T5самолет CNS 11643-1992 58,111
T6самолет CNS 11643-1992 65,934
T7самолет CNS 11643-1992 76299
TA化學 命名 原則 (第四 Version) (Химическая номенклатура: 4-е издание)6
TBПлоскость CNS 11643-1992 116
TFПлоскость CNS 11643-1992 156 401
Соединенное КоролевствоUKIRG N2107R21212
ВьетнамV0TCVN 5773-199315155,260
V2VHN 01-19982,290
V3VHN 02-1998425
V4Словарь по номеру (Từ điển chữ Nôm). Словарь по этническому ному тай (Từ điển chữ Nôm Tày). Справочная таблица по ному на юге (Bảng tra chữ Nôm miền Nam)1
VUВьетнамские горизонтальные расширения1,029
н / дSATТекстовая база данных SAT Daizōkyō167
UTCИсточники UTC66

CJK Unified Ideographs Extension C

Блок с именем Расширение унифицированных иероглифов CJK C (2A700–2B73F) содержит 4 149 символов в диапазоне от U + 2A700 до U + 2B734, которые были добавлены в Unicode 5.2 (2009).

Диаграммы

2A700-2B73F.

Источники

Примечание: Некоторые символы появляются более чем в одном источнике, в результате чего сумма подсчетов отдельных символов (4548) больше, чем количество закодированных символов (4149).

Страна или регионКодСтандартКоличество символовВсего
КитайGBKЭнциклопедия Китая 741,126
GCHCihai 264
GCYCiyuan 1
GCYYИдеографы Китайской академии геодезии и картографии55
GFZОснователь Press System1
GGFZОбщий китайский стандартный словарь (通用 规范 汉字 字典)2
GGHСтарый китайский словарь (古代汉语 词典)51
GHCHanyu Da Cidian 14
GHZHanyu Da Zidian 1
GJZCommercial Press идеограммы61
GKJТермины в науке и технологиях (科技 用 字), утвержденные Китайским национальным комитетом по терминологии в науке и технологиях (CNCTST)4
GKXСловарь Kangxi 6
GXCXiandai Hanyu Cidian 25
GZFYDict ionary китайских диалектов (汉语 方言 大 辞典)202
GZJWКоллекции бронзовых надписей из Инь и Чжоу Династии. (殷 周金文 集成 引得)365
Гонконг HГонконгский дополнительный набор символов, 200811
ЯпонияJKЯпонский Кокудзи Коллекция367367
MacauMACНабор символов информационной системы Макао (澳門 資訊 系統 字 集)1616
Северная КореяKP1KPS 10721-200088
Южная КореяK5Корейский IRG Набор символов ханджа404405
K6KS X 1027-5: 20141
Тайвань TCCNS 11643-1992 самолет 126341750
TDCNS 11643-1992 самолет 13766
TEСамолет CNS 11643-1992 14350
Соединенное КоролевствоUKIRG N2107R211
ВьетнамV1TCVN 6056: 19951787
V4Словарь по ному (Từ điển chữ Nôm). Словарь по ному этнического Tay (Từ điển chữ Nôm Tày). Таблица поиска по ному на юге (Bảng tra chữ Nôm miền Nam)784
VUВьетнамские горизонтальные пристройки2
н / дUTCисточники UTC8787

CJK Unified Ideographs Extension D

Блок с именем CJK Unified Ideographs Extension D (2B740–2B81F) содержит 222 символа в диапазоне от U + 2B740 до U + 2B81D, которые были добавлены в Unicode 6.0 (2010).

Диаграммы

2B740–2B81F.

Источники

Примечание: Некоторые символы появляются более чем в одном источнике, что делает сумму количества отдельных символов (227) больше, чем количество закодированных символов (222).

Страна или регионКодСтандартКоличество символовВсего
КитайGCHCihai 176
GIDCСистема идентификации Министерства общественной безопасности Китая32
GXCXiandai Hanyu Cidian 4
GZHЧжунхуа Цзихай 39
ЯпонияJHПрограмма Ханьо-Дэнси (汎 用 電子 情報 交換 環境 整 プ ム)107107
Тайвань TBCNS 11643- 1992 самолет 112424
н / дUTCисточники UTC2020

CJK Unified Ideographs Extension E

Блок с именем CJK Расширение унифицированных иероглифов E (2B820–2CEAF) содержит 5762 символа в диапазоне от U + 2B820 до U + 2CEA1, которые были добавлены в Unicode 8.0 (2015).

Диаграммы

2B820–2CEAF.

Источники

Примечание: Некоторые символы появляются более чем в одном источнике, в результате чего сумма количества отдельных символов (5 812) больше, чем количество закодированных символов (5762).

Страна или регионКодСтандартКоличество символовВсего
КитайGBKЭнциклопедия Китая 152,820
GCHCihai 112
GCYCiyuan 3
GCYYИдеографы Китайской академии геодезии и картографии98
GDZИдеографы Geology Press1
GGFZОбщий китайский стандартный словарь (通用 规范 汉字 字典)4
GGHСтарый китайский словарь (古代汉语 词典)175
GHCHanyu Da Cidian 7
GIDCСистема идентификации Министерства общественной безопасности Китая36
GJZCommercial Press иероглифы147
GKJТермины в области науки и технологий (科技 用 字), утвержденные Китайским национальным комитетом по терминологии в области науки и технологий ( CNCTST)2
GKXСловарь Kangxi 22
GRMPeople's Daily иероглифы3
GWZХанью Да Цидиан Пресса иероглифы12
GXCСяндай Ханью Цидиан 57
GXHXinhua Zidian 4
GZFYHanyu Fangyan Dacidian (汉语 方言 大 辞典, Словарь китайских диалектов)712
GZJWКоллекции Бронзовые надписи из Инь и Чжоу династий. (殷 周金文 集成 引得)1,410
ЯпонияJKЯпонский Кокудзи Коллекция415415
МакаоMACНабор символов информационной системы Макао (澳門 資訊 系統 字 集)4848
Тайвань T3CNS 11643-1992 самолет 321,260
TBCNS 11643-1992 самолет 111
TCCNS 11643-1992 самолет 12323
TDCNS 11643 -1992 самолет 13595
TECNS 11643-1992 самолет 14339
Соединенное КоролевствоUKIRG N2107R222
ВьетнамV4Словарь по номеру (Từ điển chữ Nôm). Словарь по этническому ному тай (Từ điển chữ Nôm Tày). Справочная таблица для нома на юге (Bảng tra chữ Nôm miền Nam)1,0271,031
VUВьетн amese горизонтальные расширения4
н / дUCIисточники UTC236236

CJK Unified Ideographs Extension F

Блок с именем CJK Unified Ideographs Extension F (2CEB0–2EBEF) содержит 7 473 символа в диапазоне от U + 2CEB0 до 2EBE0, которые были добавлены в Unicode 10.0 (2017). Он включает более 1000 символов Sawndip для Zhuang.

Charts

2CEB0–2EBEF.

Источники

Примечание: Некоторые символы появляются в нескольких источниках, что делает сумма количества отдельных символов (7,733) больше, чем количество закодированных символов (7,473).

Страна или регионКодСтандартКоличество символовВсего
КитайGCYCiyuan 1221,304
GFCСовременный китайский стандартный словарь (现代 汉语 规范 词典)27
GIDCСистема идентификации Министерства общественной безопасности Китая1
GLGYJИсследование песен Чжуан Ляо (壮族 嘹 歌 研究)1
GOCDОксфордский англо-китайский китайско-английский словарь (牛津 英汉 汉英 词典)2
GPGLGСерия о культуре народной песни Чжуан - Песни Ляо округа Пинго (壮族 民歌 文化 丛书 ・ 平 果 嘹 歌)70
GXHZБольшой словарь Синьхуа (新华 大 字典)51
GZСловарь древних символов Чжуан (古 壮 字 字典)995
GZJWКоллекции бронзовых надписей из Инь и Чжоу Династии. (殷 周金文 集成 引得)33
GZYSИсследование древних этнических персонажей Китая (中国 民族 古 文字 研究)2
ЯпонияJMJПроект разработки и сопровождения информации о персонажах для электронного правительства «Проект MojiJoho-Kiban» (文字 情報 基 盤整 備 事業)1,6451,645
Южная КореяKCИстория Кореи в Интернете (한국 역사 정보 통합 시스템)1,7931,793
МакаоMACНабор символов информационной системы Макао (澳門 資訊 系統字 集)2222
Тайвань T3CNS 11643-1992 самолет 313
T6CNS 11643-1992 самолет 61
TCCNS 11643-1992 самолет 121
Соединенное КоролевствоUKIRG N2107R222
ВьетнамVUВьетнамские горизонтальные расширения11
н / дSATТекстовая база данных SAT Daizōkyō2,8842,963
UTCИсточники UTC79

CJK Unified Ideographs Extension G

Блок с именем CJK Unified Ideographs Extension G был добавлен как часть Unicode 13.0 в Tertiary Ideograph Плоскость в диапазоне от U + 30000 до U + 3134F, содержащая 4939 символов.

Диаграммы

30000–3134F.

Источники

Примечание: Некоторые символы появляются в нескольких источниках, в результате чего сумма количества отдельных символов (4997) больше, чем количество закодированных символов (4939).

Страна или регионКодСтандартКоличество символовВсего
КитайGHZR汉语大字典 (第二 大)8782,082
GPGLGСерия о культуре народной песни Чжуан - Песни Ляо округа Пинго (壮族 民歌 文化 丛书 ・ 平 果嘹 歌)13
GZСловарь древних символов Чжуан (古 壮 字 字典)1,191
Южная КореяKCИстория Кореи в Интернете (한국 역사 정보 통합 시스템)428428
ТайваньT13TCA-CNS 11643 19-й самолет (ожидается новая версия)347353
TBСамолет CNS 11643-1992 113
TCСамолет CNS 11643-1992 122
TDСамолет CNS 11643-1992 131
Соединенное КоролевствоUKIRG N2107R21,5661,566
n/aSATSAT Daizōkyō Text Database329568
UTCИсточники UTC239

Идеографы совместимости с CJK

Блок с именем CJK Compatibility Ideographs (F900 – FAFF) был создан для сохранения двусторонней совместимости с другими стандартами. Только двенадцать его персонажей обладают свойством «Единая идеограмма»: U + FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 и FA29. Ни один из других символов в этом и других блоках «Совместимости» не имеет отношения к CJK Unification.

Диаграммы

F900 – FAFF.

Источники

Примечание: Некоторые символы появляются более чем в одном источнике, что делает сумму количества отдельных символов (22) больше, чем количество закодированных Унифицированные символы (12).

Страна или регионКодСтандартКоличество символовВсего
ЯпонияJ3JIS X 0213: 2004 Уровень 338
J4JIS X 0213: 2004 Уровень 43
JAСовременные иероглифы японских поставщиков ИТ, 19931
JA3JIS X 0213: 2004 символы уровня 3 заменяют символы JA1
Тайвань TFCNS 11643-1992 самолет 1511
ВьетнамV2VHN 01-199811
н / дUTCИсточники UTC1212

UTC Источники

Группа идеографических исследований (IRG) несет формальную ответственность за разработку расширений для закодированных репертуаров унифицированных идеографов CJK. Консорциум Unicode участвует в этой группе как представитель ISO. Символы, представленные Техническим комитетом Unicode, имеют префикс «UTC». Все унифицированные иероглифы CJK в ISO / IEC10646 должны иметь хотя бы один идентификатор источника. Однако изменения в информации об источнике IRG могут оставить данную идеограмму без каких-либо таких источников. В таких случаях идеограмма включается в базу данных U-источника, чтобы гарантировать наличие хотя бы одного источника. Такие идеограммы обозначаются префиксом источника «UCI» вместо «UTC».

Источники UTC состоят из следующего:

Известные проблемы

Разъединение

U + 4039

Символ U + 4039 (䀹) представлял собой объединение двух разных символов (одного с jiā 夾 фонетическим, а другого с shǎn 㚒 фонетическим) до Unicode 5.0. Однако это были лексически разные символы, которые не следовало объединять; у них разное произношение и разное значение.

Предложение о разъединении U + 4039 было принято, и новый символ закодирован в U + 9FC3 (鿃) в Unicode 5.1.

Другие 3 символа в расширении B

В расширении B унифицированных иероглифов CJK некоторые символы неправильно объединены с другими. Эти символы включают U + 2017B (𠅻), U + 204AF (𠒯) ​​и U + 24CB2 (𤲲). Первые два символа содержат неправильное объединение материкового Китая и вьетнамского источника их символа, в то время как последний объединяет материковый Китай и Тайвань.

Универсальные варианты и точные дубликаты в расширении B

Также в CJK Unified Ideographs Extension B были закодированы сотни вариантов глифов. В дополнение к преднамеренному кодированию близких вариантов глифов, шесть точных дубликатов (где один и тот же символ был случайно закодирован дважды) и два полудупликата (где символ CJK-B представляет собой де-факто разъединение двух форм глифов, объединенных в соответствующие BMP) были закодированы по ошибке:

  • U + 34A8 㒨 = U + 20457 𠑗: U + 20457 - это то же самое, что и глиф китайского источника для U + 34A8, но он значительно отличается от символа тайваньского источника для U + 34A8
  • U + 3DB7 㶷 = U + 2420E 𤈎: те же формы глифа
  • U + 8641 虁 = U + 27144 𧅄: U + 27144 совпадает с глифом корейского происхождения для U + 8641, но он значительно отличается от глифов материкового Китая, Тайваня и Японии для U + 8641
  • U + 204F2 𠓲 = U + 23515 𣔕: те же формы глифов, но упорядоченные согласно разные радикалы
  • U + 249BC 𤦼 = U + 249E9 𤧩: одинаковые формы глифов
  • U + 24BD2 𤯒 = U + 2A415 𪐕: одинаковые формы символов, но упорядоченные под разными радикалами
  • U + 26842 𦡂 = U + 26866 𦡦: то же гли ph shape
  • U + FA23 﨣 = U + 27EAF 𧺯: одинаковые формы глифов (U + FA23 﨣 - это единый идеограф CJK, несмотря на его название «CJK COMPATIBILITY IDEOGRAPH-FA23.»)
Другие иероглифы CJK в Unicode, not Unified

Помимо восьми блоков «Unified Ideographs», Unicode имеет еще около дюжины блоков с неунифицированными CJK-символами. В основном это радикалы CJK, штрихи, знаки препинания, знаки, символы и совместимые символы. Хотя некоторые символы имеют свои (разлагаемые) аналоги в других блоках, их использование может быть другим.

Четыре блока символов совместимости включены для совместимости с устаревшими системами обработки текста и более старыми наборами символов:

Они включают формы символов для вертикального расположения текста и символы форматированного текста, которые рекомендует Unicode обработка другими способами. Поэтому их использование не рекомендуется.

Обычно символы совместимости - это символы, которые не кодировались бы, за исключением совместимости и возможности двустороннего преобразования с другими стандартами. Однако количество идеографов CJK в любом стандарте, отличном от Unicode, слишком велико, чтобы поместиться в блоки Unicode CJK Compatibility Ideographs. Вместо этого кодовые точки назначаются, когда затронутые символы одобрены Консорциумом Unicode, но еще не назначены какие-либо кодовые точки в блоках CJK Unified Ideographs.

Поддержка шрифтов

Блоки CJK Unified Ideographs и CJK Unified Ideographs Extension A, являющиеся частями Basic Multilingual Plane, поддерживаются большинством Шрифты CJK. Однако японские и корейские шрифты обычно содержат меньше символов (около 13 000 и 8 000 соответственно), чем китайские. Расширения B, C, D поддерживаются дополнительными шрифтами MingLiU-ExtB, MingLiU_HKSCS-ExtB, PMingLiU-ExtB, SimSun-ExtB, включенными в Microsoft Windows с Vista.

История версий Unicode
CJK унифицированные идеограммы добавлены для Версия Unicode
Версия UnicodeДополнениеПлоскостьДобавлены символыВсего символов
1.0 (1991)Унифицированные идеограммы CJKБазовая многоязычная плоскость (BMP)20,90220,914
Идеограммы совместимости CJKBMP12
3.0 (1999)CJK Unified Ideographs Extension ABMP6,58227,496
3,1 (2001)Расширение B унифицированных иероглифов CJKДополнительная идеографическая плоскость (SIP)42,71170,207
4.1 (2005)Унифицированные иероглифы CJK: идеограммы из HKSCS-2004 и GB 18030-2000 не в ISO 10646BMP2270,229
5.1 (2008)CJK Единые идеограммы: идеограммы от Adobe Japan и разделение U + 4039BMP870,237
5.2 (2009)CJK Unified Ideographs Extension CSIP4,14974,394
8 других символов из ARIB # 47, # 95, # 93 и HKSCSBMP8
6.0 (2010)CJK Unified Ideographs Extension DSIP22274,616
6.1 (2012)1 символ, соответствующий Adobe-Japan 1-6 CID + 20156BMP174,617
8.0 (2015)CJK Unified Ideographs Extension ESIP5,76280,388
9 других символовBMP9
10.0 (2017)Расширение унифицированных иероглифов CJK FSIP7,47387,882
21 другой символBMP21
11.0 (2018)CJK Unified IdeographsBMP587,887
13.0 (2020)CJK Унифицированные иероглифыBMP1392,856
CJK Unified Ideographs Extension ABMP10
CJK Unified Ideographs Extension BBMP7
Расширение унифицированных иероглифов CJK GТретичная идеографическая плоскость (TIP)4,939
See also
Notes
External links
Последняя правка сделана 2021-05-13 11:09:47
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте