JIS X 0208

редактировать

Двухбайтовый стандартный набор символов Японии

JIS X 0208
Псевдоним (а)	JIS C 6226
Язык (и)	Японский, Английский, Русский. Частичная поддержка : Греческий, Китайский
Стандарт	JIS X 0208: 1978–1997
Классификация	ISO 2022, DBCS, Кодировка CJK
Расширения	ARIB STD B24 Kanji, NEC PC98 DBCS
Форматы кодирования	Shift JIS ("SJIS") ISO-2022-JP ("JIS ") EUC-JP ("UJIS")
Предыдущий	JIS X 0201
Преемник	JIS X 0213
Другая связанная кодировка	KS X 1001, GB 2312, JIS X 0212
v t

JIS X 0208 - это 2-байтовый набор символов , заданный как Японский промышленный стандарт, содержащий 6879 графических символов, подходящих для написания текста, географических названий, личных имен и т. д. на японском языке. Все названия текущего стандарта: 7-битные и 8-битные двухбайтовые наборы KANJI для обмена информацией (7 ビット及び 8 ビットの 2 バイト情報交換用符号化漢字, Nana-Bitto Oyobi Hachi -Bitto no Ni-Baito Jōh Kōkan'y Fugōka Kanji Shūg). Первоначально он был создан как JIS C 6226 в 1978 году и был переработан в 1983, 1990 и 1997 годах. IBM также называет его кодовой страницей 952 . Версия 1978 года также называется IBM кодовой страницей 955 .

Содержание

1 Область применения и совместимость
2 Таблицы кодов
- 2.1 Ведущий байт
- 2.2 Строки без кандзи
  - 2.2.1 Набор символов 0x21 (номер строки 1, специальные символы)
  - 2.2.2 Набор символов 0x22 (номер строки 2, специальные символы)
  - 2.2.3 Набор символов 0x23 (номер строки 3, цифры и латинские буквы)
  - 2.2.4 Набор символов 0x24 (номер строки 4, Hiragana)
  - 2.2.5 Набор символов 0x25 (номер строки 5, катакана)
  - 2.2.6 Набор символов 0x26 (номер строки 6, греческий)
  - 2.2.7 Набор символов 0x27 (номер строки 7, кириллица)
  - 2.2.8 Набор символов 0x28 (номер строки 8, рисунок рамки)
  - 2.2.9 Набор символов расширения 0x2D (номер строки 13, специальные символы NEC)
- 2.3 Строки кандзи
3 Структура кода
- 3.1 Однобайтовые коды
- 3.2 Кодовые точки и кодовые числа
- 3.3 Неназначенные кодовые точки
- 3.4 Имена символов
4 Набор кандзи
- 4.1 Обзор
- 4.2 Специальные символы, цифры и латинские символы
- 4.3 Хирагана и катакана
- 4.4 Кандзи
  - 4.4.1 Разделение по уровням
  - 4.4.2 Расположение
  - 4.4.3 Кандзи из неизвестных источников
  - 4.4.4 Унификация вариантов кандзи
  - 4.4.5 Критерии унификации для совместимости
5 Кодировки символов
- 5.1 Схемы кодирования, предусмотренные JIS X 0208
- 5.2 Управляющие последовательности для JIS X 0202 / ISO 2022
- 5.3 Дублирующие кодировки ASCII и JIS X 0201
- 5.4 Сравнение схем кодирования, используемых на практике
6 История
- 6.1 Первый стандарт
- 6.2 Второй стандарт
- 6.3 Третий стандарт
- 6.4 Четвертый стандарт
- 6.5 Преемники
7 Реализации
8 Отношение к другим стандартам
- 8.1 ISO / IEC 646 IRV и ASCII
- 8.2 JIS X 0201
- 8.3 JIS X 0212
- 8.4 JIS X 0213
- 8.5 ISO / IEC 10646 и Unicode
9 Сноски
- 9.1 Пояснительная информация
- 9.2 Ссылки на ссылки
10 См. Также
11 Ссылки
12 Внешние ссылки

Объем использования и совместимость

Набор символов, установленный JIS X 0208, в первую очередь предназначен для обмена информацией (情報交換, jh ō kōkan) между системами обработки данных и подключенными к ним устройствами или взаимно между системами передачи данных. Этот набор символов можно использовать для обработки данных и обработки текста.

Частичные реализации набора символов не считаются совместимыми. Потому что есть места, где происходили такие вещи, как первоначальный редакционный комитет первого стандарта, который заботился о разделении персонажей между уровнем 1 и уровнем 2 и вторым стандартом, а затем перетасовывал некоторые варианты символов (異体字, itaiji ) между уровнями, по крайней мере, в первом и втором стандартах, предполагается, что японские компьютерные системы, не использующие кандзи, и реализация только уровня 1, когда-то рассматривались для разработки. Однако такие реализации никогда не определялись как совместимые, хотя такой пример, как ранний NEC PC-9801, действительно существовал.

Несмотря на то, что в стандарте JIS X 0208: 1997 есть положения, касающиеся совместимость, в настоящее время обычно считается, что этот стандарт не сертифицирует совместимость и не является официальным производственным стандартом, который составляет декларацию самосовместимости. Следовательно, де-факто «совместимые с JIS X 0208» продукты не считаются существующими. Такие термины, как «соответствующий» (準拠, junkyo) и «поддержка» (対応, taiō) включены в JIS X 0208, но семантика этих терминов варьируется от человека к человеку.

Таблицы кодов

Ведущий байт

Первый байт кодирования соответствует номеру строки или ячейки плюс 0x20 или 32 в десятичном формате (см. Ниже). Следовательно, кодовый набор, начинающийся с 0x21, имеет номер строки 1, а его ячейка 1 имеет байт продолжения 0x21 (или 33) и так далее.

JIS X 0208 (ведущие байты)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_	SP. 0020.	Пунктир.. LEAD. 1-_	Символ. LEAD. 2-_	Alnum.. LEAD. 3-_	Hiragana. LEAD. 4-_	Катакана. LEAD. 5 -_	Греческий. LEAD. 6-_	Кириллица. LEAD. 7-_	Поле. LEAD. 8-_	.. 9-_	.. 10-_	.. 11-_	.. 12-_	.. 13-_	.. 14-_	.. 15-_
3_	Кандзи L1. LEAD. 16 -_	Кандзи L1. ВЕДУЩИЙ. 17-_	Кандзи L1. ВИД. 18-_	Кандзи L1. ВИД. 19-_	Кандзи L1. ВЕДУЩИЙ. 20-_	Кандзи L1. ВВОД. 21-_	Кандзи L1. ВВОД. 22-_	Кандзи L1. LEAD. 23-_	Кандзи L1. LEAD. 24-_	Кандзи L1. LEAD. 25-_	Кандзи L1. LEAD. 26 -_	Кандзи L1. ВВОД. 27-_	Кандзи L1. LEAD. 28-_	Кандзи L1. LEAD. 29-_	Кандзи L1. LEAD. 30-_	Kanji L1. LEAD. 31-_
4_	Kanji L1. LEAD. 32-_	Kanji L1. LEAD. 33-_	Kanji L1. LEAD. 34-_	Кандзи L1. ВЕДУ. 35-_	Кандзи L1. ВИД. 36-_	Кандзи L1. ВИД. 37-_	Кандзи L1. ВВОД. 38-_	Кандзи L1. ВВОД. 39-_	Кандзи L1. ВВОД. 40-_	Кандзи L1. LEAD. 41-_	Кандзи L1. LEAD. 42-_	Кандзи L1. LEAD. 43-_	Кандзи L1. LEAD. 44-_	Кандзи L1. ВИД. 45-_	Кандзи L1. ВИД. 46-_	Кандзи L1. ВЕДУ. 47-_
5_	кандзи L2. LEAD. 48-_	Kanji L2. LEAD. 49-_	кандзи L2. LEAD. 50 -_	Кандзи L2. ВВОД. 51-_	Кандзи L2. ВВОД. 52-_	Кандзи L2. ВВОД. 53-_	Кандзи L2. LEAD. 54-_	Кандзи L2. LEAD. 55-_	Кандзи L2. LEAD. 56-_	K anji L2. LEAD. 57-_	Kanji L2. LEAD. 58-_	Kanji L2. LEAD. 59-_	Kanji L2. LEAD. 60-_	Кандзи L2. LEAD. 61-_	Кандзи L2. LEAD. 62-_	Кандзи L2. LEAD. 63 -_
6_	кандзи L2. LEAD. 64-_	Kanji L2. LEAD. 65-_	кандзи L2. LEAD. 66- _	Кандзи L2. ВВОД. 67-_	Кандзи L2. ВВОД. 68-_	Кандзи L2. ВВОД. 69-_	Кандзи L2. LEAD. 70-_	Кандзи L2. LEAD. 71-_	Кандзи L2. LEAD. 72-_	Кандзи L2. LEAD. 73-_	Кандзи L2. ВВЕДЕНИЕ. 74-_	Кандзи L2. ВВОД. 75-_	Кандзи L2. ВВОД. 76- _	Кандзи L2. ВЕДУЩИЙ. 77-_	Кандзи L2. ВИД. 78-_	Кандзи L2. ВИД. 79-_
7_	кандзи L2. LEAD. 80-_	Kanji L2. LEAD. 81-_	кандзи L2. LEAD. 82-_	кандзи L2. LEAD. 83-_	Kanji L2. LEAD. 84-_	.. 85-_	.. 86-_	.. 87-_	.. 8 8-_	.. 89-_	.. 90-_	.. 91-_	.. 92-_	.. 93-_	.. 94-_	DEL. 007F.

Строки без кандзи

Набор символов 0x21 (номер строки 1, специальные символы)

Некоторые поставщики используют несколько иное отображение Unicode для этого набора, чем приведенное ниже. Например, Microsoft сопоставляет kuten 1-29 (JIS 0x213D) с U + 2015 (горизонтальная полоса), тогда как Apple сопоставляет его с U + 2014 (Em Dash). Точно так же Microsoft сопоставляет kuten 1-61 (JIS 0x215D) с U + FF0D (полноразмерная форма U + 002D Дефис-минус), а Apple сопоставляет его с U + 2212 (знак минуса). Отображение волны в Unicode тире также различается у разных производителей. См. Ячейки со сносками ниже. Для знаков препинания

ASCII и JISCII (показаны здесь с жирной зеленой рамкой) могут использоваться альтернативные сопоставления с блоком Halfwidth и Fullwidth Forms, если они используются в кодировке, сочетающей JIS X 0208 с ASCII или с JIS X 0201, например Shift JIS, EUC-JP или ISO 2022-JP.

JIS X 0208 (с префиксом 0x21)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		IDSP. 3000. 1-1	、. 3001. 1-2	。. 3002. 1-3	,. 002C. 1-4	.. 002E. 1-5	・. 30FB. 1-6	:. 003A. 1-7	;. 003B. 1-8	?. 003F. 1-9	!. 0021. 1-10	゛. 309B. 1-11	゜. 309C. 1-12	´. 00B4. 1-13	`. 0060. 1-14	¨. 00A8. 1-15
3_	^. 005E. 1-16	‾. 203E. 1 -17	_. 005F. 1-18	ヽ. 30FD. 1-19	ヾ. 30FE. 1-20	ゝ. 30 9D. 1-21	ゞ. 309E. 1-22	〃. 3003. 1-23	仝. 4EDD. 1-24	々. 3005. 1-25	〆. 3006. 1-26	〇. 3007. 1-27	ー. 30FC. 1-28	—. 2014. 1-29	‐. 2010. 1-30	/. 002F. 1-31
4_	\. 005C. 1-32	〜. 301C. 1-33	‖. 2016. 1-34	\|. 007C. 1- 35	…. 2026. 1-36	‥. 2025. 1-37	‘. 2018. 1-38	’. 2019. 1-39	“. 201C. 1- 40	”. 201D. 1-41	(. 0028. 1-42	). 0029. 1-43	. 3014. 1-44	. 3015. 1- 45	[. 005B. 1-46	]. 005D. 1-47
5_	{. 007B. 1-48	}. 007D. 1-49	〈. 3008. 1-50	〉. 3009. 1-51	《. 300A. 1-52	》. 300B. 1-53	「. 300C. 1-54	」. 300D. 1-55	『. 300E. 1-56	』. 300F. 1-57	【. 3010. 1-58	】. 3011. 1-59	+. 002B. 1-60	−. 2212. 1-61	±. 00B1. 1-62	×. 00D7. 1-63
6_	÷. 00F7. 1-64	=. 003D. 1-65	≠. 2260. 1-66	<. 003C. 1-67	>. 003E. 1-68	≦. 2266. 1-69	≧. 2267. 1-70	∞. 221E. 1-71	∴. 2234. 1-72	♂. 2642. 1-74	♀. 2640. 1-73	°. 00B0. 1-75	′. 2032. 1-76	″. 2033. 1-77	℃. 2103. 1-78	¥. 00A5. 1-79
7_	$. 0024. 1-80	¢. 00A2. 1-81	£. 00A3. 1-82	%. 0025. 1-83	#. 0023. 1-84	. 0026. 1-85	*. 002A. 1-86	@. 0040. 1-87	§. 00A7. 1-88	☆. 2606. 1-89	★. 2605. 1-90	○. 25CB. 1-91	●. 25CF. 1-92	◎. 25CE. 1-93	◇. 25C7. 1-94

Буква Число Пунктуация Символ Другое Не определено

Набор символов 0x22 (номер строки 2, специальные символы)

Большинство символов в этом наборе были добавлены в 1983 году, за исключением символов 0x2221–0x222E (кутэн с 2-1 по 2-14 или первая строка в таблице ниже), которые были включены в исходный Версия стандарта 1978 года.

JIS X 0208 (с префиксом 0x22)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		◆. 25C6. 2-1	□. 25A1. 2-2	■. 25A0. 2-3	△. 25B3. 2-4	▲. 25B2. 2-5	▽. 25BD. 2-6	▼. 25BC. 2-7	※. 203B. 2-8	〒. 3012. 2-9	→. 2192. 2-10	←. 2190. 2-11	↑. 2191. 2-12	↓. 2193. 2-13	〓. 3013. 2-14	.. 2-15
3_	.. 2-16	.. 2-17	.. 2-18	.. 2-19	.. 2-21	.. 2-21	.. 2-22	.. 2-23	.. 2-24	.. 2-25	∈. 2208. 2-26	∋. 220B. 2-27	⊆. 2286. 2-28	⊇. 2287. 2-29	⊂. 2282. 2-30	⊃. 2283. 2-31
4_	∪. 222A. 2-32	∩. 2229. 2-33	.. 2-34	.. 2-35	.. 2-36	.. 2-37	.. 2-38	.. 2-39	.. 2-40	.. 2-41	∧. 2227. 2-42	∨. 2228. 2-43	¬. 00AC. 2-44	⇒. 21D2. 2-45	⇔. 21D4. 2-46	∀. 2200. 2-47
5_	∃. 2203. 2-48	.. 2-49	.. 2-50	.. 2-51	.. 2-52	.. 2-53	.. 2-54	.. 2-55	.. 2-56	.. 2-57	.. 2-58	.. 2-59	∠. 2220. 2-60	⊥. 22A5. 2-61	⌒. 2312. 2-62	∂. 2202. 2-63
6_	∇. 2207. 2-64	≡. 2261. 2-65	≒. 2252. 2-66	≪. 226A. 2-67	≫. 226B. 2-68	√. 221A. 2-69	∽. 223D. 2-70	∝. 221D. 2-71	∵. 2235. 2-72	∫. 222B. 2-73	∬. 222C. 2-74	.. 2-75	.. 2 -76	.. 2-77	.. 2-78	.. 2-79
7_	.. 2-80	.. 2-81	Å. 212B. 2-82	‰. 2030. 2-83	♯. 266F. 2-84	♭. 266D. 2-85	♪. 266A. 2-86	†. 2020. 2-87	‡. 2021. 2-88	¶. 00B6. 2-89	.. 2-90	.. 2-91	.. 2-92	.. 2-93	◯. 25EF. 2-94

Набор символов 0x23 (номер строки 3, цифры и латинские буквы)

Этот набор включает подмножество инвариантного набора ISO 646 (и, следовательно, также подмножество обоих ASCII и JIS X 0201 римский набор) без знаков препинания и символы, содержащие западные арабские цифры и оба регистра основного латинского алфавита. Символы в этом наборе могут использовать альтернативные сопоставления Unicode с блоком Halfwidth и Fullwidth Forms, если они используются в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201, например EUC-JP, Shift JIS или ISO 2022-JP.

Сравните строку 3 KPS 9566, которой эта строка точно соответствует. Сравните и сопоставьте строку 3 KS X 1001 и GB 2312, которые включают в себя все их национальные варианты ISO 646 в этой строке, а не только буквенно-цифровые подмножество.

JIS X 0208 (с префиксом 0x23)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		.. 3-1	.. 3-2	.. 3-3	.. 3-4	.. 3-5	.. 3-6	.. 3-7	.. 3-8	.. 3-9	.. 3-10	.. 3-11	.. 3-12	.. 3 -13	.. 3-14	.. 3-15
3_	0. 0030. 3-16	1. 0031. 3-17	2. 0032. 3-18	3. 0033. 3-19	4. 0034. 3-20	5. 0035. 3-21	6. 0036. 3-22	7. 0037. 3-23	8. 0038. 3-24	9. 0039. 3-25	.. 3-26	.. 3-27	.. 3-28	.. 3-29	.. 3-30	.. 3-31
4_	.. 3-32	A. 0041. 3-33	B. 0042. 3-34	C. 0043. 3-35	D. 0044. 3-36	E. 0045. 3-37	F. 0046. 3-38	G. 0047. 3-39	H. 0048. 3-40	I. 0049. 3-41	J. 004A. 3-42	K. 004B. 3-43	L. 004C. 3-44	M. 004D. 3-45	N. 004E. 3-46	O. 004F. 3-47
5_	P. 0050. 3-48	Q. 0051. 3-49	R. 0052. 3-50	S. 0053. 3-51	T. 0054. 3-52	U. 0055. 3-53	V. 0056. 3-54	W. 0057. 3-55	X. 0058. 3-56	Y. 0059. 3-57	Z. 005A. 3-58	.. 3-59	.. 3-60	.. 3-61	.. 3-62	.. 3-63
6_	.. 3-64	a. 0061. 3-65	b. 0062. 3-66	c. 0063. 3-67	d. 0064. 3-68	e. 0065. 3-69	f. 0066. 3-70	g. 0067. 3-71	h. 0068. 3-72	i. 0069. 3-73	j. 006A. 3-74	k. 006B. 3-75	l. 006C. 3-76	m. 006D. 3-77	n. 006E. 3-78	o. 006F. 3-79
7_	p. 0070. 3-80	q. 0071. 3-81	r. 0072. 3-82	s. 0073. 3-83	t. 0074. 3-84	u. 0075. 3-85	v. 0076. 3-86	w. 0077. 3-87	x. 0078. 3-88	y. 0079. 3-89	z. 007A. 3-90	.. 3-91	.. 3-92	.. 3-93	.. 3-94

Набор символов 0x24 (номер строки 4, Hiragana)

Эта строка содержит японский хирагана.

Сравните строку 4 ГБ 2312, которая соответствует в этой строке. Сравните и сопоставьте строку 10 KPS 9566 и KS X 1001, которые используют тот же макет, но в другой строке.

JIS X 0208 (с префиксом 0x24)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		ぁ. 3041. 4-1	あ. 3042. 4-2	ぃ. 3043. 4-3	い. 3044. 4-4	ぅ. 3045. 4-5	う. 3046. 4-6	ぇ. 3047. 4-7	え. 3048. 4-8	ぉ. 3049. 4-9	お. 304A. 4-10	か. 304B. 4-11	が. 304C. 4-12	き. 304D. 4-13	ぎ. 304E. 4-14	く. 304F. 4-15
3_	ぐ. 3050. 4-16	け. 3051. 4-17	げ. 3052. 4-18	こ. 3053. 4-19	ご. 3054. 4-20	さ. 3055. 4-21	ざ. 3056. 4-22	し. 3057. 4-23	じ. 3058. 4-24	す. 3059. 4-25	ず. 305A. 4-26	せ. 305B. 4-27	ぜ. 305C. 4-28	そ. 305D. 4-29	ぞ. 305E. 4-30	た. 305F. 4-31
4_	だ. 3060. 4 -32	ち. 3061. 4-33	ぢ. 3062. 4-34	っ. 3063. 4-35	つ. 3064. 4-36	づ. 3065. 4 -37	て. 3066. 4-38	で. 3067. 4-39	と. 3068. 4-40	ど. 3069. 4-41	な. 306A. 4-42	に. 306B. 4-43	ぬ. 306C. 4-44	ね. 306D. 4-45	の. 306E. 4-46	は. 306F. 4-47
5_	ば. 3070. 4-48	ぱ. 3071. 4-49	ひ. 3072. 4-50	び. 3073. 4-51	ぴ. 3074. 4-52	ふ. 3075. 4-53	ぶ. 3076. 4-54	ぷ. 3077. 4-55	へ. 3078. 4-56	べ. 3079. 4-57	ぺ. 307A. 4-58	ほ. 307B. 4-59	ぼ. 307C. 4-60	ぽ. 307D. 4-61	ま. 307E. 4-62	み. 307F. 4-63
6_	む. 3080. 4-64	め. 3081. 4-65	も. 3082. 4-66	ゃ. 3083. 4-67	や. 3084. 4-68	ゅ. 3085. 4-69	ゆ. 3086. 4-70	ょ. 3087. 4-71	よ. 3088. 4-72	ら. 3089. 4-73	り. 308A. 4-74	る. 308B. 4-75	れ. 308C. 4-76	ろ. 308D. 4-77	ゎ. 308E. 4-78	わ. 308F. 4-79
7_	ゐ. 3090. 4-80	ゑ. 3091. 4 -81	を. 3092. 4-82	ん. 3093. 4-83	.. 4-84	.. 4-85	.. 4-86	.. 4-87	.. 4 -88	.. 4-89	.. 4-90	.. 4-91	.. 4-92	.. 4-93	.. 4-94

Набор символов 0x25 (номер строки 5, катакана)

Эта строка содержит японский язык Катакана.

Сравните строку 5 ГБ 2312, которая соответствует этой строке. Сравните и сопоставьте строку 11 KPS 9566 и KS X 1001, которые используют тот же макет, но в другой строке. Сравните значительно отличающуюся раскладку катаканы, используемую JIS X 0201.

JIS X 0208 (с префиксом 0x25)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		ァ. 30A1. 5-1	ア. 30A2. 5-2	ィ. 30A3. 5-3	イ. 30A4. 5-4	ゥ. 30A5. 5-5	ウ. 30A6. 5-6	ェ. 30A7. 5-7	エ. 30A8. 5-8	ォ. 30A9. 5-9	オ. 30AA. 5-10	カ. 30AB. 5-11	ガ. 30AC. 5-12	キ. 30AD. 5-13	ギ. 30AE. 5-14	ク. 30AF. 5-15
3_	グ. 30B0. 5 -16	ケ. 30B1. 5-17	ゲ. 30B2. 5-18	コ. 30B3. 5-19	ゴ. 30B4. 5-20	サ. 30B5. 5 -21	ザ. 30B6. 5-22	シ. 30B7. 5-23	ジ. 30B8. 5-24	ス. 30B9. 5-25	ズ. 30BA. 5 -26	セ. 30BB. 5-27	ゼ. 30BC. 5-28	ソ. 30BD. 5-29	ゾ. 30BE. 5-30	タ. 30BF. 5 -31
4_	ダ. 30C0. 5-32	チ. 30C1. 5-33	ヂ. 30C2. 5-34	ッ. 30C3. 5-35	ツ. 30C4. 5-36	ヅ. 30C5. 5-37	テ. 30C6. 5-38	デ. 30C7. 5-39	ト. 30C8. 5-40	ド. 30C9. 5-41	ナ. 30CA. 5-42	ニ. 30CB. 5-43	ヌ. 30CC. 5-44	ネ. 30CD. 5-45	ノ. 30CE. 5-46	ハ. 30CF. 5-47
5_	バ. 30D0. 5 -48	パ. 30D1. 5-49	ヒ. 30D2. 5-50	ビ. 30D3. 5-51	ピ. 30D4. 5-52	フ. 30D5. 5 -53	ブ. 30D6. 5-54	プ. 30D7. 5-55	ヘ. 30D8. 5-56	ベ. 30D9. 5-57	ペ. 30DA. 5 -58	ホ. 30DB. 5-59	ボ. 30DC. 5-60	ポ. 30DD. 5-61	マ. 30DE. 5-62	ミ. 30DF. 5 -63
6_	ム. 30E0. 5-64	メ. 30E1. 5-65	モ. 30E2. 5-66	ャ. 30E3. 5-67	ヤ. 30E4. 5-68	ュ. 30E5. 5-69	ユ. 30E6. 5-70	ョ. 30E7. 5-71	ヨ. 30E8. 5-72	ラ. 30E9. 5-73	リ. 30EA. 5-74	ル. 30EB. 5-75	レ. 30EC. 5-76	ロ. 30ED. 5-77	ヮ. 30EE. 5-78	ワ. 30EF. 5-79
7_	ヰ. 30F0. 5-80	ヱ. 30F1. 5-81	ヲ. 30F2. 5- 82	ン. 30F3. 5-83	ヴ. 30F4. 5-84	ヵ. 30F5. 5-85	ヶ. 30F6. 5-86	.. 5-87	.. 5-88	.. 5-89	.. 5-90	.. 5-91	.. 5-92	.. 5-93	.. 5-94

Набор символов 0x26 (номер строки 6, Греческий)

Эта строка содержит базовую поддержку современного греческого алфавита, без диакритических знаков или заключительной сигмы.

Сравните строку 6 из GB 2312 и GB 12345 и строка 6 KPS 9566, которые включают те же греческие буквы в той же компоновке, хотя GB 12345 добавляет вертикальные формы представления, а KPS 9566 добавляет римские цифры. Сравните и сопоставьте строку 5 KS X 1001, которая смещает греческие буквы, чтобы сначала включить римские цифры.

JIS X 0208 (с префиксом 0x26)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		Α. 0391. 6-1	Β. 0392. 6-2	Γ. 0393. 6-3	Δ. 0394. 6-4	Ε. 0395. 6-5	Ζ. 0396. 6-6	Η. 0397. 6-7	Θ. 0398. 6-8	Ι. 0399. 6-9	Κ. 039A. 6-10	Λ. 039B. 6-11	Μ. 039C. 6-12	Ν. 039D. 6-13	Ξ. 039E. 6-14	Ο. 039F. 6-15
3_	Π. 03A0. 6-16	Ρ. 03A1. 6-17	Σ. 03A3. 6-18	Τ. 03A4. 6-19	Υ. 03A5. 6-20	Φ. 03A6. 6-21	Χ. 03A7. 6-22	Ψ. 03A8. 6-23	Ω. 03A9. 6-24	.. 6-25	.. 6-26	.. 6-27	.. 6-28	.. 6-29	.. 6-30	.. 6-31
4_	.. 6-32	α. 03B1. 6-33	β. 03B2. 6-34	γ. 03B3. 6-35	δ. 03B4. 6-36	ε. 03B5. 6-37	ζ. 03B6. 6-38	η. 03B7. 6-39	θ. 03B8. 6-40	ι. 03B9. 6-41	κ. 03BA. 6-42	λ. 03BB. 6-43	μ. 03BC. 6-44	ν. 03BD. 6-45	ξ. 03BE. 6-46	ο. 03BF. 6-47
5_	π. 03C0. 6-48	ρ. 03C1. 6-49	σ. 03C3. 6-50	τ. 03C4. 6-51	υ. 03C5. 6-52	φ. 03C6. 6-53	χ. 03C7. 6-54	ψ. 03C8. 6-55	ω. 03C9. 6-56	.. 6-57	.. 6-58	.. 6-59	.. 6-60	.. 6-61	.. 6-62	.. 6-63
6_	.. 6-64	.. 6-65	.. 6-66	.. 6-67	.. 6-68	.. 6-69	.. 6-70	.. 6-71	.. 6-72	.. 6-73	.. 6-74	.. 6-75	.. 6-76	.. 6-77	.. 6-78	.. 6-79
7_	.. 6-80	.. 6-81	.. 6-82	.. 6-83	.. 6-84	.. 6-85	.. 6-86	.. 6-87	.. 6-88	.. 6-89	.. 6-90	.. 6-91	.. 6-92	.. 6-93	.. 6-94

Набор символов 0x27 (номер строки 7, Кириллица)

Эта строка содержит современный русский алфавит и не обязательно достаточна для представления других форм кириллицы.

Сравните строку 7 GB 2312, что соответствует этой строке. Сравните и сопоставьте строку 12 KS X 1001 и строку 5 KPS 9566, которые используют тот же макет (но в другой строке).

JIS X 0208 (с префиксом 0x27)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		А. 0410. 7-1	Б. 0411. 7-2	В. 0412. 7-3	Г. 0413. 7-4	Д. 0414. 7-5	Е. 0415. 7-6	Ё. 0401. 7-7	Ж. 0416. 7-8	З. 0417. 7-9	И. 0418. 7-10	Й. 0419. 7-11	К. 041A. 7-12	Л. 041B. 7-13	М. 041C. 7-14	Н. 041D. 7-15
3_	О. 041E. 7-16	П. 041F. 7-17	Р. 0420. 7-18	С. 0421. 7-19	Т. 0422. 7-20	У. 0423. 7-21	Ф. 0424. 7-22	Х. 0425. 7-23	Ц. 0426. 7-24	Ч. 0427. 7-25	Ш. 0428. 7-26	Щ. 0429. 7-27	Ъ. 042A. 7-28	Ы. 042B. 7-29	Ь. 042C. 7-30	Э. 042D. 7-31
4_	Ю. 042E. 7 -32	Я. 042F. 7-33	.. 7-34	.. 7-35	.. 7-36	.. 7-37	.. 7-38	.. 7-39	.. 7-40	.. 7-41	.. 7-42	.. 7-43	.. 7-44	.. 7-45	.. 7-46	.. 7-47
5_	.. 7-48	а. 0430. 7-49	б. 0431. 7-50	в. 0432. 7-51	г. 0433. 7-52	д. 0434. 7-53	е. 0435. 7-54	ё. 0451. 7-55	ж. 0436. 7-56	з. 0437. 7-57	и. 0438. 7-58	й. 0439. 7-59	к. 043A. 7-60	л. 043B. 7-61	м. 043C. 7-62	н. 043D. 7-63
6_	о. 043E. 7-64	п. 043F. 7-65	р. 0440. 7-66	с. 0441. 7-67	т. 0442. 7-68	у. 0443. 7-69	ф. 0444. 7-70	х. 0445. 7-71	ц. 0446. 7-72	ч. 0447. 7-73	ш. 0448. 7-74	щ. 0449. 7-75	ъ. 044A. 7-76	ы. 044B. 7-77	ь. 044C. 7-78	э. 044D. 7-79
7_	ю. 044E. 7-80	я. 044F. 7-81	.. 7-82	.. 7-83	.. 7 -84	.. 7-85	.. 7-86	.. 7-87	.. 7-88	.. 7-89	.. 7-90	.. 7-91	.. 7-92	.. 7-93	.. 7-94

Набор символов 0x28 (номер строки 8, рисунок рамки)

Все символы в этом наборе были добавлены в 1983 году, и не присутствовали в исходной редакции стандарта 1978 года.

JIS X 0208 (с префиксом 0x28)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		│. 2502. 8-1	─. 2500. 8-2	┐. 2510. 8-3	┌. 250C. 8-4	└. 2514. 8-5	┘. 2518. 8-6	┤. 2524. 8-7	┬. 252C. 8-8	├. 251C. 8-9	┴. 2534. 8-10	┼. 253C. 8-11	━. 2501. 8-12	┃. 2503. 8-13	┏. 250F. 8-14	┓. 2513. 8-15
3_	┗. 2517. 8-16	┛. 251B. 8-17	┫. 252B. 8-18	┳. 2533. 8-19	┣. 2523. 8-20	┻. 253B. 8-21	╋. 254B. 8-22	┠. 2520. 8-23	┯. 252F. 8-24	┨. 2528. 8-25	┷. 2537. 8-26	┿. 253F. 8-27	┝. 251D. 8-28	┰. 2530. 8-29	┥. 2525. 8-30	┷. 2537. 8-31
4_	╂. 2542. 8 -32	.. 8-33	.. 8-34	.. 8-35	.. 8-36	.. 8-37	.. 8-38	.. 8-39	.. 8-40	.. 8-41	.. 8-42	.. 8-43	.. 8-44	.. 8-45	.. 8-46	.. 8-47
5_	.. 8-48	.. 8-49	.. 8 -50	.. 8-51	.. 8-52	.. 8-53	.. 8-54	.. 8-55	.. 8-56	.. 8-57	.. 8-58	.. 8-59	.. 8-60	.. 8-61	.. 8-62	.. 8-63
6_	.. 8-64	.. 8-65	.. 8 -66	.. 8-67	.. 8-68	.. 8-69	.. 8-70	.. 8-71	.. 8-72	.. 8-73	.. 8-74	.. 8-75	.. 8-76	.. 8-77	.. 8-78	.. 8-79
7_	.. 8-80	.. 8-81	.. 8 -82	.. 8-83	.. 8-84	.. 8-85	.. 8-86	.. 8-87	.. 8-88	.. 8-89	.. 8-90	.. 8-91	.. 8-92	.. 8-93	.. 8-94

Набор символов расширения 0x2D (номер строки 13, специальные символы NEC)

Строки с 9 по 15 стандарта JIS X 0208 остаются пустыми.

Однако следующая компоновка для строки 13, впервые представленная NEC, является распространенным расширением. Он используется (с небольшими вариациями, отмеченными в сносках) Windows-932 (который соответствует WHATWG Стандарт кодирования, используемый HTML5 ), Вариант PostScript (но, начиная с KanjiTalk версии 7, а не обычный вариант) от MacJapanese и от JIS X 0213 (преемник JIS X 0208). В отличие от других расширений, созданных Windows-932 / WHATWG и JIS X 0213, эти два совпадают, а не сталкиваются, поэтому декодирование большей части этой строки поддерживается лучше, чем другие расширения, созданные JIS X 0213.

Специальные символы NEC для JIS X 0208 (с префиксом 0x2D)
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
2_		①. 2460. 13-1	②. 2461. 13-2	③. 2462. 13- 3	④. 2463. 13-4	⑤. 2464. 13-5	⑥. 2465. 13-6	⑦. 2466. 13-7	⑧. 2467. 13- 8	⑨. 2468. 13-9	⑩. 2469. 13-10	⑪. 246A. 13-11	⑫. 246B. 13-12	⑬. 246C. 13- 13	⑭. 246D. 13-14	⑮. 246E. 13-15
3_	⑯. 246F. 13-16	⑰. 2470. 13-17	⑱. 2471. 13-18	⑲. 2472. 13-19	⑳. 2473. 13-20	Ⅰ. 2160. 13-21	Ⅱ. 2161. 13-22	Ⅲ. 2162. 13-23	Ⅳ. 2163. 13-24	Ⅴ. 2164. 13-25	Ⅵ. 2165. 13-26	Ⅶ. 2166. 13-27	Ⅷ. 2167. 13-28	Ⅸ. 2168. 13-29	Ⅹ. 2169. 13-30	Ⅺ. 216A. 13-31
4_	㍉. 3349. 13-32	㌔. 3314. 13-33	㌢. 3322. 13-34	㍍. 334D. 13-35	㌘. 3318. 13-36	㌧. 3327. 13-37	㌃. 3303. 13-38	㌶. 3336. 13-39	㍑. 3351. 13-40	㍗. 3357. 13-41	㌍. 330D. 13-42	㌦. 3326. 13-43	㌣. 3323. 13-44	㌫. 332B. 13-45	㍊. 334A. 13-46	㌻. 333B. 13-47
5_	㎜. 339C. 13-48	㎝. 339D. 13-49	㎞. 339E. 13-50	㎎. 338E. 13-51	㎏. 338F. 13-52	㏄. 33C4. 13-53	㎡. 33A1. 13-54	Ⅻ. 216B. 13-55	.. 13-56	.. 13-57	.. 13-58	.. 13-59	.. 13-60	.. 13-61	.. 13-62	㍻. 337B. 13-63
6_	〝. 301D. 13-64	〟. 301F. 13-65	№. 2116. 13-66	㏍. 33CD. 13-67	℡. 2121. 13-68	. 32A4. 13-69	. 32A5. 13-70	. 32A6. 13-71	㊧. 32A7. 13-72	㊨. 32A8. 13-73	㈱. 3231. 13-74	. 3 232. 13-75	. 3239. 13-76	㍾. 337E. 13-77	㍽. 337D. 13-78	㍼. 337C. 13-79
7_	≒. 2252. 13-80	≡. 2261. 13-81	∫. 222B. 13-82	∮. 222E. 13-83	∑. 2211. 13- 84	√. 221A. 13-85	⊥. 22A5. 13-86	∠. 2220. 13-87	∟. 221F. 13-88	⊿. 22BF. 13- 89	∵. 2235. 13-90	∩. 2229. 13-91	∪. 222A. 13-92	❖. 2756. 13-93	☞. 261E. 13- 94

Строки кандзи

Структура кода

Для представления кодовых точек номера столбцов / строк используются для однобайтовых кодов, а номера кутен используются для двухбайтовые коды. Для того, чтобы идентифицировать символ вне зависимости от кода, используются имена символов.

Однобайтовые коды

Почти все коды графических символов JIS X 0208 представлены двумя байтами, по крайней мере, по семь бит каждый. However, every control character, as well as the plain space – although not the ideographic space – is represented with a one-byte code. In order to represent the bit combination(ビット組合せ, bitto kumiawase) of a one-byte code, two decimal numbers – a column numberand a line number– are used. Three high-order bits out of seven or four high-order bits out of eight, counting from zero to seven or from zero to fifteen respectively, form the column number. Four low-order bits counting from zero to fifteen form the line number. Each decimal number corresponds to one hexadecimal digit. For example, the bit combination corresponding to the graphic character "space" is 010 0000 as a 7-bit number, and 0010 0000 as an 8-bit number. In column/line notation, this is represented as 2/0. Other representations of the same single-byte code include 0x20 as hexadecimal, or 32 as a single decimal number.

Code points and code numbers

The double-byte codes are laid out in 94 numbered groups, each called a row (区, ku, lit. "section"). Every row contains 94 numbered codes, each called a cell (点, ten, lit. "point"). This makes a total of 8836 (94 × 94) possible code points (although not all are assigned, see below); these are laid out in the standard in a 94-line, 94-column code table.

A row number and a cell number (each numbered from 1 to 94, for a standard JIS X 0208 code) form a kuten(区点 ) point, which is used to represent double-byte code points. A code number or kuten number (区点番号, kuten bangō) is expressed in the form "row-cell", the row and cell numbers being separat редактируется дефисом. Например, символ «亜 » имеет кодовую точку в строке 16, ячейке 1, поэтому его кодовый номер представлен как «16-01».

В 7-битном JIS X 0208 (который может быть переключен в JIS X 0202 / ISO-2022-JP ) оба байта должны быть из 94-байтового диапазона 0x 21 (используется для строки или ячейки с номером 1) до 0x7E (используется для строки или ячейки с номером 94) - точно соответствует диапазону, используемому для 7-битных символов печати ASCII, не считая пробела. Соответственно, закодированные байты получаются добавлением 0x20 (32) к каждому числу. Например, приведенный выше пример 16-01 («亜») будет представлен байтами 0x30 0x21. 8-битный EUC-JP вместо этого использует диапазон от 0xA1 до 0xFE (установка старшего бита на 1), тогда как другие кодировки, такие как Shift JIS, используют более сложные преобразования. Shift JIS включает в себя больше места для кодирования, чем необходимо для самого JIS X 0208; некоторые специальные расширения Shift JIS для JIS X 0208 используют номера строк выше 94.

Эта структура также используется в GB 2312 материкового Китая (где она изначально известна как 区位 ; qūwèi) и южнокорейский KS C 5601 (в настоящее время KS X 1001 ; ку и десять соответственно известны как ханг и йол). Более поздний JIS X 0213 расширяет эту структуру, имея более одной плоскости (面, men, букв. «Лицо») строк, что также является структурой, используемой CNS 11643.

Неназначенные кодовые точки

Среди 2-байтовых кодов строки с 9 по 15 и с 85 по 94 являются неназначенными кодовыми точками (空き領域, aki ryōiki); то есть они являются кодовыми точками, которым не присвоены символы. Кроме того, некоторые ячейки в других строках также являются неназначенными кодовыми точками.

Эти пустые области содержат кодовые точки, которые в принципе не должны использоваться. За исключением случаев, когда имеется предварительное соглашение между соответствующими сторонами, символы (gaiji ) для обмена информацией не должны присваиваться неназначенным кодовым точкам.

Даже при присвоении символов неназначенным кодовым точкам графические символы, определенные в стандарте, не должны назначаться им, и один и тот же символ не должен назначаться нескольким неназначенным кодовым точкам; символы не должны дублироваться в наборе.

Кроме того, при присвоении символов неназначенным кодовым точкам необходимо проявлять осторожность в отношении унификации в отношении глифов кандзи. Например, ячейка 66 строки 25 соответствует кандзи, означающему «высокий» или «дорогой»; обе формы с компонентом, напоминающим символ «рот» (口 ) посередине (高 ) и менее распространенная форма с лестничной конструкцией в том же месте (髙 ) включает в одну и ту же кодовую точку. Следовательно, ограничение точки 25-66 формы «рта» и присвоение последней «лестничной» формы неназначенной кодовой точкой технически нарушением стандарта.

Однако на практике несколько вариантов Shift JIS, зависящих от поставщика, включая Windows-932 и MacJapanese, кодируют расширения поставщика в нераспределенных строках пространства кодирования для JIS X 0208. Кроме большинства кодов, не присвоенных в JIS X 0208, присвоены более новым стандартом JIS X 0213.

Имена символов

Каждому символу JIS X 0208 дается имя . Используя имя персонажа, можно идентифицировать персонажей, не полагаясь на их коды. Имена символов согласованы с другими стандартами набора символов, в частности, универсальным набором кодированных символов (UCS / Unicode ), поэтому это один из источников сопоставления символов с наборами символов, такими как Юникод. Например, и символ в ISO / IEC 646 Международная справочная версия (US-ASCII ), столбец 4, строка 1, и символ в JIS X 0208, строка 3, ячейка 33, имеют имя "ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A". Следовательно, символ 4/1 в ASCII и символ 3-33 в JIS X 0208 можно рассматривать как один и тот же символ (хотя на практике для символа JIS X 0208 используется альтернативное сопоставление из-за того, что кодировки) предоставит ASCII отдельно). И наоборот, символы ASCII 2/2 (кавычки), 2/7 (апостроф), 2/13 (дефис-минус) и 7/14 (тильда) могут быть в этом качестве пригодными как символы, которых нет в стандарте.

В именах символов, отличных от кандзи, используются прописные латинские буквы, пробелы и дефисы. Символам, не относящимся к кандзи, дается общее название на японском языке (日本語通用名称, Nihongo tsūy meishō), но некоторых положений для этих имен не существует. Имена кандзи, с другой стороны, механически установлены в соответствии с соответствующим шестнадцатеричным представлением их кода в UCS / Unicode. Название кандзи можно получить, добавив к кодовой точке Unicode "CJKUNIFIED IDEOGRAPH-". Например, строка 16, ячейка 1 (亜 ), соответствует U + 4E9C в UCS, поэтому ее имя будет «CJK UNIFIED IDEOGRAPH-4E9C». Кандзи не имеют общих японских имен.

Набор кандзи

Обзор

JIS X 0208 предписывает набор из 6879 графических символов, которые соответствуют двухбайтовым кодам в семье или восемью битами байте; в JIS X 0208 это называется набором кандзи (漢字集合, кандзи сюго), который включает 6355 кандзи, а также 524 не-кандзи (非漢字, хикандзи), включая такие символы, как латинские буквы, кана и т. д.

Специальные символы: Занимают строки 1 и 2. Имеется 18 дескрипторных символов (記述記号, kijutsu kigō), таких как «идеографическое пространство» ( ), а также японская запятая и точка ; восемь диакритических знаков, таких как dakuten и handakuten ; 10 для элементов символов, следующих за кана или кандзи (仮名又は漢字に準じるもの, kana mata wa kanji ni junjiru mono), например, знак итерации ; 22 скобки (括弧記号, kakko kigō); 45 математических символов (学術記号, гакудзюцу киго); и 32 символов, включает знак который валюты и почтовый знак, всего 147 знаков.
Цифры: Занимают часть строки 3. Десять цифр от «0» до «9».
Латинские буквы: Занимают часть строки 3. 26 букв английского алфавита в верхнем и нижнем регистре, всего 52.
Хирагана: Заним текст 4. Содержит 48 глухих кана (включая устаревшие wi и мы ), 20 звонких кана (дакутэн ), 5 полуголосых. кана (хандакутэн ), 10 маленьких кана для палатализированных и ассимилированных звуков, всего 83 символа.
Катакана: Занимает строку 5. Здесь 86 символов; в дополнение к эквивалентам катаканы символов хираганы, малый ka / ke kana (ヵ /ヶ ) и vu kana (ヴ ).
греческие буквы: Занимает усилие. 24 буквы греческого алфавита в верхнем и нижнем регистре (за вычетом последней сигмы ), всего 48.
Кириллические буквы: Занимают строку 7. 33 буквы Русский алфавит в верхнем и нижнем регистрах, всего 66.
Символы в виде сегментов: Занимает толстые дисциплины 8. Тонкие сегменты и смешанные тонкие и толстые сегменты, всего 32.
Кандзи: 2965 символов уровня 1 (第1 水準, dai ichi suijun) от строки 16 до строки 47, и 3390 символов уровня 2 (第 2 水準, dai ni suijun) от строки 48 до строки 84, всего 6355.

Специальные символы, цифры и латинские символы

Что касается специальных символов в наборе кандзи, некоторые символы из набора графических символов Международной эталонной версии (IRV) стандарта ISO / IEC 64 6 : 1991 (эквивалент ASCII ) отсутствуют в JIS X 0208. Есть четыре вышеупомянутых символа «ЦИТАТНЫЙ ЗНАК», «АПОСТРОФ», «ДИФФ-МИНУС» и «ТИЛЬДА». Первые три разделены на разные кодовые точки в наборе кандзи (Nishimura, 1978; стандарт JIS X 0221-1: 2001, раздел 3.8.7). «ТИЛЬДА» IRV не имеет символ в наборе кандзи.

В следующей таблице соответствующие символы IRV ISO / IEC 646: 1991 сравниваются с их множественными эквивалентами в JIS X 0208, за исключением символов IRV «TILDE», который сравнивается с «WAVE DASH». "JIS X 0208. Записи в столбцах" Символ "используют кодовые точки UCS / Unicode, поэтому особенности отображения могут отличаться.

Символам ASCII / IRV без точных эквивалентов JIS X 0208 были позже присвоены кодовые точки JIS X 0213, они также представлены ниже, как и Microsoft из четырех персонажа.

Нестрогкое соответствие между ISO / IEC 646: 1991 IRV (ASCII) и JIS X 0208
ISO / IEC 646: 1991 IRV					JIS X 0208
Столбец / Строка	x0213	Microsoft	Символ	Имя	Кутен	Символ	Имя
2/2	1-2-16	92-94. 115-24	"	ЦЕНОВОЙ ЗНАК	1-15	¨	ДИАРЕЗ
					1-40	“	ЛЕВЫЙ ДВОЙНОЙ ЗНАК
					1-41	”	ПРАВЫЙ ДВОЙНОЙ ЗНАК
					1-77	″	ДВОЙНОЙ ПЕРВИЧНЫЙ
2/7	1-2-15	92-93. 115-23	'	АПОСТРОФ	1-13	´	ОСТРЫЙ АКЦЕНТ
					1-38	‘	ЛЕВЫЙ ОДИНОЧНЫЙ ЗНАК
					1 -39	’	ПРАВАЯ ОДИНАРНА Я ЗНАЧКА
					1-76	′	ПРАЙМ
2/13	1-2-17	1-61	-	ДЕФИС- МИНУС	1-30	‐	ДЕФИС
2/13	1-2-17	1-61	-	ДЕФИС- МИНУС	1-61	−	ЗНАК МИНУСА
7/14	1-2-18	1-33	~	ТИЛЬДА	(нет соответствующего символа)
(нет соответствующего символа)					1-33	〜	WAVE DASH

Это самый распространенный в мире набор иероглифов самым распространенным в мире набором символов, не поддерживающих обратную совместимость; это одним из слабых мест этого стандарта.

Даже с 90 специальными символами, цифрами и латинскими буквами, которые являются общими для набора кандзи и IRV, этот стандарт не соответствует порядку ISO / IEC 646. Эти 90 символов разделены между строками 1 (пунктуация) и 3 ( буквы и цифры), хотя строка 3 расположению по ISO 646 только для 62 букв и цифр (например, 4/1(«A») в ISO 646 становится 2/3 4/1(т.е. 3-33) в JIS X 0208).

Что касается причины того, как эти цифры, латинские буквы и т. Д. В наборе кандзи являются «буквенно-цифровыми символами полной ширины» (全角英数字, zenkaku eisūji), и как исходная реализация появилась с интерпретация отличается от IRV, считается, что это происходит из-за несовместимости.

Начиная с первого стандарта, стало возможным представлять композиты (合成, gōsei), такие как числа в кружках, лигатуры для названий единиц измерения и Римские цифры ; им не были присвоены независимые коды кутэн. Хотя отдельные компании, производящие информационные системы, могут попытаться представить эти символы так, как те требуют клиентов, по составу символов, ни одна из них не просила добавить их в стандарт, вместо этого предлагая их собственными силами как gaiji.

В четвертом стандарте (1997 г.) все эти символы были явно обозначены как символы, сопровождающие продвижение на текущую позицию; то есть это символы пробела . Кроме того, было решено, что они не должны быть составлены из персонажей. По этой причине было запрещено использовать латинские символы с диакритическими знаками , возможно, с единственным символом ångström (Å ) в ячейке 2 строки. 82.

Хирагана и катакана

хирагана и катакана в JIS X 0208, в отличие от JIS X 0201, включает метки dakuten и handakuten как часть персонажа. Катакана wi (ヰ) и we (ヱ) (оба устаревших в японском языке), а также маленький wa (ヮ), которых нет в JIS X 0201, также включены.

Расположение каны в JIS X 0208 отличается от расположения катаканы в JIS X 0201. В JIS X 0201 слоговое письмо начинается с wo (ヲ), за которым следует маленький кана, отсортированная по порядку годзюон, за которым следует кана в натуральном действии, также в порядке годзюон (ヲァィゥェォャュョッーアイエオ...... ラリルレロワン). С другой стороны, в JIS X 0208 кана сортируется сначала по порядку годзюон, затем в «малая кана, полноразмерная кана, кана с дакутэн и кана с хандакутэн», так что одна и та же основная кана сгруппирована. с его производными (ぁあぃいぅうぇえぉお...... っつづ...... はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Этот порядок был выбран для того, чтобы упростить сортировку поисков по словарю на основе каны (Ясуока, 2006).

Как упоминается выше, в этом стандарте определенно порядок катаканы в JIS X 0201 был не соблюдается в JIS X 0208. Считается, что катакана JIS X 0201, являющаяся «каной половинной ширины », возникла из-за несовместимости с катаканой этого стандарта. Этот момент также является одной из слабых сторон этого стандарта.

Кандзи

Как иероглифы в этомте были выбраны из каких источников, почему они разделены на уровень 1 и уровень 2 и как они установлены, все подробно объясняется в четвертом стандарте. (1997). Согласно этому объяснению, кандзи, включенные в следующие четыре списка кандзи, были отражены в 6349 символах первого стандарта (1978).

Перечень иероглифов для стандартного производного (старого) (標準コード用漢字表 (試案), Хёдзюн Кодо-ё Канджихё (шианский))

Японское общество обработки информации код кандзи составил этот список в 1971 году. В нижеследующих «результатах анализа корреспонденции» содержится из 6086 символов.

Основные кандзи для использования в административной обработке данных (行政情報処理用基本漢字, Gyōsei Jōhō Shoriyō Kihon Kanji)

Выбран Японией в 1975 году, он состоит из 2817 знаков. Для данных с целью отбора Агентство составило отчет, который, начиная с «Перечень кандзи для стандартного предложения ()», сравнил несколько списков кандзи, «Результаты анализа и частота использования кандзи для административной обработки данных. Нормальный выбор кандзи »(行政情報処理用標準漢字選定のめの漢字の使用頻度対応分析結果, Gyōsei Jōh Shoriyō Kihon Kanji Sentei no Tame no Kanji no Shiy Hindo Oy ō») 対 unse Kekka) для краткости.

Японское регистрационное имя, кандзи (日本生命収容人名漢字, Nihon Seimei Shūyō Jinmei Kanji)

Один из списков иероглифов, составляющих "Результаты анализа корреспонденции" ", состоящий из 3044 знаков.

Кандзи для списка национального административного округа (国土行政区画総覧使用, Kokudo Gyōsei Kukaku Sran, список не существовало для первоначального редакционного комитета). Shiy Kanji)

Один из списки кандзи, составляющие «Результаты анализа корреспонденции», состоящие из 3251 символа. Это иероглифы, используемые в списке всех административных названий мест, составленном «Национальным списком административных округов» (国土行政区画総覧, Kokudo Gyōsei Кукаку Сран). Первоначальный редакционный комитет не исследовал сам листинг; иероглифы, используемые из этого списка, следовали за «Результатами анализа соответствий». етьем стандарте они добавили четыре и два символа к уровню 2, соответственно, в результате чего общее количество иероглифов составило 6355. Кроме того, во втором стандарте, класс формы и перестановка между уровнями; в третьем стандарте также были методы формы персонажа. Они предложения ниже.

Разделение по уровням

2965 кандзи уровня 1 занимают строки с 16 по 47. 3,390 кандзи уровня 2 занимают строки с 48 по 84.

Для уровня 1 символы, общие для Несколько Списки символов кандзи были выбраны на основе тоё кандзи, проекта исправления тоё кандзи и дзинмэйё кандзи в качестве основы. Также были проведены консультации с JIS C 6260 («Идентификационный код To-Do-Fu-Ken (префектура)»; в настоящее время) и JIS C 6261 («Идентификационный код для городов, поселков и деревень»; в настоящее время); кандзи для почти всех японских префектур, городов, негатив, округов, поселков, деревень и т. д. были намеренно помещены на уровень 1. Были добавлены поправки экспертов.

Уровень 2 был посвящен кандзи, которые появлялись в вышеупомянутых четырех основных списках, но не были выбраны для уровня 1. Как принято ниже, кандзи уровня 1 упорядочены по их произношению, поэтому кандзи, чьи произношение было трудно определить, были такие, которые были переведены с уровня 1 на уровень 2 на этом основании (Нишимура, 1978).

Уровень 1 содержит более часто используемые кандзи, а уровень 2 содержит более редко используемые кандзи, но, конечно, они оценивались по стандартам дня; с течением времени некоторые кандзи уровня 2 стали и наоборот, некоторые кандзи уровня 1 стали редкостью, особенно те, которые означают «сантиметр» ( ) и «миллиметр» (粍 ). Кроме того, несколько кандзи дзинмэйё, добавленные после определения кандзи, попадают на уровень 2.

Расположение

Кандзи на уровне 1 сортируются в порядке «репрезентативного чтения» каждого из них. (т.е. каноническое прочтение, выбранное только для целей стандарта); чтение кандзи для этого может быть на или кун чтение; показания отсортированы в порядке годзюон. Как правило, репрезентативное считается включенным (со звуком китайского языка); где кандзи имеет несколько значений чтения, которое считается преобладающим по частому использованию, используется для репрезентативного чтения (стандарт JIS C 6226-1978, раздел 3.4). Для небольшого процента иероглифов, которые либо не имеют значения при чтении, либо имеют малоизвестное значение для чтения, которое редко используется, чтение кун использовалось в качестве репрезентативного чтения. Если в качестве репрезентативного чтения необходимо использовать глагол к, используется форма ren'yōkei (а не shūshikei ).

Например, ячейки с 1 по 41 в строке 16 содержат 41 символ, отсортированный как начиная со значения a. В них 22 символа, в том числе 16-10 (葵 : при чтении «ки»; кун, читающем «аой») и 16-32 (粟 : при чтении «зоку» »И« сёку »; кун, читающий« ава »), существуют на основании их чтений кун. 16-09 (逢 : при чтении «hō», кун читает «a (i)») и 16-23 (扱 : при чтении «sō» и «kyū», kun, читающий «atsuka (i)») - это всего лишь два примера глаголов в форме ren'yōkei, используемой для репрезентативного чтения.

Если репрезентативное прочтение одинаково для разных кандзи, кандзи, в котором используется чтение при чтении, помещается впереди того, в котором используется чтение кун. Если значения или kun одинаковы для нескольких иероглифов, они затем упорядочиваются по их первичному радикалу и штриху.

На уровне 1 или 2, итайдзи устроены так, чтобы непосредственно следовать их образцовой форме. Например, на уровне 2, сразу после строки 49, ячейки 88 (劍 ), следующие сразу же отклоняются от общего (количество штрихов в данном случае) и включают три варианта 49-88 (劔, 劒 и 剱 ).

Кандзи на уровне 2 расположены в порядке первичного корня и количества штрихов.

Кандзи из неизвестных источников

Кандзи, источники неясны, они сортируются путем чтения. неизвестны или иным образом не определены в JIS X 0208: 1997 Приложение 7
Кутэн	Символ	Классификация
52-55	墸	Неизвестно
52-63	壥	Неизвестно
54-12	妛	Источник неясен
55-27	彁	Неизвестен
57-43	挧	Источник неясен
58-83	暃	Источник неясен
59- 91	椢	Источник неясен
60-57	槞	Источник неясен
74-12	蟐	Источник неясен
74-57	袮	Источник неясен
79-64	閠	Источник неясен
81-50	駲	Источник неясен

Это бы ло указал, что в наборе кандзи есть иероглифы, которых нет в исчерпывающих, полных словарях кандзи, и что их источники неизвестны. Например, всего через год после того, как был установлен первый стандарт, Тадзима (1979) сообщил, что он подтвердил 63 кандзи, которых не было в Синдзиген (большой словарь кандзи, опубликованный Кадокава Сётэн ), ни в Дай Кан-Ва дзитэн, и они не имели смысла как рьякудзи любого рода; он отметил, что было бы предпочтительнее, чтобы кандзи, отсутствующие в словарях кандзи, были выбраны из определенных источников. Эти кандзи стали известны как «призрачные» символы (幽霊文字, yūrei moji) или «призрачные кандзи» (幽霊漢字, yūrei kanji), а также другие имена.

Редакционный комитет четвертой версии стандарта также усмотрел в существовании иероглифов с неизвестными источниками как проблему, и поэтому исследовал, на какие источники ссылался редакционный комитет первой версии. В результате было обнаружено, что первоначальный редакционный комитет в значительной степени полагался на «Результаты анализа корреспонденции» при сборе кандзи. Когда редакционный комитет изучил «Результаты анализа корреспонденции», стало ясно, что многие из кандзи, включенных в набор кандзи, но не найденных в исчерпывающих словарях кандзи, предположительно произошли от «японского регистрационного имени кандзи» и «кандзи для национального административного округа. Listing »списки, упомянутые в« результатах анализа корреспонденции ».

Было подтверждено, что не существует оригинального текста для «Японского регистрационного имени кандзи», упоминаемого в «Результатах анализа корреспонденции». Для «Национального списка административных округов» редакционный комитет четвертой версии изучил иероглифы, которые появлялись на страницах незавершенной разработки для первого стандарта. Комитет также изучил многие древние писания, а также множество примеров личных имен в базе данных телефонных справочников NTT.

Благодаря этому тщательному расследованию комитет смог сократить количество иероглифов, источник которых не может быть уверенно объяснен, до двенадцати, указанных в таблице рядом. Предполагается, что некоторые из них возникли из-за ошибок копирования. В частности, 妛, вероятно, был создан, когда принтеры пытались создать 𡚴 путем вырезания и склеивания 山 и 女 вместе. Тень от этого процесса была неверно интерпретирована как линия, в результате чего получилось 妛 (изображение этого можно найти в Дзёё кандзи дзитэн).

Унификация вариантов кандзи

Согласно спецификациям четвертого стандарта (1997), унификация (包摂, hōsetsu, не тот же термин, что используется для Unicode «объединение », хотя это почти та же концепция) - это действие по присвоению одной и той же кодовой точки символу без учета его различных форм символов. В четвертом стандарте допустимое количество символов ограничено; четко определена степень, в которой конкретные аллографические глифы объединяются в графемический код .

Кроме того, в соответствии со спецификациями стандарта, символ (字体, jitai, lit. "тело персонажа";) - это абстрактное понятие графического представления графического символа; символ, форма (字形, jikei, lit. «форма персонажа»; также «глиф» в некотором смысле, но дифференцированный на другом уровне для целей стандартизации) - это представление в виде графической формы, которую глиф принимает в действительности (например, из-за того, что глиф написан от руки, напечатан, отображается на экране и т. д.)). Для одного глифа существует бесконечный диапазон возможных конкретно и / или визуально различных форм символов. Вариация символьной формы одного глифа называется «дизайнерским различием» (デザインの差, dezain no sa).

Степень, в которой глиф объединяется с одной кодовой точкой, определяется в соответствии с «примерным глифом» этой кодовой точки (例示字体, reiji jitai) и «критериями унификации» (包摂規準, hōsetsu kijun), которые может быть применен к этому примеру глифа; то есть пример глифа для кодовой точки применяется к этой кодовой точке, и любые глифы, для которых части, составляющие примерный глиф, заменяются в соответствии с критериями унификации, также применяются к этой кодовой точке.

Например, глиф в примере 33-46 (僧 ) состоит из радикала 9 (亻) и кандзи, которые в конечном итоге породили оба символа итак кана (曽 ). Кроме того, в критерии объединения 101 отображаются три иероглифа: первое принимает форму, наиболее часто встречающуюся в японском языке (曽); второй содержит более традиционную форму (曾 ), в которой первые два штриха образуют радикал 12 (цифра кандзи для числа 8: 八 ); а третий подобен второму, за исключением того, что радикал 12 перевернут (曾). Следовательно, все три перестановки (僧, 僧, 僧) применяются к кодовой точке в строке 33, ячейке 46.

В четвертом стандарте, включая одно из опечаток для первой печати, существует 186 критериев унификации.

Если пример глифа кодовой точки состоит из более чем одного глифа части, критерииунификации правил к каждой части. После того, как критерий универсальной настройки одной части. Кроме того, критерий расчета не может быть другого, если результирующий глифом другой кодовой точки.

Пример глифа - не более чем пример для этой кодовой точки; это не символ, «одобренный» стандартом. Кроме того, согласно правилам унификации необходимо использовать только для использования иероглифов и с назначением вещей точным стандартом этого стандарта. Стандартные запросы о том, что обычно используются кандзи не создаются, на основе глифов и критериев унификации.

Иероглифы набора кандзи не выбираются полностью в соответствии с критериями унификации. Например, хотя 41-7 соответствует форме, в которой они пересекаются третий и четвертый штрихи (彥 ), а также форму, в которой они не пересекаются (彦 ), согласно критерию унификации 72, 20-73 соответствует только форме, в которой они не пересекаются ( ), а 80-90 соответствует только той форме, в которой они пересекаются (顏 ).

Термины «унификации», «Правила унификации» и «пример глифа» были приняты в четвертом стандарте. С первой по третью версии кандзи и отношения между кандзи были сгруппированы в три типа: «независимые» (独立, dokuritsu), «совместимые» (対応, taiō) и «эквивалентные» (同値, dchi); Было объяснено, что символы, признанные эквивалентными, «объединяются только в одну точку». «Эквивалентность» включена, кроме кандзи с точно такой же формой, кандзи с различиями из-за стиля и кандзи, где разница в форме символов небольшая.

В первом стандарте было оговорено, что «этот стандарт... не устанавливает особенности знаков форм» (раздел 3.1); в нем также говорится, что «цель этого стандарта состоит в том, чтобы установить общие символы и их кодов; дизайн форм их символов и тому подобное выходит за рамки его применения ». Во втором и третьем стандарте отмечается, что формы форм знаков не входят в его область применения (примечание к пункту 1). Четвертый стандарт также предусматривает, что «Этот стандарт регулирует графические символы, а также их битовые комбинации, и использование, конкретный дизайн отдельных символов и т. Д. Не входит в сферу применения этого стандарта »(JIS X 0208: 1997, пункт 1).

Критерии унификации для совместимости

В четвертом стандарте «критерии унификации для поддержания совместимости с предыдущими стандартами» (過去の規格とのたの包摂準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun) определяется. Их применение ограничено 29 кодовыми точками, глифы, которые сильно различаются между стандартами JIS C 6226-1983 и последующими и JIS C 6226-1978. Для этих 29 кодовых точек глифы из JIS C 6226-1983 и после них как «A», а глифы из JIS C 6226-1978 как «B». На каждом из них могут быть нанесены символы «A» и «B». Однако, чтобы заявить о совместимости со стандартом, необходимо явно указать, использовалась ли форма «A» или «B» для каждой кодовой точки.

Кодировки символов

Схемы кодирования, предусмотренные JIS X 0208

В JIS X 0208: 1997, статья 7 в сочетании с приложениями 1 и 2 определяет общую сложность восьми схем кодирования.

В приведенных ниже описаниях области «CL» (элемент управления), «GL» (рисунок слева), «CR» (элемент управления справа) и «GR» (рисунок справа) находятся соответственно в столбце / строчное обозначение, от 0/0 до 1/15, от 2/1 до 7/14, от 8/0 до 9/15 и от 10/1 до 15/14. Для каждого кода 2/0 назначается графический символ «ПРОБЕЛ», а 7/15 - управляющий символ «УДАЛИТЬ». Управляющие символы C0 (элементы в JIS X 0211 и соответствующие ISO / IEC 6429 ) назначаются области CL.

7-битное кодирование кандзи: Предусмотрено в самом стандарте. Двухбайтовый набор JIS X 0208 присваивается в области GL.
8-битное кодирование для кандзи: Предусмотрено в самом стандарте. То же, что и 7-битная кодировка, но определяется в 8-битных байтах. Область CR может не используется или кодировать управляющие символы C1 из JIS X 0211. Область GR не используется.
Международная справочная версия + 7-битное кодирование для кандзи: Предусмотрено в самом стандарте. Сдвиг в управляющем символе обозначает IRV ISO / IEC 646 : 1991 (Международная справочная версия, эквивалент US-ASCII ) в области GL. Сдвиг обозначает двухбайтовый набор JIS X 0208 для той же области.
Латинские символы + 7-битная кодировка для иероглифов: Предусмотрено в самом стандарте. Как с IRV + 7-бит, но с ISO / IEC 646: IRV заменен на ISO / IEC 646: JP (римский набор JIS X 0201 ).
Международная справочная версия + 8- битовое кодирование кандзи: Предусмотрено в самом стандарте ISO / IEC 646: IRV назначается области GL, JIS X 0208 - области GR. Это фактически подмножество EUC-JP, за исключением катаканы половинной ширины из JIS X 0201 и дополнительных кандзи из JIS X 0212.
латинские символы + 8-битное кодирование для кандзи: Предусмотрено в сам стандарт. Как и для IRV + 8-бит, но с ISO / IEC 646: IRV заменен на ISO / IEC 646: JP.
Набор символов с кодированием сдвига: Предусмотрено в Приложении 1: «Представление в кодировке Shift» (シフト符号化表現, Shifuto Fugōka Hyōgen). Официальное определение Shift JIS.
Кодировка набора символов RFC 1468: Предусмотрено в Приложении 2: «RFC 1468 -Кодированное представление» (RFC 1468 符号化, RFC 1468 Fugōka Hyōgen). ет ISO-2022-JP (который является авторизированным строго определено в RFC 1468), но определяется в терминах восьмибитных байтов, тогда как ISO-2022-JP определяется в терминах семибитных байтов.

Среди кодировок, используемых в четвертом стандарте, только "Shift" кодированный набор символов зарегистрирован IANA. Однако некоторые другие документы связаны с зарегистрированными кодировками IANA, определенными в другом месте (EUC-JP и ISO-2022-JP).

Escape-следовать для JIS X 0202 / ISO 2022

JIS X 0208 могут быть в ISO 2022 / JIS X 0202 (из которых ISO-2022-JP является подмножество). Управляющие последовательность для каждого из четырех кодовых наборов JIS X 0208 для каждого из четырех кодовых наборов ISO 2022 круг. Здесь «ESC» относится к управляющему символу «Escape » (0x1B или 1/11).

управляющие последовательность ISO 2022 для выбора JIS C 6226 и JIS X 0208
Стандарт	G0	G1	G2	G3
78	ESC 2/4 4/0	ESC 2/4 2/9 4/0	ESC 2/4 2/10 4/0	ESC 2/4 2/11 4/0
83	ESC 2/4 4/2	ESC 2/4 2/9 4/2	ESC 2/4 2/10 4/2	ESC 2/4 2/11 4/2
90 и далее	ESC 2/6 4/0 ESC 2 / 4 4/2	ESC 2/6 4/0 ESC 2/4 2/9 4/2	ESC 2/6 4/0 ESC 2/4 2/10 4/2	ESC 2/6 4/0 ESC 2/4 2/11 4/2

Управляющая последовательность, начинающаяся с ESC 2/4, выбирая многобайтовый набор символов. Управляющая последовательность, начинающаяся с ESC 2/6, указывает версию предстоящего выбора набора символов. JIS C 6226: 1978 идентифицируется байтом 4/0 с набором многобайтовых 94 (соответствует ASCII @). JIS C 6226: 1983 / JIS X 0208: 1983 идентифицируется байтом 4/2 распознаатора из набора многобайтовых 94 (B). JIS X 0208: 1990 также идентифицируется байтом идентификатора из 94 наборов 4/2, но может отличаться идентификатором версии 4/0 (@).

Дублирующие кодировки ASCII и JIS X 0201

При использовании набора кандзи этого стандарта с графическим набором символов ISO / IEC 646: 1991 IRV (ASCII ) или набор графических символов JIS X 0201 для латинских символов (JIS-Roman ), обработка символов, общих для обоих наборов, становится проблематичной. Если не принять специальных мер, символы, включенные в оба набора, не все отображаются друг с другом один к одному, и одному символу может быть присвоено более одной кодовой точки; то есть это может привести к дублированию кодировки.

JIS X 0208: 1997, в отношении того, когда символ является общим для обоих наборов, в основном запрещает использование кодовой точки в наборе кандзи (который является одной из двух кодовых точек), устраняя повторяющиеся кодировки. Считается, что персонажи с одинаковым именем являются одним и тем же персонажем.

Например, как имя символа, соответствующего битовой комбинации 4/1 в ASCII, так и имя символа, соответствующего ячейке 33 строки 3 набора кандзи, являются «ЛАТИНСКОЙ ЗАГЛАВНОЙ БУКВОЙ A». В международной справочной версии + 8-битный код для иероглифов, будь то битовая комбинация 4/1 или битовая комбинация, соответствующая ячейке 33 строки 3 набора кандзи (10/3 12/1), буква «A "(т.е." ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A "). Стандарт запрещает использование битового шаблона «10/3 12/1» в попытке устранить дублирующееся кодирование.

С учетом реализаций, которые обрабатывают символы кодовых точек в кандзи, установленные как «полноширинные символы », а символы ASCII или JIS-Roman как разные символы, использование кодовые точки набора кандзи разрешены только ради обратной совместимости. Например, в целях обратной совместимости разрешено рассматривать 10/3 12/1 в международной справочной версии + 8-битный код для кандзи как подходящей полной ширине «A».

Если набор кандзи используется вместе с ASCII или JIS-Roman, то даже при строгом соблюдении стандартной кодировки символа не гарантируется. Например, в международной справочной версии + 8-битный код для иероглифов допустимо представлять собой дефис с битовой комбинацией 2/13 для символов «ДЕФИС-МИНУС», а также с помощью ячейки 30 строки 1 набора кандзи (10 / 1 11/14) для символа "ДЕФИС". Кроме того, стандарт не определяет, какой из двух использовать для чего, поэтому дефису не присваивается одна уникальная кодировка. Та же проблема возникает со знаком минус, кавычками и т. Д.

Более того, даже если набор кандзи используется как отдельный код, нет гарантии, что реализована уникальная кодировка символов. Во многих случаях полноширинное «IDEOGRAPHIC SPACE » в строке 1, ячейке 1, и пространство половинной ширины (2/0) сосуществуют. Чем должны отличаться, не требует пояснений и не указывается в они стандарте.

Сравнение схем кодирования, использования на практике

Кодирование	Альтернативное имя	7-битное?	ISO 2022 ?	Без гражданства?	Принимает ASCII ?	0x00–7F Всегда ASCII?	Надмножество 8-битного JIS X 0201 ?	Поддерживает JIS X 0212 ?	Самосинхронизация?
ISO-2022-JP	"JIS "(JIS X 0202)	Да	Да	No	Да	Последовательности могут быть не- ASCII	Нет (возможна кодировка)	Возможна	Нет
Shift_JIS	"SJIS"	No	No	Да	Почти	Изолированные байты могут быть не-ASCII	Да	No	Нет
EUC-JP	«UJIS» (Unixized JIS)	No	Да	Да	Да	Всегда ASCII	Нет (в кодировке)	Доступны	Нет
Форматы Unicode для сравнения
UTF-8		No	No	Да	Да	Да	Нет (в кодировке)	Доступно	Да
UTF- 16		No	No	Да	No	No	Нет (в кодировке)	Доступно	Только более 16-битные слова.
GB 18030		No	No	Да	Да	Изолированные байты могут быть не-ASCII	Нет (закодированы)	Доступны	Нет

История

До тех пор, пока не пройдет пять лет после того, как японский промышленный стандарт был у становлен, подтвержден или пересмотрен предыдущий стандартный процесс повторного подтверждения, r выселение или изъятие. С момента создания стандарта трижды подвергался пересмотру, и в настоящее время происходит четвертый стандарт.

Первый стандарт

Первым стандартом является JIS C 6226-1978 «Код японского набора графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan 'yō Kanji Fugōkei), учрежденный министром международной торговли и промышленности Японии 1 января 1978 года. Он также называется 78JIS для краткости. По поручению комитета по исследованиям и изучению стандартизации кода кандзи JIPDEC был подготовлен проект. Председатель комиссии был.

Код включал 453 не-кандзи (включая хирагана, катакана, римский, греческий и кириллический алфавиты и знаки препинания) и 6349 кандзи (2965 кандзи уровня 1 и 3384 кандзи уровня 2), всего 6802 символа. В нем еще не было символов рисования прямоугольников. Сам стандарт был установлен в шрифте Исии Минчо.

Второй стандарт

Второй стандарт JIS C 6226-1983 «Код японского набора графических символов для обмена информацией» (情報交換用漢字符号系, Jōhō Kōkan 'yō Kanji Fugōkei) пересмотрел первый стандарт 1 сентября 1983 года. Он также называется 83JIS . По поручению AIST, комитет JIPDEC, связанный с кодом кандзи, разработал проект. Председатель комиссии был.

Проект второго стандарта был основан на рассмотрении таких факторов, как обнародование дзёё кандзи, соблюдение кандзи дзинмэйё и стандартизация японского языка Teletex почт и телекоммуникаций ; кроме, была выполнена следующая модификация, чтобы не отставать от JIS C 6234-1983 (24-пиксельные матричные матричные печатные формы символов; в настоящее время JIS X 9052).

Добавление специальных символов: Специальным символам было добавлено 39 символов. Среди этих 39 рекомендаций и таких стандартов, как JIS Z 8201-1981 (математические символы) и JIS Z 8202-1982 (количество, единица измерения и химические символы), были выбраны вещи, которые не могут быть представлены составом.
Недавно добавленные символы рисования прямоугольников: Были добавлены 32 символы рисования прямоугольников.
Замена кодовых точек итайдзи: Кодовые точки для 22 вариант пары кандзи были заменены местами, так что вариант на уровне 2 был перемещен на уровень 1 и наоборот. Например, (уровень 1) строка 36, ячейка 59 в первом стандарте (壺 ) была перемещена в (уровень 2) строку 52, ячейку 68; точка, находившаяся в строке 52, ячейка 68 (壷 ), в свою очередь, была перемещена в строку 36, ячейка 59.
Дополнения к кандзи уровня 2: Три символа с 1 и одному символу уровня 2 были присвоены новые кодовые точки в ранее неназначенных кодовых точках в строке 84 как кандзи уровня 2. Итайдзи для каждой из этих кодовых точек были заново присвоены их исходным местоположениям. Например, строка 84, ячейка 1 во втором стандарте (堯 ) была перемещена туда, чтобы приспособить другую форму, не включенную в первый стандарт, в строку 22, ячейку 38, как кандзи уровня 1 (尭 ).
Модификация формы символов: Были использованы символьные формы примерно 300 кандзи.

Среди изменений в этих 300 или около того символьных формх кандзи, многие глифы уровня 1 были в стиле словаря Kangxi были заменены на варианты, особенно в более упрощенные формы (например, ryakuji и extended shinjitai ). Например, пара кодовых пунктов, которые часто подвергаются критике из-за того, что сильно изменились строка 18, ячейка 10 (78JIS: 鷗, 83JIS: 鴎) и строка 38, ячейка 34 (78JIS: 瀆, 83JIS: 涜).

Было много меньших изменений по сравнению с вариантами в стиле Kangxi; например, в строке 25, ячейка 84 (鵠) потеряна часть штриха. Кроме того, там, где некоторые глифы для кандзи уровня 1 не были формы в стиле Канси, некоторые были на формы их ст.. иль для РС; например, ячейка 49 (靠) строки 80 получила часть штриха (то есть ту же часть штриха, которую потеряли 25-84).

Чтобы прояснить первоначальную цель первого стандарта, они попали в параметры унификации в четвертом стандарте. Разница в приведенных выше примерах («鵠» и «靠») подпадает под параметры унификации 42 (в компоненте «»).

Основная часть изменений в форме символов связана с различиями между кандзи уровня 1 и уровня 2. В частности, упрощение выполнялось чаще для кандзи уровня 1, чем для кандзи уровня 2; упрощения, применяемые кандзи уровня 1 (например, от «潑» до «溌» и от «醱» до «醗»), как правило, не применялись к кандзи на уровне 2 («撥» оставалось как есть). Вышеупомянутые 25-84 (鵠) и 80-49 (靠) также подвергались разному лечению, как первый находится на уровне 1, а - на уровне 2. Тем не менее, были некоторые изменения независимо от уровня; например, символы, содержащие компоненты «дверь» (戸) и «зима» (冬), были без разницы между кандзи уровня 1 и уровня 2.

для 29 кодовых точек (таких как проблемные 18-10 и 38 -34, упомянутые выше стандарты), формы, унаследованные четвертымтом, противоречащий стандартному замыслу первого. Обеспечивающие совместимость с предыдущими стандартами в этих кодовых точках.

Когда была введена новая категория «X» для японских промышленных стандартов (для полей, связанных с информацией), второй стандарт был переименован в JIS X 0208-1983 1 марта 1987 года.

Третий стандарт

Третий стандарт JIS X 0208-1990 «Код японского набора графических символов для обмена информацией» (情報交換用漢字符号, Jōhō Kōkan'yō Кандзи Фуго) пересмотрел второй стандарт 1 сентября 1990 года. Его также для краткости называют 90JIS . По поручению комитета AIST комитет Японской ассоциации стандартов по пересмотру JIS X 0208 создал проект. Председатель комиссии был.

225 символов кандзи были, и два символа были добавлены на уровень 2 (84-05 «凜 » и 84-06 «熙 »). Это было разделение итайдзи для двух уже включенных персонажей (49-59 «凛 » и 63-70 «煕 »). Некоторые изменения и два дополнения соответствовали 118 дзинмэйё кандзи, добавленным в марте 1990 года. Сам стандарт был установлен.

Четвертый стандарт

Четвертый стандарт JIS X 0208: 1997 «7-битные и 8-битные двухбайтовые наборы KANJI для обмена информацией» (7 ビット及ッ 8ビットの 2 バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūg) 20 января 1997 г. пересмотрел третий стандарт. Он также называется 97JIS для краткости. По поручению комитета AIST JSA по исследованию и изучению кодированных наборов символов подготовил проект. Председатель комиссии был.

Основная политика этой редакции, чтобы включить в том, чтобы не вносить изменения в набор символов, прояснить неоднозначные положения и сделать стандарт более в использовании. Добавление, удаление и перестановка кодовых точек не производились, и все без исключения глифы также остались без изменений. Однако положения стандарта были полностью переписаны и / или дополнены. В то время как третий стандарт составлял 65 страниц без пояснений, четвертый стандарт - 374 страницы без объяснений.

Основными пунктами пересмотра являются:

Определение методов кодирования: До стандарта стандартного определен только метод кодирования, основанный на расширении кода JIS X 0202. Это что-то необычное с точки зрения кодированных наборов символов. В четвертом стандарте установлены методы кодирования, которые не используют escape-код для расширения кода.
Определение общего запрета на использование неназначенных кодовых точек и методов использования неназначенных кодовых точек: Третий стандарт в пояснении, не являющийся частью стандарта, такие вещи, как будто есть места, где для некоторых неназначенных кодовых точек было приемлемо назначать гайдзи. В четвертом стандарте было разъяснено, использование неназначенных кодовых точек вообще запрещено. Кроме того, были указаны условия использования неназначенных кодовых точек.
Общее исключение повторяющихся кодировок: Каждому символу было присвоено «имя символа», соответствующее другим стандартам. Кроме того, указаны методы кодирования их использования вместе с международной справочной версией ISO / IEC 646 или JIS X 0201. Когда JIS X 0208 используется вместе с любым из двух присвоенных кодовых точек для символов с тем же именем, разрешается только одна; таким образом, дублирующиеся кодировки, как правило, исключались.
Исследование источников кандзи: символов, включенных на данный момент в стандарт, которые не встречаются ни в Словаре Канси, ни в Дай Канва Дзитэн были опознаны. Соответственно, было исследовано, что именно для включения и из каких источников были взяты эти кандзи во время составления первого стандарта.
Определение критериев объединения иероглифов: Основано на таких вещах, как материалы для При разработке первого стандарта была сделана попытка восстановить намерение первого стандарта в объеме глифов, который представляет каждую кодовую точку. Кроме того, были тщательно оценены глифов кандзи.
Включение стандартов де-факто: Ко времени появления четвертого метода кодирования Shift JIS и ISO-2022-JP стал стандартом де -факто для электронных компьютеров и электронной почты соответственно. Эти методы кодирования были включены как «Представление с кодированием» и «Представление с кодированием RFC 1468» (описано выше).

Преемники

JIS X 0213 () были разработаны «с оптимальным набором символов для кодирования современного японского языка, который JIS X 0208 планировал использовать с самого начала»; он определяет набор символов, расширяющий набор кандзи JIS X 0208. Составители JIS X 0213 рекомендуют переход с JIS X 0208 на JIS X 0213, среди преимуществ которого является совместимость JIS X 0213 со списком символов Hyōgai Kanji Glyph List и с более новым jinmeiyō кандзи <2287 Редакционный комитет JIS X 0213: 2004 написал (в 2004 году): «По-прежнему сохраняет статус, согласно другим информационным системам могут использовать совместно».>Вопреки ожиданиям разработчиков, принятие JIS X 0213 было далеко не быстрым моментом его принятия в 2000 году. только JIS X 0208 ». (JIS X 0213: 2000, Приложение 1: 2004, раздел 2.9.7)

Для Microsoft Windows преобладающая операционная система (и, следовательно, обеспечивающая преоблад ающую среду рабочего стола ) в системе компьютеров репертуар JIS X 0213 был включен с момента выпуска Windows Vista, выпущенной в ноябре 2006 года. Mac OS X соответствие с JIS X 0213, начиная с версии 10.1 (выпущенной в 2001 году). Многие Unix-как подобные, такие Linux, могут (опционально) поддерживать JIS X 0213 при желании. Таким образом, считается, что со временем поддержка JIS X 0213 на компьютере компьютерах не станет препятствием для его окончательного внедрения.

Среди разработчиков JIS X 0213 есть те, кто ожидает увидеть смесь JIS X 0208 и JIS X 0213 до принятия JIS X 0213 (Satō, 2004). Тем не менее, JIS X 0208 продолжает знакомить в настоящее время, и предсказывают, что он останется прежним. Существуют препятствия, которые необходимо преодолеть, чтобы JIS X 0213 использовался в обычном использовании JIS X 0208 в обычном использовании:

Репертуар персонажей, использованных в японских мобильных телефонах в настоящее время, используется на JIS X 0208. Нет никаких официальных заявленных вытесненных документов Планы по их перемещению на совместимость с JIS X 0213. Мобильные телефоны в настоящее время широко распространенным распространенным распространением японской текстовой коммуникации (см. Японская культура мобильных телефонов ), они являются широко распространенным и часто используемым средством для отправки электронная почта и доступа к World Wide Web, отсутствие поддержки мобильных телефонов поддерживает их использование в других местах.
JIS X 0213 не является строго совместимым с JIS X 0208 с точки зрения критериев унификации (см. ниже). Считается, что для крупномасштабных архивов (например, библиографических баз данных и Аозора Бунко ), которые используют JIS X 0208 и строго следуют его критериям унификации, будет чрезвычайно сложно преобразовать все данные, соответствующие JIS X 0213 и сохраняют тот же стандарт текстовой целостности.
На практике многие системы определяют и используют неназначенные кодовые точки в JIS X 0208. Например, Windows назначает расширенные символы IBM и NEC и пользователя -определенные области символов (см. Windows-932 ), мобильные телефоны назначают эмодзи в некоторых местах. Кодовые точки этих гайдзи конфликтуют с кодовыми точками, которые используют коды JIS X 0213, поэтому возникли некоторые трудности при перемещении этих систем с JIS X 0208 на JIS X 0213. Также есть планы по переходу на UCS / Unicode и использовать репертуар JIS X 0213 оттуда, но до тех пор, пока системный администратор не сможет судить, что реализация UCS / Unicode суррогатных пар и составов символов достаточно стабильны, он или она, вероятно, не решатся использовать репертуар JIS X 0213, который требует этих реализаций.
Усовершенствования, используемые в JIS X 0213, в основном к сфере символов, которые используются не так часто, как уже присутствует в JIS X 0208. Предоставляется почти вдвое больше глифов для меньшего использования этих дополнительных глифов. многих это может привести к низким окупаемости инвестиций, особенно когда ресурсы ограничены.

Реализация

Буквально JIS X 0208 / JIS C 6226 является примитивным Например, набор символов , а не строго определенная кодировка символов , несколько компаний внедрили свои собственные кодировки набора символов.

Apple Computer Inc. : MacJapanese (на основе Shift_JIS)
Fujitsu :
Hitachi Ltd. : KEIS (на основе EBCDIC)
IBM : различные, включая IBM-932 и IBM-942 (оба на основе Shift_JIS)
Microsoft : Windows-932 (на основе Shift_JIS)
NEC :

Некоторые из них включают присвоение символов, зависящее от производителя, вместо нераспределенных областей стандарта. К ним относятся Windows-932 и MacJapanese, а также кодировка символов NEC PC98. Хотя IBM-932 и IBM-942 также включают в себя назначение поставщиков, они включают в себя использование других стандартов JIS X 0208.

Отношение к стандартам

ISO / IEC 646 IRV и ASCII

Как отмечалось выше, набор кандзи несовместим снизу вверх с набором графических символов ISO / IEC 646: 1991 IRV (ASCII). Набор кандзи и набор графических символов IRV можно использовать вместе, как указано в JIS X 0208 (IRV + 7-битный код для кандзи и IRV + 8-битный код для кандзи). Их также можно использовать вместе в EUC-JP.

JIS X 0201

В наборе кандзи отсутствуют три символа, включенные в набор графических символов JIS X 0201 для латинских символов: 2/2 (QUOTATION MARK), 2 / 7 (АПОСТРОФ) и 2/13 (ДЕФЕН-МИНУС). Набор кандзи содержит все символы, входящие в набор графических символов JIS X 0201 для катаканы.

Набор кандзи и набор графических символов для латинских обозначений, как указано в JIS X 0208 (латинские символы + 7-битный код для кандзи и латинские символы + 8-битный код для кандзи). Набор иероглифов, набор графических символов для латинских символов и набор графических символов JIS X 0201 для катаканы могут быть набор вместе, как указано в JIS X 0208 (символы с кодировкой сдвига, т.е. Shift JIS ). Набор кандзи и набор графических символов для катаканы могут быть вместе вместе в EUC-JP.

JIS X 0212

JIS X 0212 (дополнительные кандзи), определяющие дополнительные символы с кодовыми точками для информационных целей. обработка, для которой требуются символы, отсутствующие в JIS X 0208. Вместо выделения символов в основном наборе кандзи JIS X 0208 он определяет второй набор кандзи размером 94 на 94, дополнительные символы.

JIS X 0212 может быть с JIS X 0208 в EUC-JP. Кроме того, JIS X 0208 и JIS X 0212 являются исходными стандартами унификации UCS / Unicode Han, что означает, что кандзи из обоих наборов может быть включен в один документ формата Unicode.

Среди кодовых точек, которые изменила вторая версия JIS X 0208, 28 кодовых точек в JIS X 0212 отражают формы символов до изменений. Кроме того, JIS X 0212 переназначает «знак закрытия », который JIS X 0208 назначил как не-кандзи (〆, в строке 1 ячейка 26) как кандзи (乄, в строке 16 ячейка 17). JIS X 0212 не имеет общих символов с JIS X 0208, кроме этих. Следовательно, сам по себе он не подходит для общего использования.

Однако в четвертой версии JIS X 0208 соединение с JIS X 0212 вообще не было определено. Считается, что это связано с тем, что редакционный комитет четвертого стандарта JIS X 0208 имел критическое мнение о методах выбора и идентификации JIS X 0212. Значения символов и обоснования выбора не были должным образом задокументированы, что затрудняло определение желаемого кандзи соответствовали таковым в его репертуаре. В тексте четвертого стандарта, а также указывается на проблемные моменты выбора символов в JIS X 0212, говорится, что «считается, что не только невозможно выбрать символы, но также невозможно использовать их вместе; связь с JIS X 0212 вообще не определен ". (раздел 3.3.1)

JIS X 0213

диаграмма Эйлера сравнение репертуаров JIS X 0208, JIS X 0212, JIS X 0213, Windows-31J, стандартный репертуар Microsoft и Unicode.

JIS X 0213 (расширение кандзи) определяют набор кандзи, который расширяется на набор кандзи JIS X 0208. Согласно этому стандарт, он «разработан с целью предложить достаточный набор символов для целей кодирования современного японского языка, который JIS X 0208 планировал использовать с самого начала».

Набор кандзи JIS X 0213 включает в себя все символы, которые могут быть представлены в наборе кандзи JIS X 0208, со многими дополнениями. Всего JIS X 0213 определяет 1183 не-кандзи и 10 050 иероглифов (всего 11 233 символа) в двух плоскостях 94 на 94 (面, мужчины). Первая плоскость (без кандзи и кандзи уровней 1-3) основана на JIS X 0208, тогда как вторая плоскость (кандзи уровня 4) предназначена для размещения в нер аспределенных строках JIS X 0212, что позволяет использовать в EUC. -JP. JIS X 0213 также определяет Shift_JISx0213, вариант Shift_JIS, способный полностью кодировать JIS X 0213.

Для большинства целей и целей плоскость 1 JIS X 0213 является надмножеством JIS X 0208. Однако к некоторым кодовым точкам в JIS X 0213 применяются разные критерии унификации по сравнению с JIS X 0208. Следовательно, некоторым парам глифов иероглифов, которые были представлены одной кодовой точкой JIS X 0208, из-за их унификации назначается отдельный код. точек в JIS X 0213. Например, глиф в строке 33, ячейка 46 JIS X 0208 («僧», описанный выше) объединяет несколько вариантов из-за его правого компонента. В JIS X 0213 две формы (одна, содержащая компонент «») объединены на плоскости 1, строке 33, ячейке 46, а другая (содержащая компонент «») расположена в плоскости 1, строке 14, ячейке 41. Следовательно, Не может быть определено автоматически, должна ли ячейка 46 строки 33 JIS X 0208 отображаться в ячейку 41 строки 33 плоскости 1 JIS X 0213 или ячейке 41 строки 14 плоскости 1. Это ограничивает степень, в которой JIS X 0213 может считаться совместимым снизу вверх с JIS X 0208, что было признано редакционным комитетом JIS X 0213.

Однако по большей части строка m ячейка n в JIS X 0208 соответствует плоскости 1 строки m ячейки n в JIS X 0213; поэтому на практике не возникает большой путаницы. Это связано с тем, что в большинстве гарнитур используются глифы, представленные в JIS X 0208, и большинство пользователей не осознают критерии унификации.

ISO / IEC 10646 и Unicode

Набор иероглифов JIS X 0208 входит в число исходных стандартов для унификации хань в ISO / IEC 10646 (UCS) и Unicode. Каждый кандзи в JIS X 0208 соответствует своей кодовой точке в базовой многоязычной плоскости (BMP) UCS / Unicode.

Не-кандзи в JIS X 0208 также соответствуют их собственным кодовым точкам в BMP. Однако для некоторых специальных символов некоторые системы реализуют другие соответствия, чем в UCS / Unicode (которые основаны на именах символов, указанных в JIS X 0208: 1997).

Сноски

Пояснение

Ссылки для справок

^«Почему Япония не создала iPod». Гатунка. 5 мая 2008 г.
^JIS X 0208 не был одним из стандартов, включенных в список применимых целевых систем для отображения нового знака JIS, объявленного Министерством экономики, торговли и промышленности. 17 января 2007 г.
^ Стил, Шон (15 апреля 1998 г.). «CP932.TXT: cp932 в таблицу Unicode». Microsoft. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
^ «Карта (внешняя версия) из японской кодировки Mac OS в Unicode 2.1 и выше ". Apple. (коды в формате Shift_JIS; SJIS 0x815C = 1-29 = JIS 0x213D; SJIS 0x817C = 1-61 = JIS 0x215D)
^ Лунде, Кен (21 марта 2019 г.). "Краткая история лигатур имен японской эры". Блог CJK Type. Adobe Inc.
^"233: Набор японских графических символов для обмена информацией, плоскость 1" (PDF). IPSJ.
^Unicode, Inc. (14 октября 2011 г.). «JIS X 0208 (1990) в Unicode».
^ван Кестерен, Энн, «Индекс jis0208», стандарт кодирования, WHATWG
^Юнгшик Шин (14 октября 2011). «KSX1001.TXT: KS X 1001 в таблицу Unicode». Unicode, Inc.
^ ISO-IR-233 (JIS X 0213: 2004, плоскость 1) кодовая таблица
^JIS C 6225-1979 (коды управляющих символов для целей набора японских графических символов для обмена информацией) обеспе чивает управление символы для начала и конца композиции. JIS C 6225 был переименован в JIS X 0207 в 1987 году и был отозван в 1997 году.
^В наборах символов IANA Shift JIS определяется ссылкой на JIS X 0208. : 1997 Приложение 1.
^ «15. История JIS X 0208», Набор японских графических символов IBM для расширенного кода UNIX (EUC) (PDF), IBM, стр. 371, заархивировано (PDF) из оригинала 8 декабря 2017 г., получено 8 декабря 2017 г.
^Лунде, Кен. «Приложение Q § 78-vs-83-3». CJKV Information Processing (дополнительный материал). О'Рейли. Обратите внимание на включение кодов кутэн с опущенным дефисом.
^Лунде, Кен. «Приложение Q § 78-против-83-2». CJKV Information Processing (дополнительный материал). О'Рейли. Обратите внимание на включение кодов кутен без дефиса.
^Согласно Nomura (1984), количество измененных форм символов, включая переходы между кодовыми точками, составляет 294. Согласно Shibano (1997a) и тексту четвертого стандарта, количество измененных форм символов составляет 300.
^ Оригинал на японском: 「JIS X 0208 が当初符号化意図していた現代符号化するために十分な文字集合を提供するとを目的としし. «Приложение Q § TJ2». CJKV Information Processing (дополнительный материал). О'Рейли. Обратите внимание на включение кодов кутен без дефиса.
^Например, Шибано Кодзи (1997a), который был председателем редакционного комитета четвертого стандарта, так сказал о методе выбора: «Он основан на поверхностном понимании выбора набора символов JIS X 0208; он является ошибочным пониманием »(оригинальный японский:「 JIS X 0208 の文字集合選定の表層的理解に基づくのであり、間った) и «Существует большая проблема в исследовании всего набора символов, превышающего 10000 знаков ". (оригинальный японский: 「1 万字を越える水準の文字集合の検討として、大きな問題がある」)
^Марукава, Казуши. «Наборы символов JIS - JIS X 0212: 1990». Архивировано из оригинала 22 мая 2005 года.
^Чанг, Хешик. «Readme для CJKCodecs». cPython. Python Software Foundation.
^JIS X 0213: 2000 раздел 5.3.2, JIS X 0213: 2000 Приложение 1: 2004 раздел 3.2.2

См. Также

Кодированные наборы символов JIS
- JIS X 0201 «Наборы 7-битных и 8-битных кодированных символов для обмена информацией»
- JIS X 0202 «Информационные технологии - Структура кода символов и методы расширения» (ISO / IEC 2022 )
- JIS X 0208 «7-битные и 8-битные двухбайтовые наборы KANJI для обмена информацией»
- JIS X 0211 «Функции управления для кодированных наборов символов» (ISO / IEC 6429 )
- JIS X 0212 «Код дополнительного набора японских графических символов для обмена информацией»
- JIS X 0213 «7-битные и 8-битные двухбайтовые расширенные наборы KANJI для обмена информацией»
- «Универсальный множественный -Octet Coded Character Set (UCS) »(ISO / IEC 10646 )
Extended shinjitai

Ссылки

В целях цитирования эти японские имена представлены, как если бы они были в западном порядке эр, где романизированный, и сохраняют восточный порядок где нет.

Нисимура, Хирохико [西村恕彦], 1978. Кандзи JIS [漢字の JIS]. Журнал стандартизации [標準化ジャーナル], 171: 3–8.
Номура, Масааки [野村雅昭], 1984. Редакция JIS C 6226: Коды кандзи для обмена информацией [JIS C 6226 情報交換用漢字符号系の改正]. Журнал стандартизации [標準化ジャーナル], 14 (3): 4–9.
Огата, Кацухиро [小形克宏], 2006a. постоянная мертвая ссылка ] Вещи, которые не были унифицированы в 97JIS, среди примеров глифов, измененных в JIS C 6226-1983 (83JIS) [JIS C 6226-1983 (83JIS) で例示字体を変ち、 97JIS で包摂とされなかったもの] (по состоянию на 29 января 2007 г.).
Огата, Кацухиро [小形克宏], 2006b. постоянная мертвая ссылка ] Вещи, которые попадали в область унификации среди примеров глифов, изменены в JIS C 6226-1983 (83JIS) [JIS C 6226-1983 (83JIS) 例示字体変更のうち、包摂の範囲内だったもの] (доступ 29 января 2007 г.).
Satō, Takayuki [佐藤敬幸], 2004 г. Относительно версии JIS X 0213 (7-битные и 8-битные двухбайтовые расширенные наборы кандзи для обмен информацией) [JIS X 0213 (7 ビット及び 8 ビットの 2 バイト用符号化拡張漢字集合) の改正について]. Журнал стандартизации [標準化ジャーナル], 34 (4): 8–12.
Сибано, Кодзи [芝野耕司], 1997a. Относительно версии JIS X 0208 (наборы кандзи с 7-битным и 8-битным двухбайтовым кодированием для обмена информацией) [JIS X0208 (7 ビット及び 8 ビットの 2 バイト情報交換用符号集合) の改正について]. Журнал стандартизации [標準化ジャーナル], 27 (3): 8–12.
Сибано, Кодзи [芝野耕司], 1997b. План расширения кандзи JIS [JIS 漢字の拡張計画]. Журнал стандартизации [標準化ジャーナル], 27 (7): 5–11.
Shibano, Kji [芝野耕司], 2000. Внедрение JIS X 0213 (7-битное и 8-битное двухбайтовое расширенное кандзи наборы для обмена информацией) [JIS X 0213 (7 ビット及び 8 ビットの 2 バイト用符号化拡張漢字集合) の制定]. Журнал стандартизации [標準化ジャーナル], 30 (3): 3–7.
Сибано, Кодзи [芝野耕司], 2001. Относительно кандзи JIS [漢字について]. Стандартизация и контроль качества [標準化と子管理], 54 (8): 44–50.
Сибано, Кодзи [芝野耕司] (редактор), 2002. Словарь кандзи JIS, расширенное и исправленное издание [増補改訂JIS 漢字字典]. Токио: Японская ассоциация стандартов (ISBN 4-542-20129-5 ).
Сибано,Кодзи [芝野耕司], 2002. Развитие обработки кандзи и японского языка технологии: стандартизация кодов кандзи [漢字・日本語処理技術の発展: 漢字コードの標準化]. IPSJ Magazine [情報処理], 43 (12): 1362–1367
Таджима, Кадзуо [田嶋一夫], 1979. Проблемы, связанные с использованием списка кандзи JIS: разработка и обработка кандзи в системах обработки кандзи [JIS 漢字表の利用上の問題: 漢字処理シスムにおける漢字ザインと管理]. Journal of Information Японское общество обработки данных [情報管理], 21 (10): 753–761.
Утида, Томио [内田富雄], 1990. Создание JIS X 0212 (Коды кандзи для обмена информацией - дополнительные кандзи) [ JIS X 0212 (情報交換用漢字符号 - 補助漢字) の制定]. Standardization Journal [標準化ジャーナル], 20 (11): 6–11.
Yasuoka, Kōichi [安岡孝], 2001a. Situation новейших кодов символов в Японии (бывшая часть) [日本における最新文字コード事情 (前編)]. Системы, управление и информация [システム / 制御 / 情報], 45 (9): 528–535.
Ясуока, Коити [安岡孝一], 2001b. Ситуация с новейшими кодами символов в Японии (последняя часть) [日本における最新文字コード事情 (後編)]. Системы, контроль и информация [システム / 制御 / 情報], 45 (12): 687–694.
Ясуока, Коити [安岡孝一], 2006 «Различия между планом JIS иероглифов (1976) и JIS C 6226-1978 "[JIS 漢字案 (1976) と JIS C 6226-1978 の異同] на 17-м исследовательском семинаре« Использование компьютеров для востоковедения »[東洋学へのンピュータ利用]. 3–51.
Ясуока, Коити [安岡孝一] и Мотоко Ясуока [安岡素子], 2006. История кодов символов: Европа, Америка и Япония [文字符号の歴史: 欧米と日本編]. Токио: Kyōritsu Shuppan (ISBN 4-32012102-3 ).

Внешние ссылки

Найдите Японские кандзи по JIS X 0208 код кутэн в Викисловарь, бесплатный словарь.

Международный регистр, который контролируется IPSJ / ITSCJ.
(на японском языке) Поиск в базе данных Японского комитета по промышленным стандартам (последний ста ндарт можно прочитать здесь).
(на японском языке) Поиск в базе данных Японской ассоциации стандартов : (копию последней версии стандарта можно приобрести здесь).
(на японском языке) Положения, касающиеся унификации, в Стандарты JIS X 0208 и 0213
(на японском языке) Cyber Librarian - список кандзи JIS