Псевдоним (а) | JIS C 6226 |
---|---|
Язык (и) | Японский, Английский, Русский. Частичная поддержка : Греческий, Китайский |
Стандарт | JIS X 0208: 1978–1997 |
Классификация | ISO 2022, DBCS, Кодировка CJK |
Расширения | ARIB STD B24 Kanji, NEC PC98 DBCS |
Форматы кодирования |
|
Предыдущий | JIS X 0201 |
Преемник | JIS X 0213 |
Другая связанная кодировка | KS X 1001, GB 2312, JIS X 0212 |
|
JIS X 0208 - это 2-байтовый набор символов , заданный как Японский промышленный стандарт, содержащий 6879 графических символов, подходящих для написания текста, географических названий, личных имен и т. д. на японском языке. Все названия текущего стандарта: 7-битные и 8-битные двухбайтовые наборы KANJI для обмена информацией (7 ビ ッ ト 及 び 8 ビ ッ ト の 2 バ イ ト 情報 交換 用 符号 化 漢字, Nana-Bitto Oyobi Hachi -Bitto no Ni-Baito Jōh Kōkan'y Fugōka Kanji Shūg). Первоначально он был создан как JIS C 6226 в 1978 году и был переработан в 1983, 1990 и 1997 годах. IBM также называет его кодовой страницей 952 . Версия 1978 года также называется IBM кодовой страницей 955 .
Набор символов, установленный JIS X 0208, в первую очередь предназначен для обмена информацией (情報 交換, jh ō kōkan) между системами обработки данных и подключенными к ним устройствами или взаимно между системами передачи данных. Этот набор символов можно использовать для обработки данных и обработки текста.
Частичные реализации набора символов не считаются совместимыми. Потому что есть места, где происходили такие вещи, как первоначальный редакционный комитет первого стандарта, который заботился о разделении персонажей между уровнем 1 и уровнем 2 и вторым стандартом, а затем перетасовывал некоторые варианты символов (異体 字, itaiji ) между уровнями, по крайней мере, в первом и втором стандартах, предполагается, что японские компьютерные системы, не использующие кандзи, и реализация только уровня 1, когда-то рассматривались для разработки. Однако такие реализации никогда не определялись как совместимые, хотя такой пример, как ранний NEC PC-9801, действительно существовал.
Несмотря на то, что в стандарте JIS X 0208: 1997 есть положения, касающиеся совместимость, в настоящее время обычно считается, что этот стандарт не сертифицирует совместимость и не является официальным производственным стандартом, который составляет декларацию самосовместимости. Следовательно, де-факто «совместимые с JIS X 0208» продукты не считаются существующими. Такие термины, как «соответствующий» (準 拠, junkyo) и «поддержка» (対 応, taiō) включены в JIS X 0208, но семантика этих терминов варьируется от человека к человеку.
Первый байт кодирования соответствует номеру строки или ячейки плюс 0x20 или 32 в десятичном формате (см. Ниже). Следовательно, кодовый набор, начинающийся с 0x21, имеет номер строки 1, а его ячейка 1 имеет байт продолжения 0x21 (или 33) и так далее.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | SP. 0020. | Пунктир.. LEAD. 1-_ | Символ. LEAD. 2-_ | Alnum.. LEAD. 3-_ | Hiragana. LEAD. 4-_ | Катакана. LEAD. 5 -_ | Греческий. LEAD. 6-_ | Кириллица. LEAD. 7-_ | Поле. LEAD. 8-_ | .. 9-_ | .. 10-_ | .. 11-_ | .. 12-_ | .. 13-_ | .. 14-_ | .. 15-_ |
3_ | Кандзи L1. LEAD. 16 -_ | Кандзи L1. ВЕДУЩИЙ. 17-_ | Кандзи L1. ВИД. 18-_ | Кандзи L1. ВИД. 19-_ | Кандзи L1. ВЕДУЩИЙ. 20-_ | Кандзи L1. ВВОД. 21-_ | Кандзи L1. ВВОД. 22-_ | Кандзи L1. LEAD. 23-_ | Кандзи L1. LEAD. 24-_ | Кандзи L1. LEAD. 25-_ | Кандзи L1. LEAD. 26 -_ | Кандзи L1. ВВОД. 27-_ | Кандзи L1. LEAD. 28-_ | Кандзи L1. LEAD. 29-_ | Кандзи L1. LEAD. 30-_ | Kanji L1. LEAD. 31-_ |
4_ | Kanji L1. LEAD. 32-_ | Kanji L1. LEAD. 33-_ | Kanji L1. LEAD. 34-_ | Кандзи L1. ВЕДУ. 35-_ | Кандзи L1. ВИД. 36-_ | Кандзи L1. ВИД. 37-_ | Кандзи L1. ВВОД. 38-_ | Кандзи L1. ВВОД. 39-_ | Кандзи L1. ВВОД. 40-_ | Кандзи L1. LEAD. 41-_ | Кандзи L1. LEAD. 42-_ | Кандзи L1. LEAD. 43-_ | Кандзи L1. LEAD. 44-_ | Кандзи L1. ВИД. 45-_ | Кандзи L1. ВИД. 46-_ | Кандзи L1. ВЕДУ. 47-_ |
5_ | кандзи L2. LEAD. 48-_ | Kanji L2. LEAD. 49-_ | кандзи L2. LEAD. 50 -_ | Кандзи L2. ВВОД. 51-_ | Кандзи L2. ВВОД. 52-_ | Кандзи L2. ВВОД. 53-_ | Кандзи L2. LEAD. 54-_ | Кандзи L2. LEAD. 55-_ | Кандзи L2. LEAD. 56-_ | K anji L2. LEAD. 57-_ | Kanji L2. LEAD. 58-_ | Kanji L2. LEAD. 59-_ | Kanji L2. LEAD. 60-_ | Кандзи L2. LEAD. 61-_ | Кандзи L2. LEAD. 62-_ | Кандзи L2. LEAD. 63 -_ |
6_ | кандзи L2. LEAD. 64-_ | Kanji L2. LEAD. 65-_ | кандзи L2. LEAD. 66- _ | Кандзи L2. ВВОД. 67-_ | Кандзи L2. ВВОД. 68-_ | Кандзи L2. ВВОД. 69-_ | Кандзи L2. LEAD. 70-_ | Кандзи L2. LEAD. 71-_ | Кандзи L2. LEAD. 72-_ | Кандзи L2. LEAD. 73-_ | Кандзи L2. ВВЕДЕНИЕ. 74-_ | Кандзи L2. ВВОД. 75-_ | Кандзи L2. ВВОД. 76- _ | Кандзи L2. ВЕДУЩИЙ. 77-_ | Кандзи L2. ВИД. 78-_ | Кандзи L2. ВИД. 79-_ |
7_ | кандзи L2. LEAD. 80-_ | Kanji L2. LEAD. 81-_ | кандзи L2. LEAD. 82-_ | кандзи L2. LEAD. 83-_ | Kanji L2. LEAD. 84-_ | .. 85-_ | .. 86-_ | .. 87-_ | .. 8 8-_ | .. 89-_ | .. 90-_ | .. 91-_ | .. 92-_ | .. 93-_ | .. 94-_ | DEL. 007F. |
Некоторые поставщики используют несколько иное отображение Unicode для этого набора, чем приведенное ниже. Например, Microsoft сопоставляет kuten 1-29 (JIS 0x213D) с U + 2015 (горизонтальная полоса), тогда как Apple сопоставляет его с U + 2014 (Em Dash). Точно так же Microsoft сопоставляет kuten 1-61 (JIS 0x215D) с U + FF0D (полноразмерная форма U + 002D Дефис-минус), а Apple сопоставляет его с U + 2212 (знак минуса). Отображение волны в Unicode тире также различается у разных производителей. См. Ячейки со сносками ниже. Для знаков препинания
ASCII и JISCII (показаны здесь с жирной зеленой рамкой) могут использоваться альтернативные сопоставления с блоком Halfwidth и Fullwidth Forms, если они используются в кодировке, сочетающей JIS X 0208 с ASCII или с JIS X 0201, например Shift JIS, EUC-JP или ISO 2022-JP.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | IDSP. 3000. 1-1 | 、. 3001. 1-2 | 。. 3002. 1-3 | ,. 002C. 1-4 | .. 002E. 1-5 | ・. 30FB. 1-6 | :. 003A. 1-7 | ;. 003B. 1-8 | ?. 003F. 1-9 | !. 0021. 1-10 | ゛. 309B. 1-11 | ゜. 309C. 1-12 | ´. 00B4. 1-13 | `. 0060. 1-14 | ¨. 00A8. 1-15 | |
3_ | ^. 005E. 1-16 | ‾. 203E. 1 -17 | _. 005F. 1-18 | ヽ. 30FD. 1-19 | ヾ. 30FE. 1-20 | ゝ. 30 9D. 1-21 | ゞ. 309E. 1-22 | 〃. 3003. 1-23 | 仝. 4EDD. 1-24 | 々. 3005. 1-25 | 〆. 3006. 1-26 | 〇. 3007. 1-27 | ー. 30FC. 1-28 | —. 2014. 1-29 | ‐. 2010. 1-30 | /. 002F. 1-31 |
4_ | \. 005C. 1-32 | 〜. 301C. 1-33 | ‖. 2016. 1-34 | |. 007C. 1- 35 | …. 2026. 1-36 | ‥. 2025. 1-37 | ‘. 2018. 1-38 | ’. 2019. 1-39 | “. 201C. 1- 40 | ”. 201D. 1-41 | (. 0028. 1-42 | ). 0029. 1-43 | . 3014. 1-44 | . 3015. 1- 45 | [. 005B. 1-46 | ]. 005D. 1-47 |
5_ | {. 007B. 1-48 | }. 007D. 1-49 | 〈. 3008. 1-50 | 〉. 3009. 1-51 | 《. 300A. 1-52 | 》. 300B. 1-53 | 「. 300C. 1-54 | 」. 300D. 1-55 | 『. 300E. 1-56 | 』. 300F. 1-57 | 【. 3010. 1-58 | 】. 3011. 1-59 | +. 002B. 1-60 | −. 2212. 1-61 | ±. 00B1. 1-62 | ×. 00D7. 1-63 |
6_ | ÷. 00F7. 1-64 | =. 003D. 1-65 | ≠. 2260. 1-66 | <. 003C. 1-67 | >. 003E. 1-68 | ≦. 2266. 1-69 | ≧. 2267. 1-70 | ∞. 221E. 1-71 | ∴. 2234. 1-72 | ♂. 2642. 1-74 | ♀. 2640. 1-73 | °. 00B0. 1-75 | ′. 2032. 1-76 | ″. 2033. 1-77 | ℃. 2103. 1-78 | ¥. 00A5. 1-79 |
7_ | $. 0024. 1-80 | ¢. 00A2. 1-81 | £. 00A3. 1-82 | %. 0025. 1-83 | #. 0023. 1-84 | . 0026. 1-85 | *. 002A. 1-86 | @. 0040. 1-87 | §. 00A7. 1-88 | ☆. 2606. 1-89 | ★. 2605. 1-90 | ○. 25CB. 1-91 | ●. 25CF. 1-92 | ◎. 25CE. 1-93 | ◇. 25C7. 1-94 |
Буква Число Пунктуация Символ Другое Не определено
Большинство символов в этом наборе были добавлены в 1983 году, за исключением символов 0x2221–0x222E (кутэн с 2-1 по 2-14 или первая строка в таблице ниже), которые были включены в исходный Версия стандарта 1978 года.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ◆. 25C6. 2-1 | □. 25A1. 2-2 | ■. 25A0. 2-3 | △. 25B3. 2-4 | ▲. 25B2. 2-5 | ▽. 25BD. 2-6 | ▼. 25BC. 2-7 | ※. 203B. 2-8 | 〒. 3012. 2-9 | →. 2192. 2-10 | ←. 2190. 2-11 | ↑. 2191. 2-12 | ↓. 2193. 2-13 | 〓. 3013. 2-14 | .. 2-15 | |
3_ | .. 2-16 | .. 2-17 | .. 2-18 | .. 2-19 | .. 2-21 | .. 2-21 | .. 2-22 | .. 2-23 | .. 2-24 | .. 2-25 | ∈. 2208. 2-26 | ∋. 220B. 2-27 | ⊆. 2286. 2-28 | ⊇. 2287. 2-29 | ⊂. 2282. 2-30 | ⊃. 2283. 2-31 |
4_ | ∪. 222A. 2-32 | ∩. 2229. 2-33 | .. 2-34 | .. 2-35 | .. 2-36 | .. 2-37 | .. 2-38 | .. 2-39 | .. 2-40 | .. 2-41 | ∧. 2227. 2-42 | ∨. 2228. 2-43 | ¬. 00AC. 2-44 | ⇒. 21D2. 2-45 | ⇔. 21D4. 2-46 | ∀. 2200. 2-47 |
5_ | ∃. 2203. 2-48 | .. 2-49 | .. 2-50 | .. 2-51 | .. 2-52 | .. 2-53 | .. 2-54 | .. 2-55 | .. 2-56 | .. 2-57 | .. 2-58 | .. 2-59 | ∠. 2220. 2-60 | ⊥. 22A5. 2-61 | ⌒. 2312. 2-62 | ∂. 2202. 2-63 |
6_ | ∇. 2207. 2-64 | ≡. 2261. 2-65 | ≒. 2252. 2-66 | ≪. 226A. 2-67 | ≫. 226B. 2-68 | √. 221A. 2-69 | ∽. 223D. 2-70 | ∝. 221D. 2-71 | ∵. 2235. 2-72 | ∫. 222B. 2-73 | ∬. 222C. 2-74 | .. 2-75 | .. 2 -76 | .. 2-77 | .. 2-78 | .. 2-79 |
7_ | .. 2-80 | .. 2-81 | Å. 212B. 2-82 | ‰. 2030. 2-83 | ♯. 266F. 2-84 | ♭. 266D. 2-85 | ♪. 266A. 2-86 | †. 2020. 2-87 | ‡. 2021. 2-88 | ¶. 00B6. 2-89 | .. 2-90 | .. 2-91 | .. 2-92 | .. 2-93 | ◯. 25EF. 2-94 |
Этот набор включает подмножество инвариантного набора ISO 646 (и, следовательно, также подмножество обоих ASCII и JIS X 0201 римский набор) без знаков препинания и символы, содержащие западные арабские цифры и оба регистра основного латинского алфавита. Символы в этом наборе могут использовать альтернативные сопоставления Unicode с блоком Halfwidth и Fullwidth Forms, если они используются в кодировке, которая объединяет JIS X 0208 с ASCII или с JIS X 0201, например EUC-JP, Shift JIS или ISO 2022-JP.
Сравните строку 3 KPS 9566, которой эта строка точно соответствует. Сравните и сопоставьте строку 3 KS X 1001 и GB 2312, которые включают в себя все их национальные варианты ISO 646 в этой строке, а не только буквенно-цифровые подмножество.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | .. 3-1 | .. 3-2 | .. 3-3 | .. 3-4 | .. 3-5 | .. 3-6 | .. 3-7 | .. 3-8 | .. 3-9 | .. 3-10 | .. 3-11 | .. 3-12 | .. 3 -13 | .. 3-14 | .. 3-15 | |
3_ | 0. 0030. 3-16 | 1. 0031. 3-17 | 2. 0032. 3-18 | 3. 0033. 3-19 | 4. 0034. 3-20 | 5. 0035. 3-21 | 6. 0036. 3-22 | 7. 0037. 3-23 | 8. 0038. 3-24 | 9. 0039. 3-25 | .. 3-26 | .. 3-27 | .. 3-28 | .. 3-29 | .. 3-30 | .. 3-31 |
4_ | .. 3-32 | A. 0041. 3-33 | B. 0042. 3-34 | C. 0043. 3-35 | D. 0044. 3-36 | E. 0045. 3-37 | F. 0046. 3-38 | G. 0047. 3-39 | H. 0048. 3-40 | I. 0049. 3-41 | J. 004A. 3-42 | K. 004B. 3-43 | L. 004C. 3-44 | M. 004D. 3-45 | N. 004E. 3-46 | O. 004F. 3-47 |
5_ | P. 0050. 3-48 | Q. 0051. 3-49 | R. 0052. 3-50 | S. 0053. 3-51 | T. 0054. 3-52 | U. 0055. 3-53 | V. 0056. 3-54 | W. 0057. 3-55 | X. 0058. 3-56 | Y. 0059. 3-57 | Z. 005A. 3-58 | .. 3-59 | .. 3-60 | .. 3-61 | .. 3-62 | .. 3-63 |
6_ | .. 3-64 | a. 0061. 3-65 | b. 0062. 3-66 | c. 0063. 3-67 | d. 0064. 3-68 | e. 0065. 3-69 | f. 0066. 3-70 | g. 0067. 3-71 | h. 0068. 3-72 | i. 0069. 3-73 | j. 006A. 3-74 | k. 006B. 3-75 | l. 006C. 3-76 | m. 006D. 3-77 | n. 006E. 3-78 | o. 006F. 3-79 |
7_ | p. 0070. 3-80 | q. 0071. 3-81 | r. 0072. 3-82 | s. 0073. 3-83 | t. 0074. 3-84 | u. 0075. 3-85 | v. 0076. 3-86 | w. 0077. 3-87 | x. 0078. 3-88 | y. 0079. 3-89 | z. 007A. 3-90 | .. 3-91 | .. 3-92 | .. 3-93 | .. 3-94 |
Эта строка содержит японский хирагана.
Сравните строку 4 ГБ 2312, которая соответствует в этой строке. Сравните и сопоставьте строку 10 KPS 9566 и KS X 1001, которые используют тот же макет, но в другой строке.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ぁ. 3041. 4-1 | あ. 3042. 4-2 | ぃ. 3043. 4-3 | い. 3044. 4-4 | ぅ. 3045. 4-5 | う. 3046. 4-6 | ぇ. 3047. 4-7 | え. 3048. 4-8 | ぉ. 3049. 4-9 | お. 304A. 4-10 | か. 304B. 4-11 | が. 304C. 4-12 | き. 304D. 4-13 | ぎ. 304E. 4-14 | く. 304F. 4-15 | |
3_ | ぐ. 3050. 4-16 | け. 3051. 4-17 | げ. 3052. 4-18 | こ. 3053. 4-19 | ご. 3054. 4-20 | さ. 3055. 4-21 | ざ. 3056. 4-22 | し. 3057. 4-23 | じ. 3058. 4-24 | す. 3059. 4-25 | ず. 305A. 4-26 | せ. 305B. 4-27 | ぜ. 305C. 4-28 | そ. 305D. 4-29 | ぞ. 305E. 4-30 | た. 305F. 4-31 |
4_ | だ. 3060. 4 -32 | ち. 3061. 4-33 | ぢ. 3062. 4-34 | っ. 3063. 4-35 | つ. 3064. 4-36 | づ. 3065. 4 -37 | て. 3066. 4-38 | で. 3067. 4-39 | と. 3068. 4-40 | ど. 3069. 4-41 | な. 306A. 4-42 | に. 306B. 4-43 | ぬ. 306C. 4-44 | ね. 306D. 4-45 | の. 306E. 4-46 | は. 306F. 4-47 |
5_ | ば. 3070. 4-48 | ぱ. 3071. 4-49 | ひ. 3072. 4-50 | び. 3073. 4-51 | ぴ. 3074. 4-52 | ふ. 3075. 4-53 | ぶ. 3076. 4-54 | ぷ. 3077. 4-55 | へ. 3078. 4-56 | べ. 3079. 4-57 | ぺ. 307A. 4-58 | ほ. 307B. 4-59 | ぼ. 307C. 4-60 | ぽ. 307D. 4-61 | ま. 307E. 4-62 | み. 307F. 4-63 |
6_ | む. 3080. 4-64 | め. 3081. 4-65 | も. 3082. 4-66 | ゃ. 3083. 4-67 | や. 3084. 4-68 | ゅ. 3085. 4-69 | ゆ. 3086. 4-70 | ょ. 3087. 4-71 | よ. 3088. 4-72 | ら. 3089. 4-73 | り. 308A. 4-74 | る. 308B. 4-75 | れ. 308C. 4-76 | ろ. 308D. 4-77 | ゎ. 308E. 4-78 | わ. 308F. 4-79 |
7_ | ゐ. 3090. 4-80 | ゑ. 3091. 4 -81 | を. 3092. 4-82 | ん. 3093. 4-83 | .. 4-84 | .. 4-85 | .. 4-86 | .. 4-87 | .. 4 -88 | .. 4-89 | .. 4-90 | .. 4-91 | .. 4-92 | .. 4-93 | .. 4-94 |
Эта строка содержит японский язык Катакана.
Сравните строку 5 ГБ 2312, которая соответствует этой строке. Сравните и сопоставьте строку 11 KPS 9566 и KS X 1001, которые используют тот же макет, но в другой строке. Сравните значительно отличающуюся раскладку катаканы, используемую JIS X 0201.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ァ. 30A1. 5-1 | ア. 30A2. 5-2 | ィ. 30A3. 5-3 | イ. 30A4. 5-4 | ゥ. 30A5. 5-5 | ウ. 30A6. 5-6 | ェ. 30A7. 5-7 | エ. 30A8. 5-8 | ォ. 30A9. 5-9 | オ. 30AA. 5-10 | カ. 30AB. 5-11 | ガ. 30AC. 5-12 | キ. 30AD. 5-13 | ギ. 30AE. 5-14 | ク. 30AF. 5-15 | |
3_ | グ. 30B0. 5 -16 | ケ. 30B1. 5-17 | ゲ. 30B2. 5-18 | コ. 30B3. 5-19 | ゴ. 30B4. 5-20 | サ. 30B5. 5 -21 | ザ. 30B6. 5-22 | シ. 30B7. 5-23 | ジ. 30B8. 5-24 | ス. 30B9. 5-25 | ズ. 30BA. 5 -26 | セ. 30BB. 5-27 | ゼ. 30BC. 5-28 | ソ. 30BD. 5-29 | ゾ. 30BE. 5-30 | タ. 30BF. 5 -31 |
4_ | ダ. 30C0. 5-32 | チ. 30C1. 5-33 | ヂ. 30C2. 5-34 | ッ. 30C3. 5-35 | ツ. 30C4. 5-36 | ヅ. 30C5. 5-37 | テ. 30C6. 5-38 | デ. 30C7. 5-39 | ト. 30C8. 5-40 | ド. 30C9. 5-41 | ナ. 30CA. 5-42 | ニ. 30CB. 5-43 | ヌ. 30CC. 5-44 | ネ. 30CD. 5-45 | ノ. 30CE. 5-46 | ハ. 30CF. 5-47 |
5_ | バ. 30D0. 5 -48 | パ. 30D1. 5-49 | ヒ. 30D2. 5-50 | ビ. 30D3. 5-51 | ピ. 30D4. 5-52 | フ. 30D5. 5 -53 | ブ. 30D6. 5-54 | プ. 30D7. 5-55 | ヘ. 30D8. 5-56 | ベ. 30D9. 5-57 | ペ. 30DA. 5 -58 | ホ. 30DB. 5-59 | ボ. 30DC. 5-60 | ポ. 30DD. 5-61 | マ. 30DE. 5-62 | ミ. 30DF. 5 -63 |
6_ | ム. 30E0. 5-64 | メ. 30E1. 5-65 | モ. 30E2. 5-66 | ャ. 30E3. 5-67 | ヤ. 30E4. 5-68 | ュ. 30E5. 5-69 | ユ. 30E6. 5-70 | ョ. 30E7. 5-71 | ヨ. 30E8. 5-72 | ラ. 30E9. 5-73 | リ. 30EA. 5-74 | ル. 30EB. 5-75 | レ. 30EC. 5-76 | ロ. 30ED. 5-77 | ヮ. 30EE. 5-78 | ワ. 30EF. 5-79 |
7_ | ヰ. 30F0. 5-80 | ヱ. 30F1. 5-81 | ヲ. 30F2. 5- 82 | ン. 30F3. 5-83 | ヴ. 30F4. 5-84 | ヵ. 30F5. 5-85 | ヶ. 30F6. 5-86 | .. 5-87 | .. 5-88 | .. 5-89 | .. 5-90 | .. 5-91 | .. 5-92 | .. 5-93 | .. 5-94 |
Эта строка содержит базовую поддержку современного греческого алфавита, без диакритических знаков или заключительной сигмы.
Сравните строку 6 из GB 2312 и GB 12345 и строка 6 KPS 9566, которые включают те же греческие буквы в той же компоновке, хотя GB 12345 добавляет вертикальные формы представления, а KPS 9566 добавляет римские цифры. Сравните и сопоставьте строку 5 KS X 1001, которая смещает греческие буквы, чтобы сначала включить римские цифры.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | Α. 0391. 6-1 | Β. 0392. 6-2 | Γ. 0393. 6-3 | Δ. 0394. 6-4 | Ε. 0395. 6-5 | Ζ. 0396. 6-6 | Η. 0397. 6-7 | Θ. 0398. 6-8 | Ι. 0399. 6-9 | Κ. 039A. 6-10 | Λ. 039B. 6-11 | Μ. 039C. 6-12 | Ν. 039D. 6-13 | Ξ. 039E. 6-14 | Ο. 039F. 6-15 | |
3_ | Π. 03A0. 6-16 | Ρ. 03A1. 6-17 | Σ. 03A3. 6-18 | Τ. 03A4. 6-19 | Υ. 03A5. 6-20 | Φ. 03A6. 6-21 | Χ. 03A7. 6-22 | Ψ. 03A8. 6-23 | Ω. 03A9. 6-24 | .. 6-25 | .. 6-26 | .. 6-27 | .. 6-28 | .. 6-29 | .. 6-30 | .. 6-31 |
4_ | .. 6-32 | α. 03B1. 6-33 | β. 03B2. 6-34 | γ. 03B3. 6-35 | δ. 03B4. 6-36 | ε. 03B5. 6-37 | ζ. 03B6. 6-38 | η. 03B7. 6-39 | θ. 03B8. 6-40 | ι. 03B9. 6-41 | κ. 03BA. 6-42 | λ. 03BB. 6-43 | μ. 03BC. 6-44 | ν. 03BD. 6-45 | ξ. 03BE. 6-46 | ο. 03BF. 6-47 |
5_ | π. 03C0. 6-48 | ρ. 03C1. 6-49 | σ. 03C3. 6-50 | τ. 03C4. 6-51 | υ. 03C5. 6-52 | φ. 03C6. 6-53 | χ. 03C7. 6-54 | ψ. 03C8. 6-55 | ω. 03C9. 6-56 | .. 6-57 | .. 6-58 | .. 6-59 | .. 6-60 | .. 6-61 | .. 6-62 | .. 6-63 |
6_ | .. 6-64 | .. 6-65 | .. 6-66 | .. 6-67 | .. 6-68 | .. 6-69 | .. 6-70 | .. 6-71 | .. 6-72 | .. 6-73 | .. 6-74 | .. 6-75 | .. 6-76 | .. 6-77 | .. 6-78 | .. 6-79 |
7_ | .. 6-80 | .. 6-81 | .. 6-82 | .. 6-83 | .. 6-84 | .. 6-85 | .. 6-86 | .. 6-87 | .. 6-88 | .. 6-89 | .. 6-90 | .. 6-91 | .. 6-92 | .. 6-93 | .. 6-94 |
Эта строка содержит современный русский алфавит и не обязательно достаточна для представления других форм кириллицы.
Сравните строку 7 GB 2312, что соответствует этой строке. Сравните и сопоставьте строку 12 KS X 1001 и строку 5 KPS 9566, которые используют тот же макет (но в другой строке).
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | А. 0410. 7-1 | Б. 0411. 7-2 | В. 0412. 7-3 | Г. 0413. 7-4 | Д. 0414. 7-5 | Е. 0415. 7-6 | Ё. 0401. 7-7 | Ж. 0416. 7-8 | З. 0417. 7-9 | И. 0418. 7-10 | Й. 0419. 7-11 | К. 041A. 7-12 | Л. 041B. 7-13 | М. 041C. 7-14 | Н. 041D. 7-15 | |
3_ | О. 041E. 7-16 | П. 041F. 7-17 | Р. 0420. 7-18 | С. 0421. 7-19 | Т. 0422. 7-20 | У. 0423. 7-21 | Ф. 0424. 7-22 | Х. 0425. 7-23 | Ц. 0426. 7-24 | Ч. 0427. 7-25 | Ш. 0428. 7-26 | Щ. 0429. 7-27 | Ъ. 042A. 7-28 | Ы. 042B. 7-29 | Ь. 042C. 7-30 | Э. 042D. 7-31 |
4_ | Ю. 042E. 7 -32 | Я. 042F. 7-33 | .. 7-34 | .. 7-35 | .. 7-36 | .. 7-37 | .. 7-38 | .. 7-39 | .. 7-40 | .. 7-41 | .. 7-42 | .. 7-43 | .. 7-44 | .. 7-45 | .. 7-46 | .. 7-47 |
5_ | .. 7-48 | а. 0430. 7-49 | б. 0431. 7-50 | в. 0432. 7-51 | г. 0433. 7-52 | д. 0434. 7-53 | е. 0435. 7-54 | ё. 0451. 7-55 | ж. 0436. 7-56 | з. 0437. 7-57 | и. 0438. 7-58 | й. 0439. 7-59 | к. 043A. 7-60 | л. 043B. 7-61 | м. 043C. 7-62 | н. 043D. 7-63 |
6_ | о. 043E. 7-64 | п. 043F. 7-65 | р. 0440. 7-66 | с. 0441. 7-67 | т. 0442. 7-68 | у. 0443. 7-69 | ф. 0444. 7-70 | х. 0445. 7-71 | ц. 0446. 7-72 | ч. 0447. 7-73 | ш. 0448. 7-74 | щ. 0449. 7-75 | ъ. 044A. 7-76 | ы. 044B. 7-77 | ь. 044C. 7-78 | э. 044D. 7-79 |
7_ | ю. 044E. 7-80 | я. 044F. 7-81 | .. 7-82 | .. 7-83 | .. 7 -84 | .. 7-85 | .. 7-86 | .. 7-87 | .. 7-88 | .. 7-89 | .. 7-90 | .. 7-91 | .. 7-92 | .. 7-93 | .. 7-94 |
Все символы в этом наборе были добавлены в 1983 году, и не присутствовали в исходной редакции стандарта 1978 года.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | │. 2502. 8-1 | ─. 2500. 8-2 | ┐. 2510. 8-3 | ┌. 250C. 8-4 | └. 2514. 8-5 | ┘. 2518. 8-6 | ┤. 2524. 8-7 | ┬. 252C. 8-8 | ├. 251C. 8-9 | ┴. 2534. 8-10 | ┼. 253C. 8-11 | ━. 2501. 8-12 | ┃. 2503. 8-13 | ┏. 250F. 8-14 | ┓. 2513. 8-15 | |
3_ | ┗. 2517. 8-16 | ┛. 251B. 8-17 | ┫. 252B. 8-18 | ┳. 2533. 8-19 | ┣. 2523. 8-20 | ┻. 253B. 8-21 | ╋. 254B. 8-22 | ┠. 2520. 8-23 | ┯. 252F. 8-24 | ┨. 2528. 8-25 | ┷. 2537. 8-26 | ┿. 253F. 8-27 | ┝. 251D. 8-28 | ┰. 2530. 8-29 | ┥. 2525. 8-30 | ┷. 2537. 8-31 |
4_ | ╂. 2542. 8 -32 | .. 8-33 | .. 8-34 | .. 8-35 | .. 8-36 | .. 8-37 | .. 8-38 | .. 8-39 | .. 8-40 | .. 8-41 | .. 8-42 | .. 8-43 | .. 8-44 | .. 8-45 | .. 8-46 | .. 8-47 |
5_ | .. 8-48 | .. 8-49 | .. 8 -50 | .. 8-51 | .. 8-52 | .. 8-53 | .. 8-54 | .. 8-55 | .. 8-56 | .. 8-57 | .. 8-58 | .. 8-59 | .. 8-60 | .. 8-61 | .. 8-62 | .. 8-63 |
6_ | .. 8-64 | .. 8-65 | .. 8 -66 | .. 8-67 | .. 8-68 | .. 8-69 | .. 8-70 | .. 8-71 | .. 8-72 | .. 8-73 | .. 8-74 | .. 8-75 | .. 8-76 | .. 8-77 | .. 8-78 | .. 8-79 |
7_ | .. 8-80 | .. 8-81 | .. 8 -82 | .. 8-83 | .. 8-84 | .. 8-85 | .. 8-86 | .. 8-87 | .. 8-88 | .. 8-89 | .. 8-90 | .. 8-91 | .. 8-92 | .. 8-93 | .. 8-94 |
Строки с 9 по 15 стандарта JIS X 0208 остаются пустыми.
Однако следующая компоновка для строки 13, впервые представленная NEC, является распространенным расширением. Он используется (с небольшими вариациями, отмеченными в сносках) Windows-932 (который соответствует WHATWG Стандарт кодирования, используемый HTML5 ), Вариант PostScript (но, начиная с KanjiTalk версии 7, а не обычный вариант) от MacJapanese и от JIS X 0213 (преемник JIS X 0208). В отличие от других расширений, созданных Windows-932 / WHATWG и JIS X 0213, эти два совпадают, а не сталкиваются, поэтому декодирование большей части этой строки поддерживается лучше, чем другие расширения, созданные JIS X 0213.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ①. 2460. 13-1 | ②. 2461. 13-2 | ③. 2462. 13- 3 | ④. 2463. 13-4 | ⑤. 2464. 13-5 | ⑥. 2465. 13-6 | ⑦. 2466. 13-7 | ⑧. 2467. 13- 8 | ⑨. 2468. 13-9 | ⑩. 2469. 13-10 | ⑪. 246A. 13-11 | ⑫. 246B. 13-12 | ⑬. 246C. 13- 13 | ⑭. 246D. 13-14 | ⑮. 246E. 13-15 | |
3_ | ⑯. 246F. 13-16 | ⑰. 2470. 13-17 | ⑱. 2471. 13-18 | ⑲. 2472. 13-19 | ⑳. 2473. 13-20 | Ⅰ. 2160. 13-21 | Ⅱ. 2161. 13-22 | Ⅲ. 2162. 13-23 | Ⅳ. 2163. 13-24 | Ⅴ. 2164. 13-25 | Ⅵ. 2165. 13-26 | Ⅶ. 2166. 13-27 | Ⅷ. 2167. 13-28 | Ⅸ. 2168. 13-29 | Ⅹ. 2169. 13-30 | Ⅺ. 216A. 13-31 |
4_ | ㍉. 3349. 13-32 | ㌔. 3314. 13-33 | ㌢. 3322. 13-34 | ㍍. 334D. 13-35 | ㌘. 3318. 13-36 | ㌧. 3327. 13-37 | ㌃. 3303. 13-38 | ㌶. 3336. 13-39 | ㍑. 3351. 13-40 | ㍗. 3357. 13-41 | ㌍. 330D. 13-42 | ㌦. 3326. 13-43 | ㌣. 3323. 13-44 | ㌫. 332B. 13-45 | ㍊. 334A. 13-46 | ㌻. 333B. 13-47 |
5_ | ㎜. 339C. 13-48 | ㎝. 339D. 13-49 | ㎞. 339E. 13-50 | ㎎. 338E. 13-51 | ㎏. 338F. 13-52 | ㏄. 33C4. 13-53 | ㎡. 33A1. 13-54 | Ⅻ. 216B. 13-55 | .. 13-56 | .. 13-57 | .. 13-58 | .. 13-59 | .. 13-60 | .. 13-61 | .. 13-62 | ㍻. 337B. 13-63 |
6_ | 〝. 301D. 13-64 | 〟. 301F. 13-65 | №. 2116. 13-66 | ㏍. 33CD. 13-67 | ℡. 2121. 13-68 | . 32A4. 13-69 | . 32A5. 13-70 | . 32A6. 13-71 | ㊧. 32A7. 13-72 | ㊨. 32A8. 13-73 | ㈱. 3231. 13-74 | . 3 232. 13-75 | . 3239. 13-76 | ㍾. 337E. 13-77 | ㍽. 337D. 13-78 | ㍼. 337C. 13-79 |
7_ | ≒. 2252. 13-80 | ≡. 2261. 13-81 | ∫. 222B. 13-82 | ∮. 222E. 13-83 | ∑. 2211. 13- 84 | √. 221A. 13-85 | ⊥. 22A5. 13-86 | ∠. 2220. 13-87 | ∟. 221F. 13-88 | ⊿. 22BF. 13- 89 | ∵. 2235. 13-90 | ∩. 2229. 13-91 | ∪. 222A. 13-92 | ❖. 2756. 13-93 | ☞. 261E. 13- 94 |
Для представления кодовых точек номера столбцов / строк используются для однобайтовых кодов, а номера кутен используются для двухбайтовые коды. Для того, чтобы идентифицировать символ вне зависимости от кода, используются имена символов.
Почти все коды графических символов JIS X 0208 представлены двумя байтами, по крайней мере, по семь бит каждый. However, every control character, as well as the plain space – although not the ideographic space – is represented with a one-byte code. In order to represent the bit combination(ビット組合せ, bitto kumiawase) of a one-byte code, two decimal numbers – a column numberand a line number– are used. Three high-order bits out of seven or four high-order bits out of eight, counting from zero to seven or from zero to fifteen respectively, form the column number. Four low-order bits counting from zero to fifteen form the line number. Each decimal number corresponds to one hexadecimal digit. For example, the bit combination corresponding to the graphic character "space" is 010 0000 as a 7-bit number, and 0010 0000 as an 8-bit number. In column/line notation, this is represented as 2/0. Other representations of the same single-byte code include 0x20 as hexadecimal, or 32 as a single decimal number.
The double-byte codes are laid out in 94 numbered groups, each called a row (区, ku, lit. "section"). Every row contains 94 numbered codes, each called a cell (点, ten, lit. "point"). This makes a total of 8836 (94 × 94) possible code points (although not all are assigned, see below); these are laid out in the standard in a 94-line, 94-column code table.
A row number and a cell number (each numbered from 1 to 94, for a standard JIS X 0208 code) form a kuten(区点 ) point, which is used to represent double-byte code points. A code number or kuten number (区点番号, kuten bangō) is expressed in the form "row-cell", the row and cell numbers being separat редактируется дефисом. Например, символ «亜 » имеет кодовую точку в строке 16, ячейке 1, поэтому его кодовый номер представлен как «16-01».
В 7-битном JIS X 0208 (который может быть переключен в JIS X 0202 / ISO-2022-JP ) оба байта должны быть из 94-байтового диапазона 0x 21 (используется для строки или ячейки с номером 1) до 0x7E (используется для строки или ячейки с номером 94) - точно соответствует диапазону, используемому для 7-битных символов печати ASCII, не считая пробела. Соответственно, закодированные байты получаются добавлением 0x20 (32) к каждому числу. Например, приведенный выше пример 16-01 («亜») будет представлен байтами 0x30 0x21
. 8-битный EUC-JP вместо этого использует диапазон от 0xA1 до 0xFE (установка старшего бита на 1), тогда как другие кодировки, такие как Shift JIS, используют более сложные преобразования. Shift JIS включает в себя больше места для кодирования, чем необходимо для самого JIS X 0208; некоторые специальные расширения Shift JIS для JIS X 0208 используют номера строк выше 94.
Эта структура также используется в GB 2312 материкового Китая (где она изначально известна как 区 位 ; qūwèi) и южнокорейский KS C 5601 (в настоящее время KS X 1001 ; ку и десять соответственно известны как ханг и йол). Более поздний JIS X 0213 расширяет эту структуру, имея более одной плоскости (面, men, букв. «Лицо») строк, что также является структурой, используемой CNS 11643.
Среди 2-байтовых кодов строки с 9 по 15 и с 85 по 94 являются неназначенными кодовыми точками (空 き 領域, aki ryōiki); то есть они являются кодовыми точками, которым не присвоены символы. Кроме того, некоторые ячейки в других строках также являются неназначенными кодовыми точками.
Эти пустые области содержат кодовые точки, которые в принципе не должны использоваться. За исключением случаев, когда имеется предварительное соглашение между соответствующими сторонами, символы (gaiji ) для обмена информацией не должны присваиваться неназначенным кодовым точкам.
Даже при присвоении символов неназначенным кодовым точкам графические символы, определенные в стандарте, не должны назначаться им, и один и тот же символ не должен назначаться нескольким неназначенным кодовым точкам; символы не должны дублироваться в наборе.
Кроме того, при присвоении символов неназначенным кодовым точкам необходимо проявлять осторожность в отношении унификации в отношении глифов кандзи. Например, ячейка 66 строки 25 соответствует кандзи, означающему «высокий» или «дорогой»; обе формы с компонентом, напоминающим символ «рот» (口 ) посередине (高 ) и менее распространенная форма с лестничной конструкцией в том же месте (髙 ) включает в одну и ту же кодовую точку. Следовательно, ограничение точки 25-66 формы «рта» и присвоение последней «лестничной» формы неназначенной кодовой точкой технически нарушением стандарта.
Однако на практике несколько вариантов Shift JIS, зависящих от поставщика, включая Windows-932 и MacJapanese, кодируют расширения поставщика в нераспределенных строках пространства кодирования для JIS X 0208. Кроме большинства кодов, не присвоенных в JIS X 0208, присвоены более новым стандартом JIS X 0213.
Каждому символу JIS X 0208 дается имя . Используя имя персонажа, можно идентифицировать персонажей, не полагаясь на их коды. Имена символов согласованы с другими стандартами набора символов, в частности, универсальным набором кодированных символов (UCS / Unicode ), поэтому это один из источников сопоставления символов с наборами символов, такими как Юникод. Например, и символ в ISO / IEC 646 Международная справочная версия (US-ASCII ), столбец 4, строка 1, и символ в JIS X 0208, строка 3, ячейка 33, имеют имя "ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A". Следовательно, символ 4/1 в ASCII и символ 3-33 в JIS X 0208 можно рассматривать как один и тот же символ (хотя на практике для символа JIS X 0208 используется альтернативное сопоставление из-за того, что кодировки) предоставит ASCII отдельно). И наоборот, символы ASCII 2/2 (кавычки), 2/7 (апостроф), 2/13 (дефис-минус) и 7/14 (тильда) могут быть в этом качестве пригодными как символы, которых нет в стандарте.
В именах символов, отличных от кандзи, используются прописные латинские буквы, пробелы и дефисы. Символам, не относящимся к кандзи, дается общее название на японском языке (日本語 通用 名称, Nihongo tsūy meishō), но некоторых положений для этих имен не существует. Имена кандзи, с другой стороны, механически установлены в соответствии с соответствующим шестнадцатеричным представлением их кода в UCS / Unicode. Название кандзи можно получить, добавив к кодовой точке Unicode "CJKUNIFIED IDEOGRAPH-". Например, строка 16, ячейка 1 (亜 ), соответствует U + 4E9C в UCS, поэтому ее имя будет «CJK UNIFIED IDEOGRAPH-4E9C». Кандзи не имеют общих японских имен.
JIS X 0208 предписывает набор из 6879 графических символов, которые соответствуют двухбайтовым кодам в семье или восемью битами байте; в JIS X 0208 это называется набором кандзи (漢字 集合, кандзи сюго), который включает 6355 кандзи, а также 524 не-кандзи (非 漢字, хикандзи), включая такие символы, как латинские буквы, кана и т. д.
Что касается специальных символов в наборе кандзи, некоторые символы из набора графических символов Международной эталонной версии (IRV) стандарта ISO / IEC 64 6 : 1991 (эквивалент ASCII ) отсутствуют в JIS X 0208. Есть четыре вышеупомянутых символа «ЦИТАТНЫЙ ЗНАК», «АПОСТРОФ», «ДИФФ-МИНУС» и «ТИЛЬДА». Первые три разделены на разные кодовые точки в наборе кандзи (Nishimura, 1978; стандарт JIS X 0221-1: 2001, раздел 3.8.7). «ТИЛЬДА» IRV не имеет символ в наборе кандзи.
В следующей таблице соответствующие символы IRV ISO / IEC 646: 1991 сравниваются с их множественными эквивалентами в JIS X 0208, за исключением символов IRV «TILDE», который сравнивается с «WAVE DASH». "JIS X 0208. Записи в столбцах" Символ "используют кодовые точки UCS / Unicode, поэтому особенности отображения могут отличаться.
Символам ASCII / IRV без точных эквивалентов JIS X 0208 были позже присвоены кодовые точки JIS X 0213, они также представлены ниже, как и Microsoft из четырех персонажа.
ISO / IEC 646: 1991 IRV | JIS X 0208 | ||||||
---|---|---|---|---|---|---|---|
Столбец / Строка | x0213 | Microsoft | Символ | Имя | Кутен | Символ | Имя |
2/2 | 1-2-16 | 92-94. 115-24 | " | ЦЕНОВОЙ ЗНАК | 1-15 | ¨ | ДИАРЕЗ |
1-40 | “ | ЛЕВЫЙ ДВОЙНОЙ ЗНАК | |||||
1-41 | ” | ПРАВЫЙ ДВОЙНОЙ ЗНАК | |||||
1-77 | ″ | ДВОЙНОЙ ПЕРВИЧНЫЙ | |||||
2/7 | 1-2-15 | 92-93. 115-23 | ' | АПОСТРОФ | 1-13 | ´ | ОСТРЫЙ АКЦЕНТ |
1-38 | ‘ | ЛЕВЫЙ ОДИНОЧНЫЙ ЗНАК | |||||
1 -39 | ’ | ПРАВАЯ ОДИНАРНА Я ЗНАЧКА | |||||
1-76 | ′ | ПРАЙМ | |||||
2/13 | 1-2-17 | 1-61 | - | ДЕФИС- МИНУС | 1-30 | ‐ | ДЕФИС |
1-61 | − | ЗНАК МИНУСА | |||||
7/14 | 1-2-18 | 1-33 | ~ | ТИЛЬДА | (нет соответствующего символа) | ||
(нет соответствующего символа) | 1-33 | 〜 | WAVE DASH |
Это самый распространенный в мире набор иероглифов самым распространенным в мире набором символов, не поддерживающих обратную совместимость; это одним из слабых мест этого стандарта.
Даже с 90 специальными символами, цифрами и латинскими буквами, которые являются общими для набора кандзи и IRV, этот стандарт не соответствует порядку ISO / IEC 646. Эти 90 символов разделены между строками 1 (пунктуация) и 3 ( буквы и цифры), хотя строка 3 расположению по ISO 646 только для 62 букв и цифр (например, 4/1
(«A») в ISO 646 становится 2/3 4/1
(т.е. 3-33) в JIS X 0208).
Что касается причины того, как эти цифры, латинские буквы и т. Д. В наборе кандзи являются «буквенно-цифровыми символами полной ширины» (全 角 英 数字, zenkaku eisūji), и как исходная реализация появилась с интерпретация отличается от IRV, считается, что это происходит из-за несовместимости.
Начиная с первого стандарта, стало возможным представлять композиты (合成, gōsei), такие как числа в кружках, лигатуры для названий единиц измерения и Римские цифры ; им не были присвоены независимые коды кутэн. Хотя отдельные компании, производящие информационные системы, могут попытаться представить эти символы так, как те требуют клиентов, по составу символов, ни одна из них не просила добавить их в стандарт, вместо этого предлагая их собственными силами как gaiji.
В четвертом стандарте (1997 г.) все эти символы были явно обозначены как символы, сопровождающие продвижение на текущую позицию; то есть это символы пробела . Кроме того, было решено, что они не должны быть составлены из персонажей. По этой причине было запрещено использовать латинские символы с диакритическими знаками , возможно, с единственным символом ångström (Å ) в ячейке 2 строки. 82.
хирагана и катакана в JIS X 0208, в отличие от JIS X 0201, включает метки dakuten и handakuten как часть персонажа. Катакана wi (ヰ) и we (ヱ) (оба устаревших в японском языке), а также маленький wa (ヮ), которых нет в JIS X 0201, также включены.
Расположение каны в JIS X 0208 отличается от расположения катаканы в JIS X 0201. В JIS X 0201 слоговое письмо начинается с wo (ヲ), за которым следует маленький кана, отсортированная по порядку годзюон, за которым следует кана в натуральном действии, также в порядке годзюон (ヲ ァ ィ ゥ ェ ォ ャ ュ ョ ッ ー ア イ エ オ...... ラ リ ル レ ロ ワ ン). С другой стороны, в JIS X 0208 кана сортируется сначала по порядку годзюон, затем в «малая кана, полноразмерная кана, кана с дакутэн и кана с хандакутэн», так что одна и та же основная кана сгруппирована. с его производными (ぁ あ ぃ い ぅ う ぇ え ぉ お...... っ つ づ...... は ば ぱ ひ び ぴ ふ ぶ ぷ へ べ ぺ ほ ぼ ぽ......ゎ わ ゐ ゑ を ん). Этот порядок был выбран для того, чтобы упростить сортировку поисков по словарю на основе каны (Ясуока, 2006).
Как упоминается выше, в этом стандарте определенно порядок катаканы в JIS X 0201 был не соблюдается в JIS X 0208. Считается, что катакана JIS X 0201, являющаяся «каной половинной ширины », возникла из-за несовместимости с катаканой этого стандарта. Этот момент также является одной из слабых сторон этого стандарта.
Как иероглифы в этомте были выбраны из каких источников, почему они разделены на уровень 1 и уровень 2 и как они установлены, все подробно объясняется в четвертом стандарте. (1997). Согласно этому объяснению, кандзи, включенные в следующие четыре списка кандзи, были отражены в 6349 символах первого стандарта (1978).
2965 кандзи уровня 1 занимают строки с 16 по 47. 3,390 кандзи уровня 2 занимают строки с 48 по 84.
Для уровня 1 символы, общие для Несколько Списки символов кандзи были выбраны на основе тоё кандзи, проекта исправления тоё кандзи и дзинмэйё кандзи в качестве основы. Также были проведены консультации с JIS C 6260 («Идентификационный код To-Do-Fu-Ken (префектура)»; в настоящее время) и JIS C 6261 («Идентификационный код для городов, поселков и деревень»; в настоящее время); кандзи для почти всех японских префектур, городов, негатив, округов, поселков, деревень и т. д. были намеренно помещены на уровень 1. Были добавлены поправки экспертов.
Уровень 2 был посвящен кандзи, которые появлялись в вышеупомянутых четырех основных списках, но не были выбраны для уровня 1. Как принято ниже, кандзи уровня 1 упорядочены по их произношению, поэтому кандзи, чьи произношение было трудно определить, были такие, которые были переведены с уровня 1 на уровень 2 на этом основании (Нишимура, 1978).
Уровень 1 содержит более часто используемые кандзи, а уровень 2 содержит более редко используемые кандзи, но, конечно, они оценивались по стандартам дня; с течением времени некоторые кандзи уровня 2 стали и наоборот, некоторые кандзи уровня 1 стали редкостью, особенно те, которые означают «сантиметр» ( ) и «миллиметр» (粍 ). Кроме того, несколько кандзи дзинмэйё, добавленные после определения кандзи, попадают на уровень 2.
Кандзи на уровне 1 сортируются в порядке «репрезентативного чтения» каждого из них. (т.е. каноническое прочтение, выбранное только для целей стандарта); чтение кандзи для этого может быть на или кун чтение; показания отсортированы в порядке годзюон. Как правило, репрезентативное считается включенным (со звуком китайского языка); где кандзи имеет несколько значений чтения, которое считается преобладающим по частому использованию, используется для репрезентативного чтения (стандарт JIS C 6226-1978, раздел 3.4). Для небольшого процента иероглифов, которые либо не имеют значения при чтении, либо имеют малоизвестное значение для чтения, которое редко используется, чтение кун использовалось в качестве репрезентативного чтения. Если в качестве репрезентативного чтения необходимо использовать глагол к, используется форма ren'yōkei (а не shūshikei ).
Например, ячейки с 1 по 41 в строке 16 содержат 41 символ, отсортированный как начиная со значения a. В них 22 символа, в том числе 16-10 (葵 : при чтении «ки»; кун, читающем «аой») и 16-32 (粟 : при чтении «зоку» »И« сёку »; кун, читающий« ава »), существуют на основании их чтений кун. 16-09 (逢 : при чтении «hō», кун читает «a (i)») и 16-23 (扱 : при чтении «sō» и «kyū», kun, читающий «atsuka (i)») - это всего лишь два примера глаголов в форме ren'yōkei, используемой для репрезентативного чтения.
Если репрезентативное прочтение одинаково для разных кандзи, кандзи, в котором используется чтение при чтении, помещается впереди того, в котором используется чтение кун. Если значения или kun одинаковы для нескольких иероглифов, они затем упорядочиваются по их первичному радикалу и штриху.
На уровне 1 или 2, итайдзи устроены так, чтобы непосредственно следовать их образцовой форме. Например, на уровне 2, сразу после строки 49, ячейки 88 (劍 ), следующие сразу же отклоняются от общего (количество штрихов в данном случае) и включают три варианта 49-88 (劔, 劒 и 剱 ).
Кандзи на уровне 2 расположены в порядке первичного корня и количества штрихов.
Кутэн | Символ | Классификация |
---|---|---|
52-55 | 墸 | Неизвестно |
52-63 | 壥 | Неизвестно |
54-12 | 妛 | Источник неясен |
55-27 | 彁 | Неизвестен |
57-43 | 挧 | Источник неясен |
58-83 | 暃 | Источник неясен |
59- 91 | 椢 | Источник неясен |
60-57 | 槞 | Источник неясен |
74-12 | 蟐 | Источник неясен |
74-57 | 袮 | Источник неясен |
79-64 | 閠 | Источник неясен |
81-50 | 駲 | Источник неясен |
Это бы ло указал, что в наборе кандзи есть иероглифы, которых нет в исчерпывающих, полных словарях кандзи, и что их источники неизвестны. Например, всего через год после того, как был установлен первый стандарт, Тадзима (1979) сообщил, что он подтвердил 63 кандзи, которых не было в Синдзиген (большой словарь кандзи, опубликованный Кадокава Сётэн ), ни в Дай Кан-Ва дзитэн, и они не имели смысла как рьякудзи любого рода; он отметил, что было бы предпочтительнее, чтобы кандзи, отсутствующие в словарях кандзи, были выбраны из определенных источников. Эти кандзи стали известны как «призрачные» символы (幽 霊 文字, yūrei moji) или «призрачные кандзи» (幽 霊 漢字, yūrei kanji), а также другие имена.
Редакционный комитет четвертой версии стандарта также усмотрел в существовании иероглифов с неизвестными источниками как проблему, и поэтому исследовал, на какие источники ссылался редакционный комитет первой версии. В результате было обнаружено, что первоначальный редакционный комитет в значительной степени полагался на «Результаты анализа корреспонденции» при сборе кандзи. Когда редакционный комитет изучил «Результаты анализа корреспонденции», стало ясно, что многие из кандзи, включенных в набор кандзи, но не найденных в исчерпывающих словарях кандзи, предположительно произошли от «японского регистрационного имени кандзи» и «кандзи для национального административного округа. Listing »списки, упомянутые в« результатах анализа корреспонденции ».
Было подтверждено, что не существует оригинального текста для «Японского регистрационного имени кандзи», упоминаемого в «Результатах анализа корреспонденции». Для «Национального списка административных округов» редакционный комитет четвертой версии изучил иероглифы, которые появлялись на страницах незавершенной разработки для первого стандарта. Комитет также изучил многие древние писания, а также множество примеров личных имен в базе данных телефонных справочников NTT.
Благодаря этому тщательному расследованию комитет смог сократить количество иероглифов, источник которых не может быть уверенно объяснен, до двенадцати, указанных в таблице рядом. Предполагается, что некоторые из них возникли из-за ошибок копирования. В частности, 妛, вероятно, был создан, когда принтеры пытались создать 𡚴 путем вырезания и склеивания 山 и 女 вместе. Тень от этого процесса была неверно интерпретирована как линия, в результате чего получилось 妛 (изображение этого можно найти в Дзёё кандзи дзитэн).
Согласно спецификациям четвертого стандарта (1997), унификация (包 摂, hōsetsu, не тот же термин, что используется для Unicode «объединение », хотя это почти та же концепция) - это действие по присвоению одной и той же кодовой точки символу без учета его различных форм символов. В четвертом стандарте допустимое количество символов ограничено; четко определена степень, в которой конкретные аллографические глифы объединяются в графемический код .
Кроме того, в соответствии со спецификациями стандарта, символ (字体, jitai, lit. "тело персонажа";) - это абстрактное понятие графического представления графического символа; символ, форма (字形, jikei, lit. «форма персонажа»; также «глиф» в некотором смысле, но дифференцированный на другом уровне для целей стандартизации) - это представление в виде графической формы, которую глиф принимает в действительности (например, из-за того, что глиф написан от руки, напечатан, отображается на экране и т. д.)). Для одного глифа существует бесконечный диапазон возможных конкретно и / или визуально различных форм символов. Вариация символьной формы одного глифа называется «дизайнерским различием» (デ ザ イ ン の 差, dezain no sa).
Степень, в которой глиф объединяется с одной кодовой точкой, определяется в соответствии с «примерным глифом» этой кодовой точки (例 示 字体, reiji jitai) и «критериями унификации» (包 摂 規 準, hōsetsu kijun), которые может быть применен к этому примеру глифа; то есть пример глифа для кодовой точки применяется к этой кодовой точке, и любые глифы, для которых части, составляющие примерный глиф, заменяются в соответствии с критериями унификации, также применяются к этой кодовой точке.
Например, глиф в примере 33-46 (僧 ) состоит из радикала 9 (亻) и кандзи, которые в конечном итоге породили оба символа итак кана (曽 ). Кроме того, в критерии объединения 101 отображаются три иероглифа: первое принимает форму, наиболее часто встречающуюся в японском языке (曽); второй содержит более традиционную форму (曾 ), в которой первые два штриха образуют радикал 12 (цифра кандзи для числа 8: 八 ); а третий подобен второму, за исключением того, что радикал 12 перевернут (曾). Следовательно, все три перестановки (僧, 僧, 僧) применяются к кодовой точке в строке 33, ячейке 46.
В четвертом стандарте, включая одно из опечаток для первой печати, существует 186 критериев унификации.
Если пример глифа кодовой точки состоит из более чем одного глифа части, критерииунификации правил к каждой части. После того, как критерий универсальной настройки одной части. Кроме того, критерий расчета не может быть другого, если результирующий глифом другой кодовой точки.
Пример глифа - не более чем пример для этой кодовой точки; это не символ, «одобренный» стандартом. Кроме того, согласно правилам унификации необходимо использовать только для использования иероглифов и с назначением вещей точным стандартом этого стандарта. Стандартные запросы о том, что обычно используются кандзи не создаются, на основе глифов и критериев унификации.
Иероглифы набора кандзи не выбираются полностью в соответствии с критериями унификации. Например, хотя 41-7 соответствует форме, в которой они пересекаются третий и четвертый штрихи (彥 ), а также форму, в которой они не пересекаются (彦 ), согласно критерию унификации 72, 20-73 соответствует только форме, в которой они не пересекаются ( ), а 80-90 соответствует только той форме, в которой они пересекаются (顏 ).
Термины «унификации», «Правила унификации» и «пример глифа» были приняты в четвертом стандарте. С первой по третью версии кандзи и отношения между кандзи были сгруппированы в три типа: «независимые» (独立, dokuritsu), «совместимые» (対 応, taiō) и «эквивалентные» (同 値, dchi); Было объяснено, что символы, признанные эквивалентными, «объединяются только в одну точку». «Эквивалентность» включена, кроме кандзи с точно такой же формой, кандзи с различиями из-за стиля и кандзи, где разница в форме символов небольшая.
В первом стандарте было оговорено, что «этот стандарт... не устанавливает особенности знаков форм» (раздел 3.1); в нем также говорится, что «цель этого стандарта состоит в том, чтобы установить общие символы и их кодов; дизайн форм их символов и тому подобное выходит за рамки его применения ». Во втором и третьем стандарте отмечается, что формы форм знаков не входят в его область применения (примечание к пункту 1). Четвертый стандарт также предусматривает, что «Этот стандарт регулирует графические символы, а также их битовые комбинации, и использование, конкретный дизайн отдельных символов и т. Д. Не входит в сферу применения этого стандарта »(JIS X 0208: 1997, пункт 1).
В четвертом стандарте «критерии унификации для поддержания совместимости с предыдущими стандартами» (過去 の 規格 と の た の 包 摂 準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun) определяется. Их применение ограничено 29 кодовыми точками, глифы, которые сильно различаются между стандартами JIS C 6226-1983 и последующими и JIS C 6226-1978. Для этих 29 кодовых точек глифы из JIS C 6226-1983 и после них как «A», а глифы из JIS C 6226-1978 как «B». На каждом из них могут быть нанесены символы «A» и «B». Однако, чтобы заявить о совместимости со стандартом, необходимо явно указать, использовалась ли форма «A» или «B» для каждой кодовой точки.
В JIS X 0208: 1997, статья 7 в сочетании с приложениями 1 и 2 определяет общую сложность восьми схем кодирования.
В приведенных ниже описаниях области «CL» (элемент управления), «GL» (рисунок слева), «CR» (элемент управления справа) и «GR» (рисунок справа) находятся соответственно в столбце / строчное обозначение, от 0/0 до 1/15, от 2/1 до 7/14, от 8/0 до 9/15 и от 10/1 до 15/14. Для каждого кода 2/0 назначается графический символ «ПРОБЕЛ», а 7/15 - управляющий символ «УДАЛИТЬ». Управляющие символы C0 (элементы в JIS X 0211 и соответствующие ISO / IEC 6429 ) назначаются области CL.
Среди кодировок, используемых в четвертом стандарте, только "Shift" кодированный набор символов зарегистрирован IANA. Однако некоторые другие документы связаны с зарегистрированными кодировками IANA, определенными в другом месте (EUC-JP и ISO-2022-JP).
JIS X 0208 могут быть в ISO 2022 / JIS X 0202 (из которых ISO-2022-JP является подмножество). Управляющие последовательность для каждого из четырех кодовых наборов JIS X 0208 для каждого из четырех кодовых наборов ISO 2022 круг. Здесь «ESC» относится к управляющему символу «Escape » (0x1B или 1/11).
Стандарт | G0 | G1 | G2 | G3 |
---|---|---|---|---|
78 | ESC 2/4 4/0 | ESC 2/4 2/9 4/0 | ESC 2/4 2/10 4/0 | ESC 2/4 2/11 4/0 |
83 | ESC 2/4 4/2 | ESC 2/4 2/9 4/2 | ESC 2/4 2/10 4/2 | ESC 2/4 2/11 4/2 |
90 и далее | ESC 2/6 4/0 ESC 2 / 4 4/2 | ESC 2/6 4/0 ESC 2/4 2/9 4/2 | ESC 2/6 4/0 ESC 2/4 2/10 4/2 | ESC 2/6 4/0 ESC 2/4 2/11 4/2 |
Управляющая последовательность, начинающаяся с ESC 2/4, выбирая многобайтовый набор символов. Управляющая последовательность, начинающаяся с ESC 2/6, указывает версию предстоящего выбора набора символов. JIS C 6226: 1978 идентифицируется байтом 4/0 с набором многобайтовых 94 (соответствует ASCII @
). JIS C 6226: 1983 / JIS X 0208: 1983 идентифицируется байтом 4/2 распознаатора из набора многобайтовых 94 (B
). JIS X 0208: 1990 также идентифицируется байтом идентификатора из 94 наборов 4/2, но может отличаться идентификатором версии 4/0 (@
).
При использовании набора кандзи этого стандарта с графическим набором символов ISO / IEC 646: 1991 IRV (ASCII ) или набор графических символов JIS X 0201 для латинских символов (JIS-Roman ), обработка символов, общих для обоих наборов, становится проблематичной. Если не принять специальных мер, символы, включенные в оба набора, не все отображаются друг с другом один к одному, и одному символу может быть присвоено более одной кодовой точки; то есть это может привести к дублированию кодировки.
JIS X 0208: 1997, в отношении того, когда символ является общим для обоих наборов, в основном запрещает использование кодовой точки в наборе кандзи (который является одной из двух кодовых точек), устраняя повторяющиеся кодировки. Считается, что персонажи с одинаковым именем являются одним и тем же персонажем.
Например, как имя символа, соответствующего битовой комбинации 4/1 в ASCII, так и имя символа, соответствующего ячейке 33 строки 3 набора кандзи, являются «ЛАТИНСКОЙ ЗАГЛАВНОЙ БУКВОЙ A». В международной справочной версии + 8-битный код для иероглифов, будь то битовая комбинация 4/1 или битовая комбинация, соответствующая ячейке 33 строки 3 набора кандзи (10/3 12/1), буква «A "(т.е." ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A "). Стандарт запрещает использование битового шаблона «10/3 12/1» в попытке устранить дублирующееся кодирование.
С учетом реализаций, которые обрабатывают символы кодовых точек в кандзи, установленные как «полноширинные символы », а символы ASCII или JIS-Roman как разные символы, использование кодовые точки набора кандзи разрешены только ради обратной совместимости. Например, в целях обратной совместимости разрешено рассматривать 10/3 12/1 в международной справочной версии + 8-битный код для кандзи как подходящей полной ширине «A».
Если набор кандзи используется вместе с ASCII или JIS-Roman, то даже при строгом соблюдении стандартной кодировки символа не гарантируется. Например, в международной справочной версии + 8-битный код для иероглифов допустимо представлять собой дефис с битовой комбинацией 2/13 для символов «ДЕФИС-МИНУС», а также с помощью ячейки 30 строки 1 набора кандзи (10 / 1 11/14) для символа "ДЕФИС". Кроме того, стандарт не определяет, какой из двух использовать для чего, поэтому дефису не присваивается одна уникальная кодировка. Та же проблема возникает со знаком минус, кавычками и т. Д.
Более того, даже если набор кандзи используется как отдельный код, нет гарантии, что реализована уникальная кодировка символов. Во многих случаях полноширинное «IDEOGRAPHIC SPACE » в строке 1, ячейке 1, и пространство половинной ширины (2/0) сосуществуют. Чем должны отличаться, не требует пояснений и не указывается в они стандарте.
Кодирование | Альтернативное имя | 7-битное? | ISO 2022 ? | Без гражданства? | Принимает ASCII ? | 0x00–7F Всегда ASCII? | Надмножество 8-битного JIS X 0201 ? | Поддерживает JIS X 0212 ? | Самосинхронизация? | |
---|---|---|---|---|---|---|---|---|---|---|
ISO-2022-JP | "JIS "(JIS X 0202) | Да | Да | No | Да | Последовательности могут быть не- ASCII | Нет (возможна кодировка) | Возможна | Нет | |
Shift_JIS | "SJIS" | No | No | Да | Почти | Изолированные байты могут быть не-ASCII | Да | No | Нет | |
EUC-JP | «UJIS» (Unixized JIS) | No | Да | Да | Да | Всегда ASCII | Нет (в кодировке) | Доступны | Нет | |
Форматы Unicode для сравнения | ||||||||||
UTF-8 | No | No | Да | Да | Да | Нет (в кодировке) | Доступно | Да | ||
UTF- 16 | No | No | Да | No | No | Нет (в кодировке) | Доступно | Только более 16-битные слова. | ||
GB 18030 | No | No | Да | Да | Изолированные байты могут быть не-ASCII | Нет (закодированы) | Доступны | Нет |
До тех пор, пока не пройдет пять лет после того, как японский промышленный стандарт был у становлен, подтвержден или пересмотрен предыдущий стандартный процесс повторного подтверждения, r выселение или изъятие. С момента создания стандарта трижды подвергался пересмотру, и в настоящее время происходит четвертый стандарт.
Первым стандартом является JIS C 6226-1978 «Код японского набора графических символов для обмена информацией» (情報 交換 用 漢字 符号 系, Jōhō Kōkan 'yō Kanji Fugōkei), учрежденный министром международной торговли и промышленности Японии 1 января 1978 года. Он также называется 78JIS для краткости. По поручению комитета по исследованиям и изучению стандартизации кода кандзи JIPDEC был подготовлен проект. Председатель комиссии был.
Код включал 453 не-кандзи (включая хирагана, катакана, римский, греческий и кириллический алфавиты и знаки препинания) и 6349 кандзи (2965 кандзи уровня 1 и 3384 кандзи уровня 2), всего 6802 символа. В нем еще не было символов рисования прямоугольников. Сам стандарт был установлен в шрифте Исии Минчо.
Второй стандарт JIS C 6226-1983 «Код японского набора графических символов для обмена информацией» (情報 交換 用 漢字 符号 系, Jōhō Kōkan 'yō Kanji Fugōkei) пересмотрел первый стандарт 1 сентября 1983 года. Он также называется 83JIS . По поручению AIST, комитет JIPDEC, связанный с кодом кандзи, разработал проект. Председатель комиссии был.
Проект второго стандарта был основан на рассмотрении таких факторов, как обнародование дзёё кандзи, соблюдение кандзи дзинмэйё и стандартизация японского языка Teletex почт и телекоммуникаций ; кроме, была выполнена следующая модификация, чтобы не отставать от JIS C 6234-1983 (24-пиксельные матричные матричные печатные формы символов; в настоящее время JIS X 9052).
Среди изменений в этих 300 или около того символьных формх кандзи, многие глифы уровня 1 были в стиле словаря Kangxi были заменены на варианты, особенно в более упрощенные формы (например, ryakuji и extended shinjitai ). Например, пара кодовых пунктов, которые часто подвергаются критике из-за того, что сильно изменились строка 18, ячейка 10 (78JIS: 鷗, 83JIS: 鴎) и строка 38, ячейка 34 (78JIS: 瀆, 83JIS: 涜).
Было много меньших изменений по сравнению с вариантами в стиле Kangxi; например, в строке 25, ячейка 84 (鵠) потеряна часть штриха. Кроме того, там, где некоторые глифы для кандзи уровня 1 не были формы в стиле Канси, некоторые были на формы их ст.. иль для РС; например, ячейка 49 (靠) строки 80 получила часть штриха (то есть ту же часть штриха, которую потеряли 25-84).
Чтобы прояснить первоначальную цель первого стандарта, они попали в параметры унификации в четвертом стандарте. Разница в приведенных выше примерах («鵠» и «靠») подпадает под параметры унификации 42 (в компоненте «»).
Основная часть изменений в форме символов связана с различиями между кандзи уровня 1 и уровня 2. В частности, упрощение выполнялось чаще для кандзи уровня 1, чем для кандзи уровня 2; упрощения, применяемые кандзи уровня 1 (например, от «潑» до «溌» и от «醱» до «醗»), как правило, не применялись к кандзи на уровне 2 («撥» оставалось как есть). Вышеупомянутые 25-84 (鵠) и 80-49 (靠) также подвергались разному лечению, как первый находится на уровне 1, а - на уровне 2. Тем не менее, были некоторые изменения независимо от уровня; например, символы, содержащие компоненты «дверь» (戸) и «зима» (冬), были без разницы между кандзи уровня 1 и уровня 2.
для 29 кодовых точек (таких как проблемные 18-10 и 38 -34, упомянутые выше стандарты), формы, унаследованные четвертымтом, противоречащий стандартному замыслу первого. Обеспечивающие совместимость с предыдущими стандартами в этих кодовых точках.
Когда была введена новая категория «X» для японских промышленных стандартов (для полей, связанных с информацией), второй стандарт был переименован в JIS X 0208-1983 1 марта 1987 года.
Третий стандарт JIS X 0208-1990 «Код японского набора графических символов для обмена информацией» (情報 交換 用 漢字 符号, Jōhō Kōkan'yō Кандзи Фуго) пересмотрел второй стандарт 1 сентября 1990 года. Его также для краткости называют 90JIS . По поручению комитета AIST комитет Японской ассоциации стандартов по пересмотру JIS X 0208 создал проект. Председатель комиссии был.
225 символов кандзи были, и два символа были добавлены на уровень 2 (84-05 «凜 » и 84-06 «熙 »). Это было разделение итайдзи для двух уже включенных персонажей (49-59 «凛 » и 63-70 «煕 »). Некоторые изменения и два дополнения соответствовали 118 дзинмэйё кандзи, добавленным в марте 1990 года. Сам стандарт был установлен.
Четвертый стандарт JIS X 0208: 1997 «7-битные и 8-битные двухбайтовые наборы KANJI для обмена информацией» (7 ビ ッ ト 及 ッ 8ビ ッ ト の 2 バ イ ト 情報 交換 用 符号 化 漢字 集合, Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūg) 20 января 1997 г. пересмотрел третий стандарт. Он также называется 97JIS для краткости. По поручению комитета AIST JSA по исследованию и изучению кодированных наборов символов подготовил проект. Председатель комиссии был.
Основная политика этой редакции, чтобы включить в том, чтобы не вносить изменения в набор символов, прояснить неоднозначные положения и сделать стандарт более в использовании. Добавление, удаление и перестановка кодовых точек не производились, и все без исключения глифы также остались без изменений. Однако положения стандарта были полностью переписаны и / или дополнены. В то время как третий стандарт составлял 65 страниц без пояснений, четвертый стандарт - 374 страницы без объяснений.
Основными пунктами пересмотра являются:
JIS X 0213 () были разработаны «с оптимальным набором символов для кодирования современного японского языка, который JIS X 0208 планировал использовать с самого начала»; он определяет набор символов, расширяющий набор кандзи JIS X 0208. Составители JIS X 0213 рекомендуют переход с JIS X 0208 на JIS X 0213, среди преимуществ которого является совместимость JIS X 0213 со списком символов Hyōgai Kanji Glyph List и с более новым jinmeiyō кандзи <2287 Редакционный комитет JIS X 0213: 2004 написал (в 2004 году): «По-прежнему сохраняет статус, согласно другим информационным системам могут использовать совместно».>Вопреки ожиданиям разработчиков, принятие JIS X 0213 было далеко не быстрым моментом его принятия в 2000 году. только JIS X 0208 ». (JIS X 0213: 2000, Приложение 1: 2004, раздел 2.9.7)
Для Microsoft Windows преобладающая операционная система (и, следовательно, обеспечивающая преоблад ающую среду рабочего стола ) в системе компьютеров репертуар JIS X 0213 был включен с момента выпуска Windows Vista, выпущенной в ноябре 2006 года. Mac OS X соответствие с JIS X 0213, начиная с версии 10.1 (выпущенной в 2001 году). Многие Unix-как подобные, такие Linux, могут (опционально) поддерживать JIS X 0213 при желании. Таким образом, считается, что со временем поддержка JIS X 0213 на компьютере компьютерах не станет препятствием для его окончательного внедрения.
Среди разработчиков JIS X 0213 есть те, кто ожидает увидеть смесь JIS X 0208 и JIS X 0213 до принятия JIS X 0213 (Satō, 2004). Тем не менее, JIS X 0208 продолжает знакомить в настоящее время, и предсказывают, что он останется прежним. Существуют препятствия, которые необходимо преодолеть, чтобы JIS X 0213 использовался в обычном использовании JIS X 0208 в обычном использовании:
Буквально JIS X 0208 / JIS C 6226 является примитивным Например, набор символов , а не строго определенная кодировка символов , несколько компаний внедрили свои собственные кодировки набора символов.
Некоторые из них включают присвоение символов, зависящее от производителя, вместо нераспределенных областей стандарта. К ним относятся Windows-932 и MacJapanese, а также кодировка символов NEC PC98. Хотя IBM-932 и IBM-942 также включают в себя назначение поставщиков, они включают в себя использование других стандартов JIS X 0208.
Как отмечалось выше, набор кандзи несовместим снизу вверх с набором графических символов ISO / IEC 646: 1991 IRV (ASCII). Набор кандзи и набор графических символов IRV можно использовать вместе, как указано в JIS X 0208 (IRV + 7-битный код для кандзи и IRV + 8-битный код для кандзи). Их также можно использовать вместе в EUC-JP.
В наборе кандзи отсутствуют три символа, включенные в набор графических символов JIS X 0201 для латинских символов: 2/2 (QUOTATION MARK), 2 / 7 (АПОСТРОФ) и 2/13 (ДЕФЕН-МИНУС). Набор кандзи содержит все символы, входящие в набор графических символов JIS X 0201 для катаканы.
Набор кандзи и набор графических символов для латинских обозначений, как указано в JIS X 0208 (латинские символы + 7-битный код для кандзи и латинские символы + 8-битный код для кандзи). Набор иероглифов, набор графических символов для латинских символов и набор графических символов JIS X 0201 для катаканы могут быть набор вместе, как указано в JIS X 0208 (символы с кодировкой сдвига, т.е. Shift JIS ). Набор кандзи и набор графических символов для катаканы могут быть вместе вместе в EUC-JP.
JIS X 0212 (дополнительные кандзи), определяющие дополнительные символы с кодовыми точками для информационных целей. обработка, для которой требуются символы, отсутствующие в JIS X 0208. Вместо выделения символов в основном наборе кандзи JIS X 0208 он определяет второй набор кандзи размером 94 на 94, дополнительные символы.
JIS X 0212 может быть с JIS X 0208 в EUC-JP. Кроме того, JIS X 0208 и JIS X 0212 являются исходными стандартами унификации UCS / Unicode Han, что означает, что кандзи из обоих наборов может быть включен в один документ формата Unicode.
Среди кодовых точек, которые изменила вторая версия JIS X 0208, 28 кодовых точек в JIS X 0212 отражают формы символов до изменений. Кроме того, JIS X 0212 переназначает «знак закрытия », который JIS X 0208 назначил как не-кандзи (〆, в строке 1 ячейка 26) как кандзи (乄, в строке 16 ячейка 17). JIS X 0212 не имеет общих символов с JIS X 0208, кроме этих. Следовательно, сам по себе он не подходит для общего использования.
Однако в четвертой версии JIS X 0208 соединение с JIS X 0212 вообще не было определено. Считается, что это связано с тем, что редакционный комитет четвертого стандарта JIS X 0208 имел критическое мнение о методах выбора и идентификации JIS X 0212. Значения символов и обоснования выбора не были должным образом задокументированы, что затрудняло определение желаемого кандзи соответствовали таковым в его репертуаре. В тексте четвертого стандарта, а также указывается на проблемные моменты выбора символов в JIS X 0212, говорится, что «считается, что не только невозможно выбрать символы, но также невозможно использовать их вместе; связь с JIS X 0212 вообще не определен ". (раздел 3.3.1)
JIS X 0213 (расширение кандзи) определяют набор кандзи, который расширяется на набор кандзи JIS X 0208. Согласно этому стандарт, он «разработан с целью предложить достаточный набор символов для целей кодирования современного японского языка, который JIS X 0208 планировал использовать с самого начала».
Набор кандзи JIS X 0213 включает в себя все символы, которые могут быть представлены в наборе кандзи JIS X 0208, со многими дополнениями. Всего JIS X 0213 определяет 1183 не-кандзи и 10 050 иероглифов (всего 11 233 символа) в двух плоскостях 94 на 94 (面, мужчины). Первая плоскость (без кандзи и кандзи уровней 1-3) основана на JIS X 0208, тогда как вторая плоскость (кандзи уровня 4) предназначена для размещения в нер аспределенных строках JIS X 0212, что позволяет использовать в EUC. -JP. JIS X 0213 также определяет Shift_JISx0213, вариант Shift_JIS, способный полностью кодировать JIS X 0213.
Для большинства целей и целей плоскость 1 JIS X 0213 является надмножеством JIS X 0208. Однако к некоторым кодовым точкам в JIS X 0213 применяются разные критерии унификации по сравнению с JIS X 0208. Следовательно, некоторым парам глифов иероглифов, которые были представлены одной кодовой точкой JIS X 0208, из-за их унификации назначается отдельный код. точек в JIS X 0213. Например, глиф в строке 33, ячейка 46 JIS X 0208 («僧», описанный выше) объединяет несколько вариантов из-за его правого компонента. В JIS X 0213 две формы (одна, содержащая компонент «») объединены на плоскости 1, строке 33, ячейке 46, а другая (содержащая компонент «») расположена в плоскости 1, строке 14, ячейке 41. Следовательно, Не может быть определено автоматически, должна ли ячейка 46 строки 33 JIS X 0208 отображаться в ячейку 41 строки 33 плоскости 1 JIS X 0213 или ячейке 41 строки 14 плоскости 1. Это ограничивает степень, в которой JIS X 0213 может считаться совместимым снизу вверх с JIS X 0208, что было признано редакционным комитетом JIS X 0213.
Однако по большей части строка m ячейка n в JIS X 0208 соответствует плоскости 1 строки m ячейки n в JIS X 0213; поэтому на практике не возникает большой путаницы. Это связано с тем, что в большинстве гарнитур используются глифы, представленные в JIS X 0208, и большинство пользователей не осознают критерии унификации.
Набор иероглифов JIS X 0208 входит в число исходных стандартов для унификации хань в ISO / IEC 10646 (UCS) и Unicode. Каждый кандзи в JIS X 0208 соответствует своей кодовой точке в базовой многоязычной плоскости (BMP) UCS / Unicode.
Не-кандзи в JIS X 0208 также соответствуют их собственным кодовым точкам в BMP. Однако для некоторых специальных символов некоторые системы реализуют другие соответствия, чем в UCS / Unicode (которые основаны на именах символов, указанных в JIS X 0208: 1997).
В целях цитирования эти японские имена представлены, как если бы они были в западном порядке эр, где романизированный, и сохраняют восточный порядок где нет.
Найдите Японские кандзи по JIS X 0208 код кутэн в Викисловарь, бесплатный словарь. |