JIS X 0201

редактировать
Японская однобайтовая кодировка символов
JIS X 0201
JIS-C-6220.svg JIS X 0201 8-битная кодовая страница
MIME / IANA8-битный : JIS_X0201. 7-битный Roman : JIS_C6220-1969-ro. 7-битный Kana : JIS_C6220 -1969-jp
Псевдоним (а)JIS C 6220. 8-битный : csHalfWidthKatakana. Roman : ISO646- JP, iso-ir-14. Кана : iso-ir-13, x0201-7
Язык (и)Японский (базовая поддержка), английский
стандартJIS X 0201: 1969
классификацияISO 646, расширенный ISO 646
, которому предшествуеткод Wabun, JIS C 0803
ПреемникShift JIS
Другая связанная кодировкаN-байтовый код хангыль
  • v
  • t

JIS X 0201, Японский промышленный Стандарт, разработанный в 1969 году (затем назывался JIS C 6220 до реформы категории JIS), был первым японским электронным набором символов , получившим широкое распространение. Это либо 7-битное кодирование, либо 8-битное кодирование, хотя 8-битное кодирование является доминирующим для современного использования. Полное название этого стандарта - 7-битные и 8-битные наборы символов для обмена информацией (7 ビ ッ ト 及 び 8 ビ ッ ト の 情報 交換 用 符号 化 文字 集合).

Первые 96 кодов представляют собой вариант ISO 646, в основном следующие за ASCII с некоторыми отличиями, тогда как вторые 96-символьные коды представляют фонетический японский катакана знаков. Поскольку кодировка не позволяет выразить хирагана или кандзи, она способна выражать только упрощенный письменный японский язык. Тем не менее, можно хотя бы фонетически выразить весь спектр звуков языка. В 1980-х годах это было приемлемо для таких средств массовой информации, как компьютерные терминалы в текстовом режиме, телеграммы, квитанции и другие данные, обрабатываемые электронным способом.

JIS X 0201 был заменен последующими кодировками, такими как Shift JIS (который объединяет этот стандарт и JIS X 0208 ) и более поздние версии Unicode.

.
  • 1 История
  • 2 Подробности реализации
  • 3 Макет кодовой страницы
    • 3.1 Как часть Shift JIS
    • 3.2 Альтернативное отображение катаканы
  • 4 Варианты и расширения
    • 4.1 Shift JIS
    • 4.2 Реализации IBM
    • 4.3 Прочее
  • 5 Сноски
  • 6 Ссылки
  • 7 Внешние ссылки
История

Comite Consultatif International Telephonique et Telegraphique (CCITT) представил код Международного телеграфного алфавита № 2 (ITA2) в качестве международного стандарта, который представлял собой 5-битную латинскую кодировку. В большинстве стран существуют свои собственные национальные стандарты, основанные на этом. В Японии Агентство промышленной науки и технологий (AIST) стандартизировало его как 6-битные коды символов JIS C 0803-1961 (Раскладка клавиатуры и коды для телетайпов), которые сочетаются с символами катаканы. Однако это не соответствовало отраслевым требованиям, потому что карта символов была маленькой, а макет кода был непрактичным. AIST рассматривал практическую кодировку символов для замены различных кодов, используемых в Японии.

В 1963 году ISO представила проект стандарта ISO R 646 (6- и 7-битные наборы символов для обмена информацией при обработке). AIST передал объединение ISO R 646 и отображения катаканы в Японское общество обработки информации (IPSJ). IPSJ сформировал комитет по стандартизации кодов. Комитет не принял 6-битную форму проекта ISO, потому что набор катакана не мог вписаться в его карту символов. В раннем проекте JIS маленькие символы катаканы отображались рядом с каждым из их обычных символов катаканы. Считалось удобным для сортировки по порядку Годзюон. Некоторые члены комитета критиковали, что это усложнит механику клавиатуры, которая обрабатывает только обычные символы катаканы. В более позднем проекте маленькие символы катаканы были сопоставлены с позициями 0xA7-0xAF. В 1966 году четвертый проект ISO определил символ национальной валюты как 0x24, и комитет JIS планировал нанести на карту знак иены. Первое издание ISO 646 было опубликовано в 1967 году. В нем в качестве инвариантного символа был указан знак доллара ASCII 0x24, поэтому комитет JIS решил заменить обратную косую черту в ASCII 0x5c (один из вариантов символов) со знаком иены. Однако в 1968 году CCITT представил международный алфавит № 5 (IA5), в котором указывалось, что знак доллара не требуется, и его можно заменить знаком международной валюты (¤). ISO 646 был пересмотрен в 1973 году для соответствия IA5.

JIS C 6220 (Коды для обмена информацией, 情報 交換 用 符号) был опубликован в 1969 году. Его номер был изменен на JIS X 0201 в связи с реформой категории JIS. в 1987 году, а в редакции 1990 года название было изменено на 7-битные и 8-битные наборы символов для обмена информацией (7 ビ ッ ト 及 び 8 ビ ッ の 情報 用 符号 化 文化 集合).

Набор символов JIS X 0201 широко использовался в Японии. Национальная система передачи банковских данных (全国 銀行 デ ー タ 通信 シ ス テ ム), крупнейшая система денежных переводов в Японии, была создана в 1973 году. В сообщениях о транзакциях между банками использовалась подмножество JIS X 0201. Система использовалась до 2018 года, и это было заменен ZEDI (Национальная система обмена банковскими электронными данными, 全 銀 EDI シ ス テ ム), которая могла обрабатывать символы хирагана и иероглифы. В 1978 году был разработан 2-байтовый набор символов JIS C 6226 (JIS X 0208 ) для выражения символов хирагана и кандзи. Он включает символы катакана, но их коды и компоновка отличаются от JIS X 0201. Производители компьютеров разработали собственные расширения JIS X 0208, чтобы сохранить совместимость с JIS X 0201. В 1982 году схема кодирования Microsoft Kanji ( Кодовая страница 932 из MS-DOS ) и SJC26 от Digital Research (для японского CP / M-86 ) были разработаны для объединения Однобайтовое кодирование JIS X 0201 и двухбайтовое кодирование JIS X 0208 без сдвига и сдвига символов. Они назывались Shift JIS, что стало промышленным стандартом для персональных компьютеров.

Детали реализации
7-битный римский набор (сдвиг в ) 7-битный набор Кана (сдвиг)

Первая половина (римский набор) JIS X 0201 представляет собой японский вариант ISO 646, составляющий ASCII с обратной косой чертой (\) и тильдой (~), замененной на иена (¥) и поверх (‾), а вторая половина (набор Кана) состоит в основном из катакана. Управляющие символы указаны в JIS X 0211.

В 7-битном формате управляющий символ сдвигом (0x0E) переключает на набор Кана и shift in (0x0F) переключает на римский набор. В 8-битном формате, представленном в таблице ниже, байты с установленным старшим битом (т. Е. 0x80–0xFF) используются для набора Кана, а байты с неустановленным значением (т. Е. 0x00–0x7F) используются в противном случае.

Имена, используемые специально для 7-битного римского набора, включают "JISCII", "JIS Roman", "ISO646-JP", "JIS C6220-1969-ro", "Japanese-Roman", "Japan 7 -Bit Latin "и" ISO-IR-14 ", тогда как имена, используемые специально для 7-битного набора Кана, включают" ISO-IR-13 "," JIS C6220-1969-jp "и" x0201-7 ".

Замена символа иены на обратную косую черту может привести к тому, что пути на DOS и компьютерах под управлением Windows с поддержкой японского языка будут отображаться странно, например «C: ¥ Program Files ¥», например. Другая похожая проблема - это управляющие символы языка программирования C в строковых литералах, например printf ("Hello, world. ¥ n");.

Макет кодовой страницы

Следующая таблица представляет собой исходный 8-битный набор символов JIS X 0201 (с набором кана, обозначенным байтами с установленным старшим битом).

8-битная форма JIS X 0201-1997
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_. 0Коды C0. 0000-001F
1_. 16
2_. 32SP. 0020!. 0021". 0022#. 0023$. 0024%. 0025. 0026'. 0027(. 0028). 0029*. 002A+. 002B,. 002C-. 002D.. 002E/. 002F
3_. 480. 00301. 00312. 00323. 00334. 00345. 00356. 00367. 00378. 00389. 0039:. 003A;. 003B<. 003C=. 003D>. 003E?. 003F
4_. 64@. 0040A. 0041B. 0042C. 0043D. 0044E. 0045F. 0046G. 0047H. 0048I. 0049J. 004AK. 004BL. 004CM. 004DN. 004EO. 004F
5_. 80P. 0050Q. 0051R. 0052S. 0053T. 0054U. 0055V. 0056W. 0057X. 0058Y. 0059Z. 005A[. 005B¥. 00A5]. 005D^. 005E_. 005F
6_. 96`. 0060a. 0061b. 0062c. 0063d. 0064e. 0065f. 0066g. 0067h. 0068i. 0069j. 006Ak. 006Bl. 006Cm. 006Dn. 006Eo. 006F
7_. 112p. 0070q. 0071r. 0072s. 0073t. 0074u. 0075v. 0076w. 0077x. 0078y. 0079z. 007A{. 007B|. 007C}. 007D. 203EDEL. 007F
8_. 128Коды C1 или пустой блок. 0080-009F
9_. 144
A_. 160. 3002. 300C. 300D. 3001. 30FB. 30F2. 30A1. 30A3. 30A5. 30A7. 30A9. 30E3. 30E5. 30E7. 30C3
B_. 176. 30FC. 30A2. 30A4. 30A6. 30A8. 30AA. 30AB. 30AD. 30AF. 30B1. 30B3. 30B5. 30B7. 30B9. 30BB. 30BD
C_. 192. 30BF. 30C1. 30C4. 30C6. 30C8. 30CA. 30CB. 30CC. 30CD. 30CE. 30CF. 30D2. 30D5. 30D8. 30 DB. 30DE
D_. 208. 30DF. 30E0. 30E1. 30E2. 30E4. 30E6. 30E8. 30E9. 30EA. 30EB. 30EC. 30ED. 30EF. 30F3. 309B. 309C
E_. 224
F_. 240

Буква Число Пунктуация Символ Другое Не определено

Как часть Shift JIS

Ниже показано отображение, используемое для JIS X 0201 как часть Shift_JIS, т. Е. Показывающее 8-битная форма JIS X 0201 и отображение символов Katakana в блок Halfwidth и Fullwidth Forms (который, в свою очередь, выводит свой макет kana половинной ширины из JIS X 0201).

Набор однобайтовых символов Shift JIS
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_. 0
1_. 16
2_. 32SP. 0020!. 0021". 0022#. 0023$. 0024%. 0025. 0026'. 0027(. 0028). 0029*. 002A+. 002B,. 002C-. 002D.. 002E/. 002F
3_. 480. 00301. 00312. 00323. 00334. 00345. 00356. 00367. 00378. 00389. 0039:. 003A;. 003B<. 003C=. 003D>. 003E?. 003F
4_. 64@. 0040A. 0041B. 0042C. 0043D. 0044E. 0045F. 0046G. 0047H. 0048I. 0049J. 004AK. 004BL. 004CM. 004DN. 004EO. 004F
5_. 80P. 0050Q. 0051R. 0052S. 0053T. 0054U. 0055V. 0056W. 0057X. 0058Y. 0059Z. 005A[. 005B¥. 00A5]. 005D^. 005E_. 005F
6_. 96`. 0060a. 0061b. 0062c. 0063d. 0064e. 0065f. 0066g. 0067h. 0068i. 0069j. 006Ak. 006Bl. 006Cm. 006Dn. 006Eo. 006F
7_. 112p. 0070q. 0071r. 0072s. 0073t. 0074u. 0075v. 0076w. 0077x. 0078y. 0079z. 007A{. 007B|. 007C}. 007D. 203E
8_. 128
9_. 144
A_. 160. FF61. FF62. FF63. FF64. FF65. FF66. FF67. FF68. FF69. FF6A. FF6B. FF6C. FF6D. FF6E. FF6F
B_. 176. FF70. FF71. FF72. FF73. FF74. FF75. FF76. FF77. FF78. FF79. FF7A. FF7B. FF7C. FF7D. FF7Eソ. FF7F
C_. 192. FF80. FF81. FF82. FF83. FF84. FF85. FF86. FF87. FF88. FF89. FF8A. FF8B. FF8C. FF8D. FF8E. FF8F
D_. 208. FF90. FF91. FF92. FF93. FF94. FF95. FF96. FF97. FF98. FF99. FF9A. FF9B. FF9C. FF9D. FF9E. FF9F
E_. 224
F_. 240

Красные ячейки обозначают первые байты двухбайтовых символов Shift JIS.

Альтернативное отображение катаканы

Базовый профиль ISO-2022-JP не допускает набор Кана JIS X 0201, только R oman set и JIS X 0208 (хотя сам ISO 2022 / JIS X 0202 допускает это). Соответственно, при преобразовании катаканы JIS X 0201 (или Unicode кана половинной ширины, которые используют тот же макет) в ISO-2022-JP часто используется следующее сопоставление или преобразование. Это позволяет преобразовать кана в JIS X 0208.

Теоретически это сопоставление также верно, поскольку сам JIS X 0201 не определяет ширину отображения, хотя на практике (и особенно в двумерных средах) JIS X 0201 используется для катаканы половинной ширины.

Для простоты сравнения с приведенной выше диаграммой отображение показано ниже в кодировке катакана JIS X 0201 и с установленным старшим битом.

Сопоставления, совместимые с JIS X 0208, для JIS X 0201 katakana
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
A_. 3002. 300C. 300D. 3001. 30FB. 30F2. 30A1. 30A3. 30A5. 30A7. 30A9. 30E3. 30E5. 30E7. 30C3
B_. 30FC. 30A2. 30A4. 30A6. 30A8. 30AA. 30AB. 30AD. 30AF. 30B1. 30B3. 30B5. 30B7. 30B9. 30BB. 30BD
C_. 30BF. 30C1. 30C4. 30C6. 30C8. 30CA. 30CB. 30CC. 30CD. 30CE. 30CF. 30D2. 30D5. 30D8. 30DB. 30DE
D_. 30DF. 30E0. 30E1. 30E2. 30E4. 30E6. 30E8. 30E9. 30EA. 30EB. 30EC. 30ED. 30EF. 30F3. 309B. 309C
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
Варианты и расширения

Shift JIS

Реализации IBM

Кодовая страница 897 - это реализация IBM e 8-битная форма JIS X 0201. Он включает несколько дополнительных графических символов в области C0 управляющих символов, и рассматриваемые кодовые точки могут использоваться как управляющие символы или графические символы в зависимости от контекста, аналогично концептуально до OEM-US, но с другими графическими символами. Строки C0 показаны ниже.

Кодовая страница 897, только строки 0x00 и 0x10
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_. 0NUL. 0000. 2554. 2557. 255A. 255D. 2551. 2550. FFECBS. 0008. FFEELF. 000A. 303FFF. 000CCR. 000D. FFED. 263C
1_. 16. 256CDC1. 0011. 2195DC3. 0013. 2593. 2569. 2566. 2563CAN. 0018. 2560 /FS. 2591 / 001C. 21B5 /DEL. FFEA / 007F. FFE8. FFEB. FFE9

IBM также реализует 7-битный римский набор JIS X 0201 как Кодовая страница 895 и 7-битная Кана установлена ​​как Кодовая страница 896 для использования как ISO 2022 или EUC-JP кодовые наборы. Кодовая страница 896 в дополнение к стандартным назначениям JIS X 0201 определяет пять дополнительных назначений, показанных ниже. Хотя использование этих расширенных символов не разрешено связанным CCSID 896, они разрешены альтернативным CCSID 4992.

Кодовая страница 896, только строка 0x60
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
6_. 96¢. 00A2£. 00A3¬. 00AC\. 005C~. 007E

Кодовая страница IBM 1041 - это расширенная версия кодовой страницы 897, кодирующая эти пять расширенных символы в альтернативных местах, которые совместимы с Shift JIS (соответственно 0x80, 0xA0, 0xFD, 0xFE и 0xFF).

IBM Кодовая страница 903 закодирован для использования в качестве однобайтового компонента некоторых кодировок символов упрощенного китайского. Несмотря на это, он следует ISO 646-JP / римской половине JIS X 0201 в том, что он заменяет обратную косую черту ASCII 0x5C (а не знак доллара ASCII 0x24, как в GB 1988 / ISO 646-CN ) со знаком иена / юань. Он также использует ту же графику замены C0, что и кодовая страница 897. Он тесно связан с кодовой страницей 904, которая закодирована для использования в качестве однобайтового компонента некоторых кодировок символов традиционного китайского., и использует ту же заменяющую графику C0, но следует ASCII.

Others

Сноски
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-24 10:08:19
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте