Кодировка JIS

редактировать
Коллекция японских стандартов кодирования цифровых символов

В вычислениях кодировка JIS относится к нескольким японским промышленным стандартам для кодирования японского языка. Строго говоря, этот термин означает либо:

  • Набор стандартных кодированных наборов символов для японского языка, а именно:
    • JIS X 0201, японская версия ISO 646 (ASCII ), содержащий базовые 7-битные символы ASCII (с некоторыми изменениями) и 64 символа катаканы половинной ширины.
    • JIS X 0208, наиболее распространенный набор символов кандзи, содержащий 6879 символов, включая 6355 иероглифов и 524 других символа (один размер 94 на 94)
    • JIS X 0212, дополнение к JIS X 0208, которое добавляет 5801 кандзи, всего 12156 кандзи (второй уровень 94 на 94)
    • JIS X 0213, который расширяет JIS X 0208 (две плоскости)
  • JIS X 0202 (также известный как ISO-2022-JP), набор механизмов кодирования для отправки символьных данных JIS по средам передачи, которые поддерживает только 7-битные данные.

На практике «кодировка JIS» обычно относится к символьным данным JIS X 0208, закодированным с помощью JIS X 0202. Например, IANA использует JIS_Encodingдля ссылки на JIS X 0202 и ISO-20 22-JPдля обозначения его профиля, определенного в RFC 1468.

. Другие механизмы кодирования для символов JIS включают кодирование Shift JIS и EUC-JP. Shift JIS добавляет кандзи, хирагану во всю ширину и катакану во всю ширину из JIS X 0208 в JIS X 0201 обратно совместимым способом. Shift JIS является, пожалуй, наиболее широко используемой кодировкой в ​​Японии, поскольку совместимость с однобайтовым набором символов JIS X 0201 позволила производителям электронного оборудования (например, производителям кассовых аппаратов) предлагать модернизацию более старого более дешевого оборудования, которое не использовалось. способен отображать иероглифы на новом оборудовании с сохранением совместимости набора символов.

EUC-JP используется в системах UNIX, где кодировки JIS несовместимы со стандартами POSIX.

Более поздней альтернативой кодированным символам JIS является Unicode (символы в кодировке UCS ), особенно в механизме кодирования UTF-8.

Сравнение кодировок

В следующей таблице сравниваются характеристики трех основных схем кодирования для JIS X 0208.

КодированиеАльтернативное имя7 -bit?ISO 2022 ?Stateless?Принимает ASCII ?0x00–7F всегда ASCII?Надмножество 8-битного JIS X 0201 ?Поддерживает JIS X 0212 ?Самосинхронизация?
ISO-2022-JP "JIS "(JIS X 0202)ДаДаNoДаПоследовательности могут быть не- ASCIIНет (возможна кодировка)ВозможноНет
Shift_JIS "SJIS"NoNoДаПочтиИзолированные байты могут быть не-ASCIIДаNoНет
EUC-JP «UJIS» (Unixized JIS)NoДаДаДаВсегда ASCIIНет (в кодировке)ДоступноНет
Форматы Unicode для сравнения
UTF-8 NoNoДаДаДаНет (в кодировке)ДоступноДа
UTF- 16 NoNoДаNoNoНет (закодировано)ДоступноТолько более 16-битные слова.
GB 18030 NoNoДаДаИзолированные байты могут быть не-ASCIIНет (закодировано)ДоступноНет
См. Также
Ссылки
Последняя правка сделана 2021-05-24 10:08:23
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте