Кана половинной ширины

редактировать

Кана половинной ширины (半角 カ ナ, Hankaku kana) - символы катакана, отображаемые с половиной своей нормальной ширины (соотношение сторон 1: 2 ) вместо обычного квадратного (1: 1) соотношения сторон. Например, обычная (полная) форма катакана ка - k, а форма полуширины -. Полуширина хирагана не может использоваться в Unicode, хотя ее можно использовать в Интернете или электронных книгах через CSS font-feature-settings: "hwid" 1со шрифтами OpenType на основе Adobe-Japan1-6. Кандзи половинной ширины нельзя использовать на современных компьютерах, даже если они используются в некоторых чековых принтерах, электрических досках объявлений или старых компьютерах.

Кана половинной ширины использовались в первые дни Японские вычисления, позволяющие отображать японские символы в той же сетке, что и моноширинные шрифты латинских символов. Кандзи половинной ширины не использовались. Символы кана половинной ширины сегодня обычно не используются, но находят некоторое применение в определенных настройках, таких как кассовый аппарат дисплеи, в квитанциях магазинов, японском цифровом телевидении и субтитрах DVD, а также на этикетках почтовых адресов. Их использование иногда также является стилистическим выбором, особенно часто в определенном интернет-сленге.

Термин «кана половинной ширины», который строго относится только к тому, как отображаются каны, а не к тому, как они хранятся, - также используется свободно. для ссылки на блок A0 – DF (шестнадцатеричный), где катакана хранится в некоторых кодировках символов , таких как JIS X 0201 (1969) - см. кодировки, ниже. Однако это формально неверно - этот стандарт JIS просто указывает, что катакана должна храниться в этих местах, без указания того, как они должны отображаться; путаница связана с тем, что на ранних этапах вычислений символы, хранящиеся здесь, фактически отображались как кана половинной ширины - см. confusion ниже.

Содержание
  • 1 История
  • 2 Кодировка
    • 2.1 Таблица половинной ширины
  • 3 Кана половинной ширины в Интернете
    • 3.1 Электронная почта
    • 3.2 Веб-страницы
  • 4 Путаница
  • 5 В популярной культуре
  • 6 См. Также
  • 7 Ссылки
История
На этом светодиодном экране на станции Haiki отображается シ ー サ イ ド ​​ラ イ ナ ー (Seaside Liner) в катакане половинной ширины. Однако дакутэн, похоже, не рассматривается как отдельный символ.

Кана половинной ширины и Кана 2/3 ширины использовались с докомпьютерной эры. В раннюю компьютерную эру ASCII определялся как 7-битный набор символов и имел место для 128 символов. Однако, поскольку этот стандарт был разработан для США, он не содержит символов и символов, таких как символ иены (¥), необходимых для представления японской валюты, и не включает место для символов других алфавитов, таких как кана или кандзи, поэтому японские символы не могут быть закодированы. Кроме того, японские иероглифы, как кана, так и кандзи, рисуются на квадратной сетке, тогда как латинские символы обычно пишутся более узко, поэтому японские символы также не могут отображаться.

JIS X 0201 был разработан в 1969 году, в то время, когда компьютеры, как правило, были неспособны, как по программному обеспечению, так и по аппаратным ресурсам, отображать тысячи китайских символов иероглифов, используемых в японском языке. В качестве компромисса этот стандарт закодировал катакану (только - не хирагана или кандзи) как небольшой набор символов, назначенных в диапазоне значений старшего байта 0x80–0xFF. Это позволяло 8-битным процессорам кодировать и обрабатывать японский текст фонетически (как катакана), но без возможности обработки хираганы или кандзи. Эти символы катаканы, в свою очередь, отображались как «кана половинной ширины» - новый, неортодоксальный, более узкий форм-фактор, соответствующий той же ширине, что и машины с моноширинными латинскими алфавитами, способные печатать и отображать. С точки зрения кодирования, JIS X 0201 является вариантом расширения ASCII - он включает дополнительные символы и не совсем соответствует ASCII в перекрывающейся части (раздел латинских символов).

Транзакционные сообщения, написанные каной половинной ширины в банковская книга

Кана половинной ширины были разработаны как «... первые японские символы, закодированные на компьютерах, потому что они используются для японских телеграмм».

Национальная система передачи банковских данных (全国 銀行 デ ー タ 通信 シ ス テ ム), крупнейшая система денежных переводов в Японии, была создана в 1973 году. В транзакционных сообщениях между банками можно было использовать только латынь, числа и катакану половинной ширины внутри 20 символов. В 2018 году на смену этой системе пришла ZEDI (Национальная система обмена банковскими электронными данными), которая может обрабатывать хирагана и кандзи с символами переменной длины.

Чтобы катакана поместилась в разрешенную более узкую область ячейки, были предприняты некоторые компромиссы. Например, диакритические знаки dakuten и handakuten обрабатываются как отдельные символы, а не являются частью предыдущего символа. Этот компромисс привел к тому, что многие сочли "кана половинной ширины" визуально непривлекательной и вызывает проблемы для многих компьютерных программ сегодня.

Получение с использованием каны половинной ширины для экономии места

Другое использование каны половинной ширины - для экономии места. Японская версия Windows 95 использовала катакану половинной ширины MS P Gothic в своем пользовательском интерфейсе. Он был заменен каной полной ширины MS UI Gothic, немного уже, чем MS P Gothic.

Encoding

В спецификации JIS X 0201 (1969), katakana закодированы в блоке A0 – DF (шестнадцатеричный) - не указано, как они отображаются, и нет отдельного кодирования полноширинной и полушириной каны. В JIS X 0208 катакана, хирагана и кандзи все закодированы (и отображаются как символы полной ширины; символы половинной ширины отсутствуют), хотя порядок каны отличается - см. JIS X 0208 # Hiragana и katakana.

В Shift JIS, который объединяет JIS X 0201 и JIS X 0208, эти кодировки (оба из которых могут кодировать латинские символы и катакану) хранятся отдельно с JIS Все символы X 0201 отображаются как полуширины (таким образом, катакана JIS X 0201 отображается как кана половинной ширины), в то время как все символы JIS X 0208 отображаются как полноширинные (таким образом, латинские символы JIS X 0208 отображаются как полноразмерные). ширина латинских символов). Таким образом, в Shift JIS латинские символы и катакана имеют две кодировки с двумя отдельными формами отображения, как половинной, так и полной ширины.

В Unicode катакана и хирагана в основном используются как обычные полноширинные символы (блоки катакана и хирагана отображаются как полноширинные символы); В отдельном блоке блок Halfwidth и Fullwidth Forms используется для хранения различных символов, включая кана половинной ширины и латинские символы полной ширины.

Таким образом, катакана в JIS X 0201 и соответствующая часть производных кодировок (часть JIS X 0201 Shift JIS) отображаются как полуширина, тогда как в формах полуширины Unicode указываются отдельно.

Таблица половинной ширины

«J» указывает первые четыре бита в JIS X 0201 (хотя см. Ниже, они не обязательно указывают половинной ширины) и в других наборах, таких как Shift JIS, «U» указывает строку в Unicode в блоке Halfwidth и Fullwidth Forms.

JU0123456789ABCDEF
AFF6
BFF7ソ
CFF8
DFF9

Обратите внимание, что пустая первая ячейка представляет собой несуществующий символ в JIS, A0; но двойные скобки полной ширины ⦆ в Unicode, U + FF60.

Кана половинной ширины в Интернете

Электронная почта

Поскольку протоколы SMTP и NNTP (используются для доставки e-mail и Usenet соответственно) раньше могли передавать только 7 бит, тогда по соглашению ISO-2022-JP для отправки электронной почты на японском языке.

Кана половинной ширины не содержится в ISO-2022-JP: она включает римский набор JIS X 0201 и весь JIS X 0208, но не набор катаканы JIS X 0201 (который используется для каны половинной ширины в Shift JIS, например). Оба набора JIS X 0201 имеют коды ISO 2022, но профиль ISO-2022-JP включает только римский набор: это означает, что формат для включения катаканы половинной ширины в ISO-2022-JP является как четко определенным, так и нарушением формата ISO-2022-JP. По этой причине, если кана половинной ширины случайно была включена в сообщение, оно могло быть искажено во время передачи (см. моджибаке ). Стандарт кодирования WHATWG, используемый HTML5, разрешает декодирование, но не кодирование, катаканы JIS X 0201 в ISO-2022-JP в качестве расширения формата и преобразует катакану половинной ширины их эквивалентам JIS X 0208 при кодировании.

Это больше не является такой проблемой, поскольку большинство серверов электронной почты сегодня используют ESMTP, и, следовательно, 8-битные символы являются приемлемыми. В качестве альтернативы можно использовать систему кодирования, такую ​​как Base64, и указать ее в сообщении с помощью MIME.

веб-страниц

Проблема, которая существует в электронной почте, не существует с Веб-страницы, начиная с HTTP, принимают 8-битные символы.

Однако существует одна проблема, заключающаяся в том, что компьютерные программы не могут определить, следует ли рассматривать символ как Shift JIS, EUC-JP или UTF. -8 - следовательно, информация о коде символов должна быть указана с заголовком ответа HTTP или метатегом.

Confusion

Строго говоря, кодировка JIS X 0201 как "катакана половинной ширины" неверно, так как стандарт не определяет ширину символов - он определяет только кодовое представление символов катаканы. В стандарте JIS X 0201 символы катаканы печатаются с нормальной (полной) шириной, а не с половинной шириной.

Символы половинной ширины использовались для отображения только в тот период, когда символы отображались с половинной шириной (и использовались однобайтовые кодировки), до отображения символов полной ширины (и связанных с ними двухбайтовых кодировок, таких как как JIS X 0208) получил широкое распространение. Однако в стандарте Shift JIS, который сочетает в себе стандарт JIS X 0201 (символы которого - латиницу и катакана - отображались как полуширины) и стандарт JIS X 0208 (символы которого - катакана, хирагана, кандзи и латиница - были отображаются как полноширинные), символы катакана и латинские символы кодируются дважды, как в JIS X 0201, так и в JIS 0208, но отображаются как полуширина или полная ширина в зависимости от того, в каком разделе они находятся (0201 или 0208) - таким образом, 0201 Блок катакана можно рассматривать как соответствующий «кане половинной ширины», и широко распространено неправильное понимание того, что стандарт 0201 определяет символы «половинной ширины».

Кроме того, хотя JIS X 0201 является однобайтовой кодировкой (и отображается с полушириной), а JIS X 0208 является двухбайтовой кодировкой (и отображается с полной шириной), связи между количество байтов и ширина (кроме тех, которые соответствуют Shift JIS, как указано выше) - например, Unicode может быть закодирован четырьмя байтами (UTF-32 ) для отображения как полноширинных, так и одинарных символов.

В популярной культуре

Персонажи кана половинной ширины предстают перед публикой в ​​трилогии «Матрица», поставленной Вачовски. «Код падения» трех фильмов состоит из символов кана половинной ширины и латинских цифр.

См. Также
На Викискладе есть материалы, связанные с кана половинной ширины.
Ссылки
  • ^Лунде, Кен. CJKV Обработка информации. О'Рейли, 2-е изд., 2009 г., с. 224–226 (также 1-е изд., 1999. стр. 144–145)
Последняя правка сделана 2021-05-22 11:11:27
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте