Японский язык и компьютеры

редактировать
Японская клавиатура кана

В отношении японского языка и компьютеров возникает много проблем адаптации, некоторые уникальны для японского, а другие общие для языков, которые содержат очень большое количество символов. Количество символов, необходимых для написания английского языка, очень мало, и поэтому можно использовать только один байт (2 = 256 возможных значений) для кодирования одного английского символа. Однако количество символов в японском языке намного превышает 256 и, следовательно, не может быть закодировано с использованием одного байта. Таким образом, японский язык кодируется с использованием двух или более байтов в так называемой «двухбайтовой» или «многобайтовой» кодировке. Возникающие проблемы связаны с транслитерацией и латинизацией, кодировкой символов и вводом японского текста.

Содержание

  • 1 Кодировки символов
  • 2 Ввод текста
  • 3 Направление текста
  • 4 См. Также
  • 5 Ссылки
  • 6 Внешние ссылки

Кодировки символов

Существует несколько стандартных методов кодирования японских символов для использования на компьютере, включая JIS, Shift-JIS, EUC и Юникод. Отображение набора кана несложно, а кандзи оказалось более трудным. Несмотря на усилия, ни одна из схем кодирования не стала стандартом де-факто, и к 2000-м годам использовалось несколько стандартов кодирования. По состоянию на 2017 год доля использования UTF-8 в Интернете увеличилась до более чем 90% во всем мире, а остальные 1,2% использовали Shift-JIS и EUC. Тем не менее, несколько популярных веб-сайтов, включая 2channel и kakaku.com, все еще используют Shift-JIS.

До 2000-х годов большинство японских электронных писем были в ISO-2022-JP («кодировка JIS») и веб-страницах в Shift-JIS и на мобильных телефонах в Японии обычно используется какая-то форма Расширенный код Unix. Если программе не удается определить используемую схему кодирования, это может вызвать mojibake (文字 化 け, «неправильно преобразованные символы с мусором», буквально «преобразованные символы») и, следовательно, нечитаемый текст на компьютерах.

Карта кандзи ROM, установленная в PC-98, которая хранит около 3000 символов и позволяет быстро их отображать. Он также имел RAM для хранения гайдзи. Встроенные устройства все еще используют кана половинной ширины

Первой кодировкой, которая стала широко использоваться, была JIS X 0201, который представляет собой однобайтовую кодировку , которая охватывает только стандартные 7-битные символы ASCII с расширениями половинной ширины катакана. Это широко использовалось в системах, которые не были достаточно мощными и не имели хранилища для обработки иероглифов (включая старое встроенное оборудование, такое как кассовые аппараты), потому что преобразование Кана-Кандзи требовало сложного процесса, а вывод в кандзи требовал большого объема памяти и высокого разрешения. Это означает, что с помощью этой техники поддерживалась только катакана, а не кандзи. Некоторые встроенные дисплеи все еще имеют это ограничение.

Развитие кодировок кандзи стало началом раскола. Shift JIS поддерживает иероглифы и был разработан для полной обратной совместимости с JIS X 0201, и поэтому используется во многих встроенных электронных устройствах. Однако у Shift JIS есть досадное свойство: он часто ломает любой анализатор (программное обеспечение, считывающее закодированный текст), который специально не предназначен для его обработки.

Например, некоторые символы Shift-JIS включают обратную косую черту (005C "\") во втором байте, которая используется как escape-символ .

8d5c82ed82c882a2

Парсер, не поддерживающий Shift JIS, распознает 005C как недопустимую escape-последовательность и удалите ее. Следовательно, фраза вызывает моджибаке.

8d82ed82c882a2

Это может произойти для пример на языке программирования C при наличии Shift-JIS в текстовых строках. Этого не происходит в HTML, поскольку ASCII 0x00–0x3F (который включает ",%, и некоторые другие используемые escape-символы и разделители строк) не отображается как второй байт в Shift-JIS.

EUC на с другой стороны, гораздо лучше обрабатывается синтаксическими анализаторами, которые были написаны для 7-битного ASCII (и, таким образом, кодировки EUC используются в UNIX, где большая часть кода обработки файлов исторически писалась только для английских кодировок). Но EUC не имеет обратной совместимости с JIS X 0201, первой основной японской кодировкой. Дальнейшие сложности возникают из-за того, что исходные стандарты электронной почты Интернета поддерживают только 7-битные протоколы передачи. Таким образом, RFC 1468ISO-2022-JP », часто называемый просто кодировка JIS ) был разработан для отправки и получения электронной почты.

Gaiji используется в закрытых заголовок японского телевещания

В стандартах набора символов, таких как JIS, не все обязательные символы включены, поэтому гайдзи (外 字 «внешние символы») иногда используются для дополнения набора символов. Gaiji может поставляться в виде пакетов внешних шрифтов, в которых обычные символы были заменены новыми символами или новые символы были добавлены к неиспользуемым позициям символов. Однако гайджи не практичны в среде Интернет, поскольку для использования гайджи набор шрифтов должен быть передан вместе с текстом. В результате такие символы записываются с аналогичными или более простыми символами на месте, или текст может потребоваться кодировать с использованием более крупного набора символов (например, Unicode), который поддерживает требуемый символ.

Unicode был предназначен для решить все проблемы с кодировкой на всех языках. Кодировка UTF-8, используемая для кодирования Unicode на веб-страницах, не имеет недостатков, присущих Shift-JIS. Юникод поддерживается международным программным обеспечением, что устраняет необходимость в гайдзи. Однако до сих пор существуют разногласия. Для японского языка символы кандзи были унифицированы с китайскими; то есть символу, который считается одним и тем же в японском и китайском языках, присваивается один номер, даже если внешний вид на самом деле несколько отличается, а точный внешний вид остается на усмотрение шрифта, соответствующего языку. Этот процесс, получивший название ханьское объединение, вызвал споры. Предыдущие кодировки в Японии, Тайвань, Материковый Китай и Корея обрабатывали только один язык, а Юникод должен обрабатывать все. Тем не менее, обработка кандзи / китайского языка была разработана комитетом, состоящим из представителей всех четырех стран / регионов.

Ввод текста

Японский письменный язык использует несколько разных шрифтов: кандзи (Китайские иероглифы), 2 набора кана (фонетических слоговых слов) и латинских букв. Хотя кана и латинские буквы можно набирать прямо на компьютере, ввод кандзи - более сложный процесс, так как на большинстве клавиатур кандзи гораздо больше, чем клавиш. Для ввода кандзи на современных компьютерах обычно сначала вводится чтение кандзи, затем (IME), также иногда называемый интерфейсным процессором, показывает список подходящих кандзи, которые соответствуют фонетическому совпадению, и позволяет пользователю выбирать правильный кандзи. Более продвинутые IME работают не по словам, а по фразам, что увеличивает вероятность получения желаемых символов в качестве первого из представленных вариантов. Ввод значений кандзи может осуществляться либо с помощью латинизации (ромадзи нюриоку, ロ ー マ 字 入 力 ), либо прямого ввода кана (кана нюурёку, か な 入 力 ). Ввод ромадзи более распространен на ПК и других полноразмерных клавиатурах (хотя прямой ввод также широко поддерживается), тогда как прямой ввод кана обычно используется на мобильных телефонах и аналогичных устройствах - каждая из 10 цифр (1–9,0) соответствует к одному из 10 столбцов в таблице каны gojūon, и несколько нажатий выберите строку.

Существуют две основные системы латинизации японского языка, известные как Кунрей-сики и Хепберн ; на практике «клавиатура ромадзи» (также известная как wāpuro rōmaji или «текстовый редактор ромадзи») обычно допускает вольную комбинацию обоих. Реализации IME могут даже обрабатывать ключи для букв, не используемых в какой-либо схеме латинизации, такой как L, преобразовывая их в наиболее подходящий эквивалент. При вводе кана каждая клавиша на клавиатуре напрямую соответствует одной кане. Система является национальным стандартом, но есть альтернативы, такие как клавиатура со сдвигом большого пальца, обычно используемая профессиональными машинистками.

Направление текста

LibreOffice Writer поддерживает опцию нисходящего текста

Японский может быть написан в двух направлениях. Стиль Ёкогаки пишет слева направо, сверху вниз, как в английском. Стиль Татегаки сначала пишет сверху вниз, а затем перемещается справа налево.

Чтобы конкурировать с Ichitaro, Microsoft предоставила несколько обновлений для ранних японских версий Microsoft Word, включая поддержку нисходящего текста, таких как Word 5.0 Power Up Kit и Word 98

QuarkXPress был самым популярным программным обеспечением DTP в Японии в 1990-х годах, даже несмотря на длительный цикл разработки. Однако из-за отсутствия поддержки нисходящего текста его превзошла Adobe InDesign, в которой была сильная поддержка нисходящего текста через несколько обновлений.

В настоящее время обработка нисходящего текста не завершена. Например, HTML не поддерживает татэгаки, и японские пользователи должны использовать таблицы HTML для его имитации. Однако CSS уровня 3 включает свойство «writing-mode», которое может отображать татегаки, если задано значение «vertical-rl» (т.е. сверху вниз, справа налево). Текстовые процессоры и программное обеспечение DTP имеют более полную поддержку для этого.

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-24 03:19:17
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте