Вьетнамский язык и компьютеры

редактировать

Вьетнамский язык написан с помощью латинского алфавита, что требует некоторых приспособлений при вычислении. Программная клавиатура - самая популярная форма написания вьетнамского языка на компьютере, например. Метод ввода VNI или Метод ввода телекса с помощью UniKey (программное обеспечение), редактора метода ввода (IME ). Исторически вьетнамский язык был написан логографическим письмом chữ Nôm, которое в наши дни используется в церемониальных и традиционных целях.

Содержание
  • 1 Шрифты и кодировки символов
    • 1.1 Вьетнамский алфавит
      • 1.1.1 Подходы
    • 1.2 Chữ Nôm
  • 2 Ввод текста
    • 2.1 Раскладка клавиатуры
    • 2.2 Способы ввода
  • 3 Прочие соображения
  • 4 См. Также
  • 5 Ссылки
  • 6 Дополнительная литература
  • 7 Внешние ссылки
Шрифты и кодировки символов

Вьетнамский алфавит

Это обычное дело для два диакритических знака ставятся на одну гласную вьетнамского языка. Некоторые шрифты накладывают эти диакритические знаки, в то время как другие смещают знак тона.

Существует до 46 кодировок символов для представления вьетнамского алфавита. Unicode имеет стала самой популярной формой для многих систем письма в мире благодаря своей отличной совместимости и поддержке программного обеспечения. Диакритические знаки могут быть закодированы либо как объединяющие символы, либо как предварительно составленные символы, которые разбросаны среди Latin Extended-A, Latin Extended-B и Дополнительные блоки Latin Extended. Символ вьетнамского đồng кодируется в блоке Currency Symbols. Исторически во вьетнамском языке использовались и другие символы помимо современного алфавита. Средневьетнамская буква B с расцветкой (ꞗ) включена в блок Latin Extended-D. вершина не включена в Unicode, но U + 1DC4 ◌᷄ COMBINING MACRON-ACUTE может служить грубым приближением.

Ранние версии Unicode присвоили символам U + 0340 ◌̀ COMBINING GRAVE TONE MARK и U + 0341 ◌́ COMBINING ACUTE TONE MARK для целей размещения этих знаки рядом с циркумфлексом, как это принято во вьетнамской типографии. Эти два символа устарели; U + 0301 ◌́ COMBINING ACUTE ACCENT и U + 0300 ◌̀ COMBINING GRAVE ACCENT теперь используются независимо от любого существующего циркумфлекса.

Для систем, которые не поддерживают Unicode, были разработаны десятки 8-битных вьетнамских кодовых страниц. Наиболее часто используемые из них: VISCII, VSCII (TCVN 5712: 1993), VNI, VPS и Windows- 1258. Если требуется ASCII, например, для обеспечения удобочитаемости электронного письма в виде обычного текста, вьетнамские буквы часто кодируются в соответствии с Vietnamese Quoted-Readable (VIQR) или VSCII Мнемоника (VSCII-MNEM), хотя использование любой из схем переменной ширины резко сократилось после принятия Unicode в World Wide Web. Например, поддержка всех вышеупомянутых 8-битных кодировок, за исключением Windows-1258, была исключена из программного обеспечения Mozilla в 2014 году.

Многие вьетнамские шрифты предназначены для настольных компьютеров. публикации закодированы в VNI или TCVN3 (VSCII ). Такие шрифты известны как «шрифты ABC». Популярные веб-браузеры не поддерживают специальные вьетнамские кодировки, поэтому любая веб-страница, использующая эти шрифты, отображается как неразборчивая mojibake в системах, на которых они не установлены.

Справа знак í, сохраняющий свою метку.

, вьетнамский часто ставит диакритические знаки в стопку, поэтому разработчики шрифтов должны позаботиться о том, чтобы диакритические знаки не пересекались с соседними буквами или строками. Когда тональный знак используется вместе с другим диакритическим знаком, смещение тонального знака вправо сохраняет последовательность и позволяет избежать замедления саккад. В рекламных вывесках и в скорописном почерке диакритические знаки часто принимают формы, незнакомые другим латинским алфавитам. Например, строчная буква I сохраняет свой титул в ì, ỉ, ĩ и í. Эти нюансы редко учитываются в вычислительной среде.

Подходы

Для вьетнамского письма требуется 134 дополнительных буквы (в обоих случаях) помимо 52, уже присутствующих в ASCII. Это превышает 128 дополнительных символов, доступных в стандартной кодировке расширенный ASCII. Хотя это можно решить, используя кодировку переменной ширины (как это сделано в UTF-8 ), другие кодировки использовали ряд подходов для поддержки вьетнамского языка без этого. :

  • Заменить не менее шести символов ASCII, выбранных либо из-за того, что они не используются во вьетнамском языке, и / или из-за того, что они не инвариантны в ISO 646 или DEC NRCS (как в VNI для DOS ).
  • Отбросьте прописные буквы, которые используются реже, или все прописные буквы с тоновыми метками (как в VSCII-3 (TCVN3)). Эти буквы все еще можно вводить с помощью полностью заглавные шрифты.
  • Отбросьте формы буквы Y с помощью тоновых знаков, что потребовало использования буквы I. в этих обстоятельствах. Этот подход был отвергнут разработчиками VISCII на том основании, что кодировка символов не должна пытаться решить проблему реформирования орфографии.
  • Заменить не менее шести управляющих символов C0 (как в VISCII, VSCII-1 (TCVN1) и VPS ).
  • Использовать комбинирование символы, позволяющие полностью представить одну гласную с диакритическими знаками с помощью последовательности символов (например, VNI, VSCII-2 (TCVN2), Windows-1258 и ANSEL ).

Chữ Nôm

𬖾 Символ nôm для phở.

Unicode включает более 10 000 символов nôm как часть репертуара Unicode унифицированных иероглифов CJK. Из этих символов 10082 можно найти в блоке CJK Unified Ideographs Extension B, тогда как остальные распределены между CJK Unified Ideographs, CJK Unified Ideographs Extension A и CJK Unified Ideographs Extension C блоков. Еще 1028 символов, включая более 400 символов, характерных для языка Тай, закодированы в блоке CJK Unified Ideographs Extension E. Символы взяты из вьетнамских стандартов и [ошибка для TCVN 6056: 1995?], А также из исследований Исследовательского института Хан-Ном и других групп. Все символы в TCVN 5773: 1993 и около 95% символов в TCVN 6909: 2001 [ошибка для TCVN 6056: 1995?] Имеют соответствующие кодовые точки в Unicode 5.1, хотя сам TCVN 5773: 1993 отображал большинство своих символов в Зона частного использования Unicode. В Unicode 13.0 в блок Идеографические символы и пунктуация были добавлены два диакритических символа, которые обычно использовались для обозначения заимствованных символов в chữ Nôm.

Два наиболее полных шрифта nôm - это Vietnamese Nôm Nôm Na Tống Light от Preservation Foundation и разработанная сообществом HAN NOM A / HAN NOM B, обе из которых помещают большое количество нестандартных символов в Области частного использования.

Консорциума Unicode База данных Unihan включает в себя вьетнамские чтения некоторых символов, но не делает различий между китайско-вьетнамскими и nôm чтениями.

Как и другие системы письма CJKV, chữ Nôm традиционно пишется вертикально, сверху вниз и справа налево.

И chữ Hán, и chữ Nôm также могут быть аннотированы с помощью рубиновых символов, что аналогично chữ quốc ngữ для вьетнамского языка.

Текст input

Чисто физическая вьетнамская клавиатура была бы непрактичной из-за огромного количества буквенно-диакритических-диакритических комбинаций в алфавите. Вместо этого для вьетнамского ввода используются программные раскладки клавиатуры, виртуальные клавиатуры или методы ввода (также известные как IME).

Раскладки клавиатуры

Microsoft Windows включает вьетнамскую раскладку клавиатуры на основе TCVN 6064: 1995. Вьетнамская раскладка клавиатуры пишущей машинки на основе AZERTY

Вьетнамские раскладки клавиатуры полагаются на мертвых клавиши для создания букв с диакритическими знаками. В большинстве операционных систем для настольных ПК используется вьетнамская раскладка клавиатуры, аналогичная вьетнамскому национальному стандарту [vi ]. Раньше пишущие машинки использовали вьетнамскую раскладку на основе AZERTY.

Методы ввода

xvnkb, IME, совместимый со структурой X Input Method в системах Unix, поддерживает вывод в шести кодировках символов.

Три наиболее распространенных метода ввода на вьетнамском языке: Telex, VNI и VIQR. Телекс указывает диакритические знаки, используя буквы, которые вряд ли появятся в конце слова, тогда как VNI перепрофилирует цифровые клавиши или функциональные клавиши, а VIQR перепрофилирует различные знаки препинания. Условные обозначения Telex и VIQR возникли в более раннюю эпоху телексных машин и пишущих машинок соответственно.

Поддержка этих методов ввода обеспечивается редакторами методов ввода (IME), которые на вьетнамском языке известны как bộ gõ, буквально «пекер». IME могут предоставляться операционной системой, устанавливаться как стороннее приложение, устанавливаться как расширение браузера или предоставляться отдельным веб-сайтом в форме скрипта. К распространенным сторонним приложениям относятся GoTiengViet, UniKey, VietKey, VPSKeys и xvnkb. В Unix-подобных операционных системах платформы IBus и SCIM поддерживают вьетнамский язык. Скрипты IME, такие как AVIM, Mudim и VietTyping, можно найти на большинстве вьетнамских досок сообщений, вьетнамской Википедии и других сайтов с большим объемом текста. Вьетнамский веб-браузер Cốc Cốc имеет встроенный метод ввода.

Методы ввода позволяют составлять слова в более гибком порядке, чем позволяет раскладка клавиатуры. Например, чтобы ввести слово «viết », используя раскладку клавиатуры TCVN 6064: 1995, необходимо ввести VI38Tименно в таком порядке. Напротив, большинство IME позволяют пользователю вставлять диакритические знаки в конце слова: VIEETSв телексе, VIET61в VNI или VIET^'в VIQR. Некоторые IME даже позволяют вводить диакритические знаки перед базовыми буквами. В зависимости от реализации IME также может быть возможно редактировать диакритические знаки существующего слова без повторного ввода слова.

Заимствуя функцию, обычную для китайских методов ввода, некоторые вьетнамские IME позволяют вообще пропускать диакритические знаки. Вместо этого, после ввода основных букв, пользователь выбирает слово с ударением из списка кандидатов. Чтобы предоставить этот список автозаполнения , IME может потребоваться связь с веб-службой. Некоторые IME также используют списки кандидатов, чтобы позволить пользователю преобразовывать текст из вьетнамского алфавита в chữ Nôm, поскольку между буквенными словами и nôm-символами нет однозначного соответствия.

Другие соображения

Типичный вьетнамский текст содержит большую долю составных слов. В современном использовании составные слова никогда не переносятся через дефис, поэтому средства проверки орфографии ограничиваются проверкой отдельных слогов, если не используется статистическая языковая модель.

Вьетнамский язык имеет жесткие правила правописания и несколько исключений, поэтому преобразователи текста в речь могут избегать поиска в словаре, кроме случаев, когда встречаются иностранные заимствования. Механизмы TTS должны учитывать тона, которые важны для значения любого вьетнамского слова.

См. Также
Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-06-18 13:10:40
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте