Вьетнамский язык написан с помощью латинского алфавита, что требует некоторых приспособлений при вычислении. Программная клавиатура - самая популярная форма написания вьетнамского языка на компьютере, например. Метод ввода VNI или Метод ввода телекса с помощью UniKey (программное обеспечение), редактора метода ввода (IME ). Исторически вьетнамский язык был написан логографическим письмом chữ Nôm, которое в наши дни используется в церемониальных и традиционных целях.
Существует до 46 кодировок символов для представления вьетнамского алфавита. Unicode имеет стала самой популярной формой для многих систем письма в мире благодаря своей отличной совместимости и поддержке программного обеспечения. Диакритические знаки могут быть закодированы либо как объединяющие символы, либо как предварительно составленные символы, которые разбросаны среди Latin Extended-A, Latin Extended-B и Дополнительные блоки Latin Extended. Символ вьетнамского đồng кодируется в блоке Currency Symbols. Исторически во вьетнамском языке использовались и другие символы помимо современного алфавита. Средневьетнамская буква B с расцветкой (ꞗ) включена в блок Latin Extended-D. вершина не включена в Unicode, но U + 1DC4 ◌᷄ COMBINING MACRON-ACUTE может служить грубым приближением.
Ранние версии Unicode присвоили символам U + 0340 ◌̀ COMBINING GRAVE TONE MARK и U + 0341 ◌́ COMBINING ACUTE TONE MARK для целей размещения этих знаки рядом с циркумфлексом, как это принято во вьетнамской типографии. Эти два символа устарели; U + 0301 ◌́ COMBINING ACUTE ACCENT и U + 0300 ◌̀ COMBINING GRAVE ACCENT теперь используются независимо от любого существующего циркумфлекса.
Для систем, которые не поддерживают Unicode, были разработаны десятки 8-битных вьетнамских кодовых страниц. Наиболее часто используемые из них: VISCII, VSCII (TCVN 5712: 1993), VNI, VPS и Windows- 1258. Если требуется ASCII, например, для обеспечения удобочитаемости электронного письма в виде обычного текста, вьетнамские буквы часто кодируются в соответствии с Vietnamese Quoted-Readable (VIQR) или VSCII Мнемоника (VSCII-MNEM), хотя использование любой из схем переменной ширины резко сократилось после принятия Unicode в World Wide Web. Например, поддержка всех вышеупомянутых 8-битных кодировок, за исключением Windows-1258, была исключена из программного обеспечения Mozilla в 2014 году.
Многие вьетнамские шрифты предназначены для настольных компьютеров. публикации закодированы в VNI или TCVN3 (VSCII ). Такие шрифты известны как «шрифты ABC». Популярные веб-браузеры не поддерживают специальные вьетнамские кодировки, поэтому любая веб-страница, использующая эти шрифты, отображается как неразборчивая mojibake в системах, на которых они не установлены.
Справа знак í, сохраняющий свою метку., вьетнамский часто ставит диакритические знаки в стопку, поэтому разработчики шрифтов должны позаботиться о том, чтобы диакритические знаки не пересекались с соседними буквами или строками. Когда тональный знак используется вместе с другим диакритическим знаком, смещение тонального знака вправо сохраняет последовательность и позволяет избежать замедления саккад. В рекламных вывесках и в скорописном почерке диакритические знаки часто принимают формы, незнакомые другим латинским алфавитам. Например, строчная буква I сохраняет свой титул в ì, ỉ, ĩ и í. Эти нюансы редко учитываются в вычислительной среде.
Для вьетнамского письма требуется 134 дополнительных буквы (в обоих случаях) помимо 52, уже присутствующих в ASCII. Это превышает 128 дополнительных символов, доступных в стандартной кодировке расширенный ASCII. Хотя это можно решить, используя кодировку переменной ширины (как это сделано в UTF-8 ), другие кодировки использовали ряд подходов для поддержки вьетнамского языка без этого. :
Unicode включает более 10 000 символов nôm как часть репертуара Unicode унифицированных иероглифов CJK. Из этих символов 10082 можно найти в блоке CJK Unified Ideographs Extension B, тогда как остальные распределены между CJK Unified Ideographs, CJK Unified Ideographs Extension A и CJK Unified Ideographs Extension C блоков. Еще 1028 символов, включая более 400 символов, характерных для языка Тай, закодированы в блоке CJK Unified Ideographs Extension E. Символы взяты из вьетнамских стандартов и [ошибка для TCVN 6056: 1995?], А также из исследований Исследовательского института Хан-Ном и других групп. Все символы в TCVN 5773: 1993 и около 95% символов в TCVN 6909: 2001 [ошибка для TCVN 6056: 1995?] Имеют соответствующие кодовые точки в Unicode 5.1, хотя сам TCVN 5773: 1993 отображал большинство своих символов в Зона частного использования Unicode. В Unicode 13.0 в блок Идеографические символы и пунктуация были добавлены два диакритических символа, которые обычно использовались для обозначения заимствованных символов в chữ Nôm.
Два наиболее полных шрифта nôm - это Vietnamese Nôm Nôm Na Tống Light от Preservation Foundation и разработанная сообществом HAN NOM A / HAN NOM B, обе из которых помещают большое количество нестандартных символов в Области частного использования.
Консорциума Unicode База данных Unihan включает в себя вьетнамские чтения некоторых символов, но не делает различий между китайско-вьетнамскими и nôm чтениями.
Как и другие системы письма CJKV, chữ Nôm традиционно пишется вертикально, сверху вниз и справа налево.
И chữ Hán, и chữ Nôm также могут быть аннотированы с помощью рубиновых символов, что аналогично chữ quốc ngữ для вьетнамского языка.
Чисто физическая вьетнамская клавиатура была бы непрактичной из-за огромного количества буквенно-диакритических-диакритических комбинаций в алфавите. Вместо этого для вьетнамского ввода используются программные раскладки клавиатуры, виртуальные клавиатуры или методы ввода (также известные как IME).
Вьетнамские раскладки клавиатуры полагаются на мертвых клавиши для создания букв с диакритическими знаками. В большинстве операционных систем для настольных ПК используется вьетнамская раскладка клавиатуры, аналогичная вьетнамскому национальному стандарту [vi ]. Раньше пишущие машинки использовали вьетнамскую раскладку на основе AZERTY.
Три наиболее распространенных метода ввода на вьетнамском языке: Telex, VNI и VIQR. Телекс указывает диакритические знаки, используя буквы, которые вряд ли появятся в конце слова, тогда как VNI перепрофилирует цифровые клавиши или функциональные клавиши, а VIQR перепрофилирует различные знаки препинания. Условные обозначения Telex и VIQR возникли в более раннюю эпоху телексных машин и пишущих машинок соответственно.
Поддержка этих методов ввода обеспечивается редакторами методов ввода (IME), которые на вьетнамском языке известны как bộ gõ, буквально «пекер». IME могут предоставляться операционной системой, устанавливаться как стороннее приложение, устанавливаться как расширение браузера или предоставляться отдельным веб-сайтом в форме скрипта. К распространенным сторонним приложениям относятся GoTiengViet, UniKey, VietKey, VPSKeys и xvnkb. В Unix-подобных операционных системах платформы IBus и SCIM поддерживают вьетнамский язык. Скрипты IME, такие как AVIM, Mudim и VietTyping, можно найти на большинстве вьетнамских досок сообщений, вьетнамской Википедии и других сайтов с большим объемом текста. Вьетнамский веб-браузер Cốc Cốc имеет встроенный метод ввода.
Методы ввода позволяют составлять слова в более гибком порядке, чем позволяет раскладка клавиатуры. Например, чтобы ввести слово «viết », используя раскладку клавиатуры TCVN 6064: 1995, необходимо ввести VI38Tименно в таком порядке. Напротив, большинство IME позволяют пользователю вставлять диакритические знаки в конце слова: VIEETSв телексе, VIET61в VNI или VIET^'в VIQR. Некоторые IME даже позволяют вводить диакритические знаки перед базовыми буквами. В зависимости от реализации IME также может быть возможно редактировать диакритические знаки существующего слова без повторного ввода слова.
Заимствуя функцию, обычную для китайских методов ввода, некоторые вьетнамские IME позволяют вообще пропускать диакритические знаки. Вместо этого, после ввода основных букв, пользователь выбирает слово с ударением из списка кандидатов. Чтобы предоставить этот список автозаполнения , IME может потребоваться связь с веб-службой. Некоторые IME также используют списки кандидатов, чтобы позволить пользователю преобразовывать текст из вьетнамского алфавита в chữ Nôm, поскольку между буквенными словами и nôm-символами нет однозначного соответствия.
Типичный вьетнамский текст содержит большую долю составных слов. В современном использовании составные слова никогда не переносятся через дефис, поэтому средства проверки орфографии ограничиваются проверкой отдельных слогов, если не используется статистическая языковая модель.
Вьетнамский язык имеет жесткие правила правописания и несколько исключений, поэтому преобразователи текста в речь могут избегать поиска в словаре, кроме случаев, когда встречаются иностранные заимствования. Механизмы TTS должны учитывать тона, которые важны для значения любого вьетнамского слова.