DBCS

редактировать

A двухбайтовый набор символов (DBCS ) - это кодировка символов , в которой либо все символы (включая управляющие символы ) закодированы двумя байтами, либо просто каждый графический символ, не представленный сопровождающим однобайтовым набором символов (SBCS ), кодируется двумя байтами (Большинство этих двухбайтовых символов обычно составляют символы Han ). DBCS поддерживает национальные языки, содержащие множество уникальных символов или символов (максимальное количество символов, которое может быть представлено одним байтом, составляет 256 символов, а два байта могут представлять до 65 536 символов.). Примеры таких языков включают японский и китайский. Корейский хангыль не содержит такого количества символов, но KS X 1001 поддерживает как хангыль, так и ханджа и использует два байта на символ.

Содержание
  • 1 В вычислениях CJK (китайский / японский / корейский)
  • 2 Неоднозначность
  • 3 TBCS
  • 4 См. Также
  • 5 Внешние ссылки
В CJK (китайский / японский / Корейский) computing

Термин DBCS традиционно относится к кодировке символов, при которой каждый графический символ кодируется двумя байтами.

В 8-битном коде, таком как Big-5 или Shift JIS, символ из DBCS представлен ведущим (первым) байтом с самый старший бит установлен (т. Е. Больше семи битов) и соединен с однобайтовым набором символов (SBCS). По практическим причинам, обеспечивающим совместимость с немодифицированным стандартным программным обеспечением, SBCS связан с символами половинной ширины, а DBCS - с символами полной ширины. В 7-битном коде, таком как ISO-2022-JP, escape-последовательности или коды сдвига используются для переключения между SBCS и DBCS.

Иногда использование термина «DBCS» может подразумевать лежащую в основе структуру, которая не соответствует ISO 2022. Например, «DBCS» иногда может означать двухбайтовую кодировку, которая, в частности, не является расширенным кодом Unix (EUC).

Это первоначальное значение DBCS отличается от того, что некоторые считают правильным использованием сегодня. Некоторые настаивают на том, чтобы эти кодировки символов правильно назывались многобайтовыми наборами символов (MBCS) или кодировками переменной ширины, потому что кодировки символов, такие как EUC-JP, EUC-KR, EUC-TW, GB18030 и UTF-8 используют более двух байтов для некоторых символов, и они поддерживают один байт для других символов.

Неоднозначность

Некоторые люди используют DBCS для обозначения кодировок UTF-16 и UTF-8, в то время как другие люди используют термин DBCS для обозначения более старые (до Unicode ) кодировки символов, в которых используется более одного байта на символ. Shift JIS, GB2312 и Big5 - это несколько кодировок символов, которые могут содержать более одного байта на символ, но даже использование термина DBCS для этих кодировок символов является неправильная терминология, потому что эти кодировки символов на самом деле являются кодировками переменной ширины. Некоторые мэйнфреймы IBM действительно имеют настоящие кодовые страницы DBCS, которые содержат только двухбайтовую часть многобайтовой кодовой страницы.

Если человек использует термин «поддержка DBCS» для программного обеспечения интернационализация, он использует неоднозначную терминологию. Они либо подразумевают, что хотят писать программное обеспечение для рынков Восточной Азии с использованием более старых технологий с кодовыми страницами, либо планируют использовать Unicode. Иногда этот термин также подразумевает перевод на восточноазиатский язык. Обычно «включение Unicode» означает интернационализацию программного обеспечения с использованием Unicode, а «включение DBCS» означает использование несовместимых кодировок символов, которые существуют между различными странами Восточной Азии для интернационализации программного обеспечения. Поскольку Unicode, в отличие от многих других кодировок символов, поддерживает все основные языки в Восточной Азии, обычно проще включать и поддерживать программное обеспечение, использующее Unicode. Включение DBCS (не-Unicode) обычно требуется только тогда, когда более старые операционные системы или приложения не поддерживают Unicode.

TBCS

Трехбайтовый набор символов (TBCS) - это кодировка символов, в которой символы (включая управляющие символы) кодируются в трех байтах.

См. Также
Внешние ссылки
Последняя правка сделана 2021-05-16 08:37:24
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте