Язык (и) | Традиционный китайский |
---|---|
Создано | Microsoft |
Расширяет | Big5 |
На основе | Big5-ETen |
|
Кодовая страница 950 - это кодовая страница, используемая в Microsoft Windows для традиционного китайского. Это реализация Microsoft де-факто стандартной кодировки символов Big5. Кодовая страница не зарегистрирована в IANA, и, следовательно, она не является стандартом для передачи информации через Интернет, хотя обычно обозначается просто как big5
, в том числе функциями библиотеки Microsoft..
Основное различие между кодовой страницей Windows 950 и «обычным» (не зависящим от поставщика) Big5 заключается во включении подмножества расширений ETEN в Big5 в 0x от F9D6 до 0xF9FE (включая семь китайских иероглифов 碁, 銹, 裏, 墻, 恒, 粧 и 嫺, за которыми следуют 34 символа рисования прямоугольника и элементы блока ). Диапазоны, используемые некоторыми другими расширенными символами ETEN, вместо этого определены как символы, определяемые конечным пользователем (для частного использования).
Реализация CCSID 950 IBM немного отличается, включая некоторые расширения ETEN для ведущих байтов 0xA3, 0xC6, 0xC7 и 0xC8, опуская те, которые имеют ведущий байт 0xF9 (который включает Microsoft), отображая их вместо этого в Private Use Area как определяемые пользователем символы.
Microsoft обновила их версию кодовой страницы 950 в 2000 году, добавив знак евро (€) в двухбайтовый код 0xA3E1. IBM называет обновление знака евро как CCSID 1370 (которое включает как однобайтовые (0x80), так и двухбайтовые знаки евро) или CCSID 1373 (который включает только двухбайтовый знак евро). Кодовая страница 1373 соответствует поведению Microsoft, в которое включены расширения ETEN.
CCSID 950 состоит из однобайтовой кодовой страницы 1114 (CCSID 1114) и двухбайтовой кодовой страницы 947 ( CCSID 947), тогда как расширенный CCSID 1370 для знака евро состоит из однобайтовой кодовой страницы 1114 (CCSID 5210) и двухбайтовой кодовой страницы 947 (CCSID 21427).
Ниже приведены однобайтовые графические символы, включенные IBM. Коды от 0x00 до 0x1F и 0x7F могут использоваться вместо управляющих кодов C0, в зависимости от контекста (сравните кодовую страницу 437, кодовую страницу 897 ). Как отмечалось выше, однобайтовый знак евро в 0x80 не включен ни в IBM CCSID 950, ни в 1373, ни в Microsoft.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | . | ☺. 263A | ☻. 263B | ♥. 2665 | ♦. 2666 | ♣. 2663 | ♠. 2660 | •. 2022 | ◘. 25D8 | ○. 25CB | ◙. 25D9 | ♂. 2642 | ♀. 2640 | ♪. 266A | ♫. 266B | ☼. 263C |
1_ | ►. 25BA | ◄. 25C4 | ↕. 2195 | ‼. 203C | ¶. 00B6 | §. 00A7 | ▬. 25AC | ↨. 21A8 | ↑. 2191 | ↓. 2193 | →. 2192 | ←. 2190 | ∟. 221F | ↔. 2194 | ▲. 25B2 | ▼. 25BC |
2_ | SP. 0020 | !. 0021 | ". 0022 | #. 0023 | $. 0024 | %. 0025 | . 0026 | '. 0027 | (. 0028 | ). 0029 | *. 002A | +. 002B | ,. 002C | -. 002D | .. 002E | /. 002F |
3_ | 0. 0030 | 1. 0031 | 2. 0032 | 3. 0033 | 4. 0034 | 5. 0035 | 6. 0036 | 7. 0037 | 8. 0038 | 9. 0039 | :. 003A | ;. 003B | <. 003C | =. 003D | >. 003E | ?. 003F |
4_ | @. 0040 | A. 0041 | B. 0042 | C. 0043 | D. 0044 | E. 0045 | F. 0046 | G. 0047 | H. 0048 | I. 0049 | J. 004A | K. 004B | L. 004C | M. 004D | N. 004E | O. 004F |
5_ | P. 0050 | Q. 0051 | R. 0052 | S. 0053 | T. 0054 | U. 0055 | V. 0056 | W. 0057 | X. 0058 | Y. 0059 | Z. 005A | [. 005B | \. 005C | ]. 005D | ^. 005E | _. 005F |
6_ | `. 0060 | a. 0061 | b. 0062 | c. 0063 | d. 0064 | e. 0065 | f. 0066 | g. 0067 | h. 0068 | i. 0069 | j. 006A | k. 006B | l. 006C | m. 006D | n. 006E | o. 006F |
7_ | p. 0070 | q. 0071 | r. 0072 | s. 0073 | t. 0074 | u. 0075 | v. 0076 | w. 0077 | x. 0078 | y. 0079 | z. 007A | {. 007B | |. 007C | }. 007D | ~. 007E | ⌂. 2302 |
8_ | €. 20AC | . | . | . | . | . | . | . | . | . | . | . | . | . | . | . |
Буква Число Знаки препинания Символ Другое Не определено
Остальные являются частями двухбайтовой последовательности.
Диапазон Big5 | Диапазон Unicode | Формула |
---|---|---|
81 40–8D FE | U + EEB8 – U + F6B0 | 0xeeb8 + (157 * (H-0x81)) + (L <0x80)?(L-0x40):(L-0x62) |
8E 40 – A0 FE | U + E311 – U + EEB7 | 0xe311 + (157 * (H-0x8e)) + (L <0x80)?(L-0x40):(L-0x62) |
C6 A1 – C8 FE | U + F6B1 – U + F848 | 0xf672 + (157 * (H-0xc6)) + (L <0x80)?(L-0x40):(L-0x62) |
FA 40 – FE FE | U + E000 – U + E310 | 0xe000 + (157 * (H-0xfa)) + (L <0x80)?(L-0x40):(L-0x62) |
Это сопоставление также используется в HKSCS, где данный глиф еще не найден в указанной версии Unicode.