Кодовая страница

редактировать

В вычислениях кодовая страница представляет собой кодировку символов и, как таковой, представляет собой особую ассоциацию печатаемых символов и управляющих символов с уникальными номерами. Обычно каждое представляет собой двоичное значение в одном байте. (В некоторых контекстах эти термины используются более точно; см. Кодировка символов § Наборы символов, карты символов и кодовые страницы.)

Термин «кодовая страница» возник из IBM системы мэйнфреймов на основе EBCDIC, но Microsoft, SAP и Oracle Corporation являются одними из немногих поставщиков, которые используют этот срок. Большинство производителей идентифицируют свои собственные наборы символов по имени. В случае когда существует множество наборов символов (как в IBM), идентификация наборов символов с помощью числа - удобный способ их различать. Первоначально номера кодовых страниц относились к номерам страниц в рекомендации IBM по стандартному набору символов, и это условие не соблюдалось в течение долгого времени. Поставщики, использующие систему кодовых страниц, присваивают свой собственный номер кодовой страницы кодировке символов, если она более известна под другим именем; например, UTF-8 были присвоены номера страниц 1208 в IBM, 65001 в Microsoft и 4110 в SAP.

Hewlett-Packard использует аналогичную концепцию в своей системе HP-UX и протокол языка команд принтера (PCL) для принтеров (для принтеров HP или нет).). Терминология отличается: то, что другие называют набором символов, HP называет набором символов, а то, что IBM или Microsoft называют кодовой страницей, HP называет кодом набора символов. HP серию наборов символов, каждый из которых связан с кодом набора символов, для кодирования как собственных наборов символов, так и наборов символов других поставщиков.

Множество наборов символов побуждает многих производителей рекомендовать Unicode.

Содержание

  • 1 Система нумерации кодовых страниц
    • 1.1 Отношение к ASCII
    • 1.2 Отношение к Unicode
  • 2 Кодовые страницы IBM
    • 2.1 Кодовые страницы на основе EBCDIC
    • 2.2 Кодовые страницы DOS
    • 2.3 Кодовые страницы IBM AIX
    • 2.4 Кодовые страницы IBM OS / 2
    • 2.5 Кодовые страницы эмуляции Windows
    • 2.6 Кодовые страницы эмуляции Macintosh
    • 2.7 Кодовые страницы эмуляции Adobe
    • 2.8 Кодовые страницы эмуляции HP
    • 2.9 Кодовые страницы эмуляции DEC
    • 2.10 Кодовые страницы IBM Unicode
  • 3 Кодовые страницы Microsoft
    • 3.1 Кодовые страницы Windows
    • 3.2 Кодовые страницы DBCS
    • 3.3 Кодовые страницы MS-DOS
    • 3.4 Кодовые страницы эмуляции другие Macintosh
    • 3.5 Различные кодовые страницы Microsoft
    • 3.6 Кодовые страницы Microsoft Unicode
  • 4 набора символов HP
    • 4.1 Собственные наборы HP
    • 4.2 Наборы символов символов от других поставщиков
  • 5 Кодовые страницы от других поставщиков
  • 6 Список назначений кодовых страниц
  • 7 Критика
  • 8 Частные кодовые страницы
  • 9 См. также
  • 10 Ссылки
  • 11 Внешние ссылки

Система нумерации кодовых страниц

IBM представила концепцию систематического присвоения небольшого, но глобально уникального 16-битного числа каждого кодировке символов, с которой может столкнуться компьютерная система или совокупность компьютерных систем. Происхождение схемы нумерации IBM отражается в том факте, что наименьшие (первые) номера присваиваются вариациям кодировки IBM EBCDIC, и немного большего числа к вариациям кодировки IBM Extended ASCII, используемой в ее ПК. оборудование.

С выпуском PC DOS версии 3.3 (и почти идентичной MS-DOS 3.3) IBM представила систему нумерации кодовых страниц обычным пользователям ПК, как номера кодовых страниц (и фраза «Кодовая страница») используются в новых командах, чтобы разрешить систематическую установку кодировки символов, используемых всеми частями ОС.

После того, как IBM и Microsoft прекратили сотрудничество в 1990-х годах, две компании вели список номерных номеров независимо от друга. По крайней мере, один сторонний поставщик (Oracle ) также имеет свой другой список числовых назначений. Текущие назначения IBM в их репозитории CCSID, назначение Microsoft задокументированы в MSDN. Кроме того, список имен и приблизительных сокращений IANA (Internet Assigned Numbers Authority ) для цифровых кодовых страниц на любом компьютере с Windows можно найти в реестре этого компьютера (эта информация используется программой Microsoft, например Internet Explorer ).

Наиболее известные кодовые страницы, за исключением кодовых страниц для языков CJK и вьетнамского, умещают все свои кодовые точки в восемь бит и не содержат ничего, кроме каждого кодовой точки на один символ; кроме того, не используются такие методы, как комбинирование символов, сложные сценарии и т. д.

Текстовый режим стандартного (VGA-совместимого ) графического оборудования ПК построен на использовании 8-битной кодовой страницы, хотя можно использовать сразу две с некоторой жертвой глубины цвета, и до восьми могут быть сохранены в адаптере дисплея для удобного переключения. Был выбор сторонних шрифтов кодовых страниц, которые можно было загрузить в такое оборудование. В обычном режиме работы для поставщиков систем используются обычные кодирующие символы и визуализации, которые работают в графическом режиме и полностью обходят это аппаратное ограничение. Однако система обращения к кодировкам символов по номеру кодовой страницы применим как эффективная альтернатива строковым идентификаторам, например, указанным IETF и IANA для использования в различных протоколах, таких как электронная почта и веб-страницы.

Связь с ASCII

Большинство используемых в настоящее время кодовыми являются надмножествами ASCII, 7-битного кода, представляющего 128 управляющих кодов и печатаемых символов. В прошлом 8-битные реализации кода ASCII установили верхний бит в ноль или использовали его как бит четности при передаче данных по сети. Когда верхний бит был доступен для представления символьных данных, можно было представить всего 256 символов и управляющих кодов. Большинство поставщиков (включая IBM) использовали этот расширенный диапазон для кодирования символов, различных языков, графических элементов, позволяющих имитировать примитивную графику на устройствах вывода только текста. Для этих «расширенных наборов символов ASCII» не существовало формального стандарта, и поставщики называли варианты кодовыми страницами, как IBM всегда делала для вариантов кодировок EBCDIC.

Связь с Юникодом

Юникод - это попытка включить все символы из всех в настоящее время и исторически используемых человеческих языков в односимвольное перечисление (фактически, одну большую одиночную кодовую страницу), устранение необходимость различать разные кодовые страницы при работе с текстом, хранящимся в цифровом виде. Unicode сохраняет обратную совместимость со устаревшими кодовыми страницами, копируя некоторые кодовые страницы 1: 1 в процессе проектирования. Явная цель разработки Unicode состояла в том, чтобы разрешить двустороннее преобразование между устаревшими устаревшими кодовыми страницами, хотя эта цель не всегда достигалась. Некоторые производители, а именно IBM и Microsoft, анахронично присвоили номера кодовых страниц кодировкам Unicode. Это приложение позволяет использовать номера кодовых страниц в качестве метаданных для определения правильного алгоритма декодирования при обнаружении сохраненных данных.

Кодовые страницы IBM

Кодовые страницы на основе EBCDIC

Эти кодовые страницы используются IBM в наборах символов EBCDIC для мэйнфреймов.

  • 1 - США WP, оригинальный
  • 2 - США
  • 3 - Бухгалтерский учет в США, версия A
  • 4 - США
  • 5 - США
  • 6 - Латинская Америка
  • 7 - Германия FR / Австрия
  • 8 - Германия FR
  • 9 - Франция, Бельгия
  • 10 - Канада (английский)
  • 11 - Канада (французский)
  • 12 - Италия
  • 13 - Нидерланды
  • 14 -
  • 15 - Швейцария (французский)
  • 16 - Швейцария (французский / немецкий)
  • 17 - Швейцария (немецкий)
  • 18 - Швеция / Финляндия
  • 19 - Швеция / Финляндия WP, версия 2
  • 20 - Дания / Норвегия
  • 21 - Бразилия
  • 22 - Португалия
  • 23 - Соединенное Королевство
  • 24 - Соединенное Королевство
  • 25 - Япония (латиница)
  • 26 - Япония (латиница)
  • 27 - Греция (латиница))
  • 28 -
  • 29 - Исландия
  • 30 - Турция
  • 31 - Южная Африка
  • 32 - Чехословакия (чешский / словацкий)
  • 33 - Чехословакия
  • 34 - Чехословакия
  • 35 - Румыния
  • 36 - Румыния
  • 37 - США / Канада - CECP (то же самое с евро: 1140 | 1140)
  • 37-2 - Настоящая кодовая страница 3279 APL, используемая C / 370. Это очень близко к 1047, за исключением перевернутых символов, вставки и отсутствия знака. Он официально не признан IBM, хотя SHARE указала на его существование.
  • 38 - США ASCII
  • 39 - Великобритания / Израиль
  • 40 - Великобритания
  • 251 - Китай
  • 252 - Польша
  • 254 - Венгрия
  • 256 - Международный # 1 (заменен 500 | 500)
  • 257 - Международный # 2
  • 258 - Международный # 3
  • 259 - Символы, Набор 7
  • 260 - Канадский французский - 116
  • 264 - Печатный поезд и Обработка текста расширена
  • 273 - Германия FR / Австрия - CECP (то же самое с евро: 1141 | 1141)
  • 274 - Старая кодовая страница Бельгии
  • 275 - Бразилия - CECP
  • 276 - Канада (французский) - 94
  • 277 - Дания, Норвегия - CECP (то же самое с евро: 1142 | 1142)
  • 278 - Финляндия, Швеция - CECP (то же самое с евро: 1143 | 1143)
  • 279 - французский - 94
  • 280 - Италия - CECP (то же самое с евро: 1144 | 1144)
  • 281 - Япония (латиница) - CECP
  • 282 - Португалия - CECP
  • 283 - Испания - 190
  • 284 - Испания / Латинская Америка - C ECP (то же самое с eu ro: 1145 | 1145)
  • 285 - Великобритания - CECP (то же самое с евро: 1146 | 1146)
  • 286 - Австрия / Германия F.R. Заместитель
  • 287 - Дания / Норвегия Заместитель
  • 288 - Заместитель Финляндия / Швеция
  • 289 - Заместитель Испании
  • 290 - Японский (Катакана) Расширенный
  • 293 - APL
  • 297 - Франция (то же самое с евро: 1147)
  • 298 - Япония (Катакана)
  • 300 - Япония (кандзи) DBCS (для JIS X 0213)
  • 310 - Graphic Escape APL / TN
  • 320 - Венгрия
  • 321 - Югославия
  • 322 - Турция
  • 330 - Международный # 4
  • 351 - GDDM по умолчанию
  • 352 - Вариант печати и публикации
  • 353 - BCDIC-A
  • 355 - Стандарт PTTC / BCD опция
  • 357 - опция PTTC / BCD H
  • 358 - опция соответствия PTTC / BCD
  • 359 - опция PTTC / BCD Monocase
  • 360 - PTTC / Опция BCD Duocase
  • 361 - EBCDIC Publishing International
  • 363 - Набор символов 8
  • 382 - EBCDIC Publishing Австрия, Германия FR Альтернативный
  • 383 - EBCDIC Publishing Belgium
  • 384 - EBCDIC Publishing Brazil
  • 385 - EBCDIC Publishing Canada (французский)
  • 386 - EBCDIC Publishing Дания, Норвегия
  • 387 - EBCDIC Publishing Финляндия, Швеция
  • 388 - EBCDIC Publishing France
  • 389 - EBCDIC Publishing Italy
  • 390 - EBCDIC Publishing Japan (Latin)
  • 391 - EBCDIC Publishing Portugal
  • 392 - EBCDIC Publishing Испания, Филиппины
  • 393 - EBCDIC Publishing Latin America (испанский язык)
  • 394 - EBCDIC Publishing China (Гонконг), Великобритания, Ирландия
  • 395 - EBCDIC Publishing Australia, Новая Зеландия, США, Канада (английский)
  • 410 - Кириллица (версии: 880, 1025, 1154)
  • 420 - арабский
  • 421 - Магриб / французский
  • 423 - греческий (заменен 875)
  • 424 - иврит (код бюллетеня)
  • 425 - Арабский / Латинский для OS / 390 Open Edition
  • 435 - Изоморфный телетекст
  • 500 - Международный # 5 (ECECP; заменяет 256) (то же самое с евро: 1148)
  • 803 - Набор символов Старый иврита A (код)
  • 829 - Матические хоста символы - Публикация
  • 833 - Корейский расширенный (SBCS)
  • 834 - Корейский хангыль (KSC5601; DBCS с UDC)
  • 835 - Традиционный китайский DBCS
  • 836 - Упрощенный китайский расширенный
  • 837 - Упрощенный китайский DBCS
  • 838 - Тайский с низкими оценками и Символы с диакритическими знаками (то же самое с евро: 1160)
  • 839 - тайский DBCS
  • 870 - Latin 2 (то же самое с евро: 1153) (редакция: 1110)
  • 871 - Исландия (то же самое с евро: 1149)
  • 875 - греческий (заменяет 423)
  • 880 - кириллица (редакция 410) (редакции: 1025, 1154)
  • 881 - США - Графическая система 5080
  • 882 - - Великобритания Графическая система 5080
  • 883 - Швеция - Графическая система 5080
  • 884 - Германия - Графическая система 5080
  • 885 - Франция - Графическая система 5080
  • 886 - Италия - Графическая система 5080
  • 887 - Япония - Графическая система 5080
  • 888 - Франция АЗЕРТИЯ - Графическая система 5080
  • 889 - Таиланд
  • 890 - Югославия
  • 892 - EBCDIC, OCR A
  • 893 - EBCDIC, OCR B
  • 905 - Latin 3
  • 918 - двуязычный урду
  • 924 - латынь 9
  • 930 - Япония MIX (290 + 300) (то же самое с евро: 1390)
  • 931 - Япония MIX (37 + 300)
  • 933 - Корея MIX (833 + 834) (то же самое с евро: 1364)
  • 935 - Упрощенный китайский MIX (836 + 837) (то же с евро: 1388)
  • 937 - Традиционный китайский MIX (37 + 835) (то же с евро: 1371)
  • 939 - Japan MIX (1027 + 300) (то же самое с евро: 1399)
  • 1001 - MICR
  • 1002 - Совместимость с EBCDIC DCF Release 2
  • 1003 - EBCDIC DCF, подмножество текста США
  • 1005 - Изоморфное текстовое сообщение EBCDIC
  • 1007 - EBCDIC арабский (XCOM2)
  • 1024 - EBCDIC T.61
  • 1025 - кириллица, многоя зычный (то же самое с евро: 1154) (редакция 880)
  • 1026 - EBCDIC Турция (латиница 5) (то же самое с евро: 1155) (заменяет 905 в этой стране)
  • 1027 - расширенный японский (латиница) (JIS X 0201 Extended)
  • 1028 - иврит EBCDIC Publishing
  • 1030 - расширенный японский (катакана)
  • 1031 - японский (Латиница) Расширенный
  • 1032 - MICR, E13-B Комбинированный
  • 1033 - MICR, Комбинированный CMC-7
  • 1037 - Корея - Графическая система 5080/6090
  • 1039 - Совместимость с GML
  • 1047 - Latin 1 / Открытые системы
  • 1068 - Совместимость с DCF
  • 1069 - Latin 4
  • 1070 - США / Канада Версия 0 ([[Кодовая страница 37 Версия 0)
  • 1071 - Германия FR / Австрия
  • 1073 - Бразилия
  • 1074 - Дания, Норвегия
  • 1075 - Финляндия, Швеция
  • 1076 - Италия
  • 1077 - Япония (латиница)
  • 1078 - Португалия
  • 1079 - Испания / Латинская Америка, версия 0 ([ [Кодовая страница 284, в ерсия 0)
  • 1080 - Великобритания
  • 1081 - Франция Версия 0 ([[Кодовая страница 297 Версия 0)
  • 1082 - Израиль (иврит)
  • 1083 - Израиль (иврит)
  • 1084 - Международный # 5 Версия 0 ([[Кодовая страница 500 Версия 0)
  • 1085 - Исландия
  • 1087 - Набор символов
  • 1091 - Измененные символы, Набор 7
  • 1093 - Логотип IBM
  • 1097 - Двуязычный фарси
  • 1110 - Латиница 2 (Версия 870)
  • 1112 - Балтийский многоязычный (то же самое с евро: 1156)
  • 1113 - латиница 6
  • 1122 - Эстония (то же с евро: 1157)
  • 1123 - кириллица, Украина (то же самое с евро: 1158)
  • 1130 - вьетнамский (то же самое с евро: 1164)
  • 1132 - Лаосский EBCDIC
  • 1136 - Hitachi Katakana
  • 1137 - Деванагари EBCDIC
  • 1140 - США, Канада и т.д. ECECP (то же без евро: 37) (традиционный китайский вариант: 1159)
  • 1141 - Австрия, Германия ECECP (то же без евро: 273)
  • 1142 - Дания, Норвегия ECECP (то же без евро: 277)
  • 1143 - Финляндия, Швеция ECECP (то же без евро: 278)
  • 1144 - Италия ECECP (то же самое без евро: 280)
  • 1145 - Испания, Латинская Америка (испанский) ECECP (то же самое без евро: 284)
  • 1146 - UK ECECP (то же самое без евро: 285)
  • 1147 - Франция ECECP с евро (то же самое без евро: 297)
  • 1148 - Международный ECECP с евро (то же самое без евро: 500)
  • 1149 - Исландский ECECP с евро (то же без евро: 871)
  • 1150 - Корейский расширенный с символами рамки
  • 1151 - упрощенный китайский расширенный с символами рамки
  • 1152 - примерный китайский расширенный с символами рамки
  • 1153 - Latin 2 Многоязычный с евро (то же самое без евро: 870)
  • 1154 - Кириллица, многоязычный с евро (то же без евро: 1025; более старая верси я - * 1166)
  • 1155 - Турция с евро (то же без евро: 1026)
  • 1156 - Baltic Multi с евро (то же без евро: 1112)
  • 1157 - Эстония с евро (то же без евро: 1122)
  • 1158 - Кириллица, Украина с евро (то же без евро: 1123)
  • 1159 - T-Chinese EBCDIC (Традиционное китайское обновление евро для * 1140)
  • 1160 - Тайский язык с нижними отметками и знаками с ударением, с евро (то же без евро: 838)
  • 1164 - Вьетнамский с евро (то же самое без евро : 1130)
  • 1165 - Latin 2 / Открытые системы
  • 1166 - Казахский кириллица
  • 1278 - EBCDIC Adobe (PostScript) Standard Encoding
  • 1279 - Hitachi Японский хост Katakana
  • 1303 - Штрих-код EBCDIC
  • 1364 - Корея MIX (833 + 834 + евро) (то же без евро: 933)
  • 1371 - Традиционный китайский MIX (1159 + 835) (то же без евро): 937)
  • 1376 - Традиционное китайское расширение хоста DBCS для HKSCS
  • 1377 - Смешанный хост HKSCS растет (37 + 1376)
  • 1388 - Упрощенное Китайский MIX (то же без евро: 935) (836 + 837 + евро)
  • 1390 - Упрощенный китайский MIX Japan MIX (то же без евро: 930) (290 + 300 + евро)
  • 1399 - Япония MIX (1027 + 300 + евро) (то же самое без евро: 939)

кодовые страницы DOS

Эти кодовые страницы используются IBM в своей операционной системе PC DOS. Эти кодовые страницы изначально были встроены непосредственно в аппаратное обеспечение текстового режима графических адаптеров, используемых с IBM PC и его клонами, включая оригинальные адаптеры MDA и CGA, наборы символов, которые можно было изменять посредством физические микросхемы замены ПЗУ, стандартный шрифт. Интерфейс этих адаптеров (эмулируемый всеми более поздними адаптерами, такими как VGA) обычно ограничивался однобайтовыми наборами символов только с 256 символами в каждом шрифте / кодировке (хотя VGA добавила частичную поддержку для немного больших наборов символов).

  • 301 - IBM-PC Japan (Kanji) DBCS
  • 437 - Исходная аппаратная кодовая страница IBM PC
  • 720 - Арабский (прозрачный ASMO)
  • 737 - греческий
  • 775 - Latin-7
  • 808 - русский с евро (то же без евро: 866 )
  • 848 - украинский с евро (то же без евро) евро: 1125 )
  • 849 - белорусский с евро (то же без евро: 1131 )
  • 850 - Latin-1
  • 851 - греческий
  • 852 - Latin-2
  • 853 - Latin-3
  • 855 - Кириллица (то же самое с евро: 872 )
  • 856 - Иврит
  • 857 - Latin-5
  • 858 - Latin-1 с символом евро
  • 859 - Latin-9
  • 860 - Португальский
  • 861 - Исландский
  • 862 - Иврит
  • 863 - Канадский французский
  • 864 - арабский
  • 865 - датский / норвежский
  • 866 - белорусский, русский, украинский (то же самое с евро: 808 )
  • 867 - Иврит + евро (на основе CP862) (конфликтующий идентификатор: NEC Чешский (Каменицкий), который была создана до этой кодовой страницы)
  • 868 - Урду
  • 869 - Греческий
  • 872 - Кириллица с евро (то же самое без евро: 855 )
  • 874 - тайский язык с малотонными знаками и древними символами (конфликтующий идентификатор с Windows 874; версия с евро: 1161 Версия Windows: это IBM 1162 )
  • - OCR A
  • - OCR B
  • 878 - KOI8-R
  • - Корейский ПК SBCS
  • - IBM-PC WP Multilingual
  • - IBM-PC Symbol
  • 903 - ПК на упрощенном китайском SBCS
  • 904 - Традиционный Китайский ПК SBCS
  • - Международный набор # 5 3812/3820
  • 907 - ASCII APL (3812)
  • - IBM-PC APL2 Extended
  • - IBM -PC APL2
  • - IBM-PC Japan # 1
  • - Корейский ПК DBCS
  • - Традиционный китайский ПК DBCS
  • 928 - Упрощенный китайский ПК DBCS
  • - Thai PC DBCS
  • 932 - IBM-PC Japan MIX (DOS / V) (DBCS) (897 + 301 ) (конфликтующий идентификатор с Windows 932; версия Windows - IBM 943)
  • - IBM-PC Korea MIX (DOS / V) (DBCS) (+)
  • 936 - IBM-PC Simplified Chinese MIX (gb2312) (DOS / V) (DBCS) (903 + 928 ) (конфликтующий идентификатор с Windows 936; версия Windows - IBM 1386)
  • - IBM-PC, тра диционный китайский MIX (DOS / V, OS / 2) (904 +)
  • 942 - IBM-PC Ja pan MIX (японский SAA (OS / 2)) (1041 + 301 )
  • 943 - IBM-PC Japan OPEN (897 + 941 ) (Windows CP 932)
  • - IBM-PC Korea MIX (Korean SAA (OS / 2)) (1040 +)
  • - IBM-PC Упрощенный китайский (Simplified Chinese SAA (OS / 2)) (1042 + 928 )
  • - IBM-PC Traditional Chinese (Traditional Chinese SAA (OS / 2)) (1043 +)
  • 949 - корейский (Extended Wansung (ks_c_5601-1987)) (1088 + 951 ) (конфликтующий идентификатор с Windows 949 (унифицированный код хангыль) ; Версия Windows - IBM 1363)
  • 951 - Корейский DBCS (IBM KS Code) (конфликтующий идентификатор с Windows 951, взлом Windows 950 с сопоставлениями Unicode для некоторых символов PUA Unicode, найденных в HKSCS, на основе имени файла)
  • - Приложение принтера - Транспортная этикетка, набор № 2
  • 1040 - Корейский расширенный
  • 1041 - Японский расширенный (JIS X 0201 Extended)
  • 1042 - Упрощенный китайский расширенный
  • 1043 - Традиционный китайский расширенный
  • - Приложение для принтера - Транспортная этикетка, набор №1
  • 1046 - Расширенный арабский (евро)
  • - IBM-PC Japan # 1
  • 1088 - Пересмотренный корейский (SBCS)
  • - Модифицированные символы IBM-PC
  • 1098 - Фарси
  • - DITROFF Base Совместимость
  • - DITROFF Specials Совместимость
  • 1115 - IBM-PC Китайская Народная Республика
  • 1116 - Эстонский
  • 1117 - Латвийский
  • 1118 - литовский (реализация IBM код овой страницы Лики 774 )
  • 1119 - литовский и русский (реализация IBM кодовой страницы Лики 772 )
  • 1125 - кириллица, украинский (совпадает с евро: 848 ) (модификация IBM)
  • 1127 - IBM-PC арабский / французский
  • 1131 - Данные IBM-PC, кириллица, белорусский (то же самое с евро: 849 )
  • - Япония буквенно-цифровая Катакана
  • 1161 - тайский язык с низкими тонами и древними символами с евро (то же самое без евро: 874 )
  • 1167 - KOI8-RU
  • 1168 - KOI8-U
  • - ANSI [PTS-DOS 6.70, а не 6.51]
  • 1370 - Традиционный китайский MIX (кодировка Big5 ) (1114 + + евро) (то же самое без евро: 950 )
  • - IBM-PC Simplified Chinese GB PC-DATA (DBCS PC IBM GB 2312-80)
  • - IBM-PC Упрощенный китайский (1115 +)
  • - Японский JIS X 0213 DBCS
  • - IBM- PC Japan (JIS X 0213) (897 +)

При работе со старым оборудованием, протоколами и форматами файло в часто бывает необходимо поддерживать эти кодовые страницы, но более новые системы кодирования, в частности Unicode, приветствуются для новых дизайнов.

Кодовые страницы DOS обычно хранятся в файлах.CPI.

Кодовые страницы IBM AIX

Эти кодовые страницы используются IBM в его AIX операционной системе. система. Они эмулируют несколько наборов символов, а именно те, которые предназначены для использования в соответствии с ISO, например, в UNIX-подобных операционных системах.

  • 367 - 7-битный US-ASCII
  • - 7-битный US-ASCII APL
  • 806 - ISCII
  • 813 - ISO 8859 -7
  • 819 - ISO 8859-1
  • 895 - 7-битная японская латиница
  • 896 - 7-битная японская расширенная катакана
  • 901 - Расширение ISO 8859-13 с евро (то же самое без евро: 921 )
  • 902 - ISO эстонское с евро (то же без евро: 922 )
  • 912 - Расширение ISO 8859-2
  • 913 - ISO 8859-3
  • 914 - ISO 8859-4
  • 915 - Расширение ISO 8859-5
  • 916 - ISO 8859-8
  • 919 - ISO 8859-10
  • 920 - ISO 8859-9
  • 921 - Расширение ISO 8859-13 (то же самое с евро: 901 )
  • 922 - Эстонский ISO (то же с евро: 902 )
  • 923 - ISO 8859-15
  • 952 - EUC Japanese for JIS X 0208
  • 953 - EUC Japanese for JIS X 0212
  • 954 - EUC Japanese (895 + 952 + 896 + 953 )
  • 955 - TCP Japanese, JIS X 0208- 1978
  • - TCP японский (8 95 + 952 + 896 + 953 )
  • - TCP японский (895 + 955 + 896 + 953 )
  • - TCP японский (367 + 952 + 896 + 953 )
  • - TCP Японский (367 + 955 + 896 + 953 )
  • - Традиционный китайский DBCS-EUC SICGCC Primary Set (1-й уровень)
  • - Традиционный китайский DBCS-EUC Полный набор SICGCC + IBM Select + UDC
  • - Традиционный китайский TCP, только CNS 11643, плоскость 2
  • - EUC Традиционный китайский (367 + +)
  • - TCP Традиционный китайский (367 + +)
  • 970 - EUC Korean (367 +)
  • - EUC Korean DBCS (G1, KSC 5601 1989 (включая 188 UDC))
  • 1006 - ISO 8-битный урду
  • 1008 - ISO 8-битный арабский
  • 1009 - 7-битный ISO IRV
  • 1010 - 7-битный Франция
  • 1011 - 7-битный Германия FR
  • 1012 - 7-битный Италия
  • 1013 - 7-битное Соединенное Королевство
  • 1014 - 7-битное Испания
  • 1015 - 7-битное Португалия
  • 1016 - 7-битное Норвегия
  • 1017 - 7-битный Дания
  • 1018 - 7-битный Финляндия / Швеция
  • 1019 - 7-битный Нидерланды
  • - Расширенный арабский
  • 1036 - CCITT T. 61
  • 1089 - ISO 8859-6
  • 1111 - ISO 8859-2
  • 1124 - ISO на украинском языке, аналогично ISO 8859- 5
  • 1129 - Вьетнамский ISO (то же самое с евро: 1163 )
  • 1133 - ISO Лаосский
  • 1163 - Вьетнамский ISO с евро (то же самое без евро: 1129 )
  • - EUC Japanese (JISeucJP) (367 + 952 + 896 + 953 )
  • - EUC Simplified Chinese (DBCS PC GB 2312-80)
  • - EUC Simplified Chinese (367 +)

Кодовая страница 819 идентична Latin-1, ISO / IEC 8859-1, и с немного измененными командами позволяет машинам MS-DOS использовать эту кодиро вку. Он использовался с миникомпьютерами IBM AS / 400.

Кодовые страницы IBM OS / 2

Эти кодовые страницы используются IBM в своей операционной системе OS / 2.

  • 1004 - Latin-1 Extended, Desk Top Publishing / Windows

Кодовые страницы эмуляции Windows

Эти кодовые страницы используются IBM при эмуляции символа Microsoft Windows наборы. Большинство этих кодовых страниц имеют тот же номер, что и кодовые страницы Microsoft, хотя они не в точности идентичны. Однако некоторые кодовые страницы являются новинками IBM, а не Microsoft.

Кодовые страницы эмуляции Macintosh

Эти кодовые страницы используются IBM при эмуляции наборов символов Apple Macintosh.

  • 1275 - Apple Roman
  • 1280 - Apple Greek
  • 1281 - Apple Turkish
  • 1282 - Apple Central European
  • 1283 - Apple Кириллица
  • 1284 - Apple Хорватский
  • 1285 - Apple Румынский
  • 1286 - Apple исландский

Кодовые страницы эмуляции Adobe

Эти кодовые страницы используются IBM при эмуляции наборов символов Adobe.

  • 1038 - Кодировка Adobe Symbol
  • 1276 - Стандартная кодировка Adobe (PostScript)
  • 1277 - Adobe (PostScript) Latin 1

Кодовые страницы эмуляции HP

Эти кодовые страницы используются IBM при эмуляции наборов символов HP.

Кодовые страницы эмуляции DEC

Эти кодовые страницы используются IBM при эмуляции наборов символов DEC.

  • 1020 - 7-битный канадский (французский) NRC Set
  • 1021 - 7-битный швейцарский NRC Set
  • 1023 - 7-битный испанский NRC Set
  • 1090 - специальные символы и рисование линий Набор
  • 1100 - DEC Multinational
  • 1101 - 7-битный британский NRC Set
  • 1102 - 7-битный голландский набор NRC
  • 1103 - 7-битный Финский набор NRC
  • 1104 - 7-битный французский набор NRC
  • 1105 - 7-битный норвежский / датский набор NRC
  • 1106 - 7-битный шведский набор NRC
  • 1107 - 7-битный норвежский / датский ish NRC Alternate
  • 1287 - DEC Greek
  • 1288 - DEC Turkish

Кодовые страницы IBM Unicode

Microsoft code pages

Windows code pages

These code pages are used by Microsoft in its own Windows operating system. Microsoft defined a number of code pages known as the ANSI code pages (as the first one, 1252 was based on an apocryphal ANSI draft of what became ISO 8859-1 ). Code page 1252 is built on ISO 8859-1 but uses the range 0x80-0x9F for extra printable characters rather than the C1 control codes from ISO 6429 mentioned by ISO 8859-1. Some of the others are based in part on other parts of ISO 8859 but often rearranged to make them closer to 1252.

Microsoft recommends new applications use UTF-8 or UCS-2/UTF-16 instead of these code pages.

DBCS code pages

These code pages represent DBCS character encodings for various CJK languages. In Microsoft operating systems, these are used as both the "OEM" and "Windows" code page for the applicable locale.

MS-DOS code pages

These code pages are used by Microsoft in its MS-DOS operating system. Microsoft refers to these as the OEM code pages because they were defined by the производители оригинального оборудования, которые лицензировали MS-DOS для распространения со своим оборудованием, а не корпорацией Майкрософт или организацией по стандартизации. Большинство этих кодовых страниц имеют тот же номер, что и эквивалентные кодовые страницы IBM, хотя они не в точности идентичны. Есть минимальные отличия в некоторых кодовых страницах от IBM и Microsoft.

Кодовые страницы эмуляции Macintosh

Эти кодовые страницы используются Microsoft при эмуляции наборов символов Apple Macintosh.

Различные другие кодовые страницы Microsoft

Следующие ниже номера кодовых страниц относятся к Microsoft Windows. IBM может использовать другие номера для этих кодовых страниц. Они эмулируют несколько наборов символов, а именно те, которые предназначены для использования в соответствии с ISO, например, в UNIX-подобных операционных системах.

кодовые страницы Microsoft Unicode

Наборы символов HP

Компания HP разработала серию наборов символов (каждый со встроенным кодом набора символов) для кодирования либо собственных наборов символов, либо наборов символов других поставщиков. Обычно это 7-битные наборы символов, которые перемещены в верхнюю часть и связаны с набором символов ASCII, составляют 8-битные наборы символов.

Собственные наборы символов HP

  • Набор символов 0E - HP Roman Extension - 7-битный набор символов с диакритическими буквами (кодируется IBM как кодовая страница 1050 )
  • Набор символов 0G - HP 7-бит Немецкий
  • Набор символов 0L - HP Line Draw (кодируется IBM как)
  • Набор символов 0M - HP Math-7
  • Набор символов 0T - HP Thai-8
  • Набор символов 1S - 7-битный HP, испанский
  • Набор символов 1U - 7-битный HP Gothic Legal (кодируется IBM как)
  • Набор символов 4Q - 7-битный ПК Линия ( кодируется IBM как)
  • Набор символов 4U - HP Roman-9 - Roman-8 + €
  • Набор символов 7J - HP Desktop
  • Набор символов 7S - HP 7-битный европейский испанский
  • Набор символов 8E - HP East-8
  • Набор символов 8G - HP Greek-8 (на основе IR 088; не на ELOT 927)
  • Набор символов 8H - HP Hebrew-8
  • Набор символов 8I - MS LineDraw (ASCII + HP PC Line)
  • Набор символов 8K - HP Kana-8 (ASCII + Япон ская катакана)
  • Набор символов 8L - HP LineDraw (ASCII + HP Line Draw)
  • Набор символов 8M - HP Math-8 (ASCII + HP Math-8)
  • Набор символов 8R - HP Cyrillic-8
  • Набор символов 8S - 7-битный HP для Латинской Америки Испанский
  • Набор символов 8T - HP Turkish-8
  • Набор символов 8U - HP Roman-8 (ASCII + HP Roman Extension; кодируется IBM как кодовая страница 1051 )
  • Набор символов 8V - HP Arabic-8
  • Набор символов 9K - HP Korean-8
  • Набор символов 9T - PC 8T (также известный как кодовая страница 437-T; это некодовая страница 857 )
  • Набор символов 9V - латынь / арабский для Windows (это некодовая страница 1256 )
  • Набор символов 11U - PC 8D / N (также известный как кодовая страница 437-N; кодируется IBM как; это некодовая страница 865 )
  • Набор символов 14G - ПК- 8 Альтернативный греческий язык ( также известный как кодовая страница 437-G; почти то же самое, что кодовая страница 737 )
  • Набор символов 18K -
  • Набор символов 18T -
  • Набор символов 19C -
  • Набор символов 19K -

Наборы символов от других поставщиков

  • Набор символов 0D - ISO 60: 7-битный норвежский
  • Набор символов 0F - ISO 25: 7-битный французский
  • Набор символов 0H - 7-битный иврит HP - Практически такой же, как израильский ст андарт SI 960
  • Набор символов 0I - ISO 15: 7-битный итальянский
  • Набор символов 0K - ISO 14: 7-битная японская катакана
  • Набор символов 0N - ISO 8859 -1 латиница 1 (Первоначально «Готика-1»; кодируется IBM как кодовая страница 1052)
  • Набор символов 0R - ISO 8859-5 Latin / Cyrillic (версия 1986 года - IR 111)
  • Набор символов 0S - ISO 11: 7-битный шведский
  • Набор символов 0U - ISO 6: 7-битный US
  • Набор символов 0V - арабский
  • Набор символов 1D - ISO 61: 7-битный норвежский
  • Набор символов 1E - ISO 4: 7-битный UK
  • Набор символов 1F - ISO 69: 7-битный французский
  • Набор символов 1G - ISO 21: 7-битный немецкий
  • Набор символов 1K - ISO 13: 7-битная японская латиница
  • Набор символов 1T - Windows Thai (Практически то же самое, что и 874 )
  • Набор символов 2K - ISO 57: 7-битная упрощенная китайская латиница
  • Набор символов 2N - ISO 8859-2 Latin 2
  • Набор символов 2S - ISO 17: 7-битный испанский
  • Набор символов 2U - ISO 2: 7 -битный международный Версия Reverence
  • Набор символов 3N - ISO 8859-3 Latin 3
  • Набор символов 3R - PC-866 Россия (Практически то же самое, чт о кодовая страница 866 )
  • Набор символов 3S - ISO 10: 7-битный шведский
  • Набор символов 4N - ISO 8859-4 Latin 4
  • Набор символов 4S - ISO 16: 7-битный Portugu ese
  • Набор символов 5M - Математический символ PS (практически такой же, как)
  • Набор символов 5N - ISO 8859-9 Latin 5
  • Набор символов 5S - ISO 84: 7-битный Португальский
  • Набор символов 5T - Windows 3.1 Latin-5 (Практически то же самое, что кодовая страница 1254 )
  • Набор символов 6J - Microsoft Publishing
  • Набор символов 6M - Ventura Math
  • Набор символов 6N - ISO 8859-10 Latin 6
  • Набор символов 6S - ISO 85: 7-битный испанский
  • Набор символов 7H - ISO 8859-8 Latin / Hebrew
  • Набор символов 9E - Windows 3.1 Latin 2 (Практически то же самое, что кодовая страница 1250 )
  • Набор символов 9G - Windows 98 Греческий (Практически то же самое, что) что кодовая страница 1253 )
  • Символ Набор 9J - PC 1004
  • Набор символов 9L - Вентиляционное отверстие ura ITC Zapf Dingbats
  • Набор символов 9N - ISO 8859-15 Latin 9
  • Набор символов 9R - Кириллица Windows 98 (практически то же, что кодовая страница 1251 )
  • Набор символов 9U - Windows 3.0
  • Набор символов 10G - PC-851 Latin / Greek (Практически то же, что и кодовая страница 851 )
  • Набор символов 10J - Текст PS (Pr фактически то же самое, что) и Adobe Standard )
  • Набор символов 10L - PS ITC Zapf Dingbats (Практически то же, что)
  • Набор символов 10N - ISO 8859-5 Latin / Cyrillic (версия 1988 года - IR 144)
  • Набор символов 10R - PC-855 Кириллица (Практически то же, что и кодовая страница 855 )
  • Набор символов 10T - Teletex
  • Набор символов 10U - PC-8 (Практически то же как кодовая страница 437 ; кодируется IBM как кодовая страница 1057 )
  • Набор символов 10V - CP-864 (Практически то же, что и кодовая страница 864 )
  • Набор символов 11G - CP-869 (Практически то же самое, что и код стр. 869 )
  • Набор символов 11J - PS ISO Latin-1 (Практически то же, что)
  • Набор символов 11N - ISO 8859-6 Latin / Arabic
  • Набор символов 12G - PC Latin / Греческий (Практически то же, что и кодовая страница 737 )
  • Набор символов 12J - Текст MC (Практически то же самое, что Macintosh Roman )
  • Набор символов 12N - ISO 8859) -7 Латинский / Греческий
  • Набор символов 12R - PC Gost (Практически то же, что и)
  • Набор символов 12U - PC-850 Latin 1 (Практически то же самое, что кодовая страница 850 )
  • Набор символов 13J - Ventura International
  • Symbol Set 13R - PC Bulgarian (Практически то же, что и MIK )
  • Symbol Set 13U - PC-858 Latin 1 + € ( Практически то же, что и кодовая страница 858 )
  • Набор символов 14J - Ventura US
  • Набор символов 14L - Дингбаты Windows
  • Набор символов 14P - ABICOMP International (Практически то же самое, что и ABICOMP )
  • Набор символов 14R - PC Украинский (Практически то же, что и RUSCII )
  • Набор символов 15H - PC-862 Израиль (Практически то же самое, что кодовая страница 862 )
  • Набор символов 16U - PC-857 Latin 5 (Практически то же, что и кодовая страница 857 )
  • Набор символов 17U - PC-852 Latin 2 (Практически то же самое, что кодовая страница 852 )
  • Набор символов 18N - UTF-8
  • Набор символов 18U - PC-853 Latin 3 (Практически то же, что и кодовая страница 853 )
  • Набор символов 19L - Windows 98 Baltic (Практически то же самое, что кодовая страница 1257 )
  • Набор символов 19M - Windows Символ
  • Набор символов 19U - Windows 3.1 Latin 1 (Практически то же, что и кодовая страница 1252 )
  • Набор символов 20U - PC-860 Portugal (Практически то же самое, что и кодовая страница <493)>860 )
  • Набор симв олов 21U - PC-861 Исландия (Практически то же, что и кодовая страница 861 )
  • Набор символов 23U - PC-863 Канада - Французский язык (Практически то же самое, что и кодовая страница 863 <705)>Набор символов 24Q - PC-Polish Mazowia (Практически то же самое, что Mazovia, кодировка )
  • Symbol Set 25U - PC-865 Дания / Норвегия (Практически то же, что и кодовая страница 865 <705)>Набор символов 26U - PC-775 Latin 7 (Практически то же самое, что кодовая страница 775 )
  • Набор символов 27Q - PC-8 PC Nova (Практически то же, что PC Nova )
  • Набор символов 27U - ПК Латышский Русский (также известный как 866-Латышский)
  • Набор символов 28U - ПК Литовский / Русский (Практически то же, что и кодовая страница 774 )
  • Набор символов 29U - PC- 772 Литовский / Русский (Практически то же самое, что кодовая страница 772 )

Кодовые страницы от других поставщиков

Эти кодовые страницы являются независимыми сторонними поставщиками. Исходная кодовая страница IBM PC (номер 437 ) на самом деле не была использована для международного использования, появилось несколько частично совместимых вариантов, специфичных для страны или региона.

Эти присвоения номеров кодовых страниц не являются официальными ни IBM, ни Microsoft, и почти ни один из них не упоминается IANA как пригодный для использования набор символов. Номера, использованные этим кодовыми страницам, произвольны и могут противоречить зарегистрированным номерам, используемым IBM или Microsoft. Некоторые из них могут предшествовать добавлению переключения кодовых страниц в DOS 3.3.

  • - аппаратная страница шрифтов на иврите DOS (не от IBM; HDOS )
  • - греческий DOS (не от IBM; AST Premium Exec DOS 5.0 )
  • - турецкий DOS (не от IBM; AST Premium Exec) DOS 5.0)
  • - DOS югославский (не от IBM; AST Premium Exec DOS 5.0)
  • - DOS Nafitha Arabic (Not from IBM; ADOS )
  • - DOS Nafitha Arabic (Не от IBM; ADOS )
  • - DOS арабский (Не от IBM; ADOS )
  • - арабский DOS (Не от IBM; ADOS)
  • - DOS Арабский (не от IBM; ADOS)
  • - арабский для DOS (не от IBM; ADOS)
  • - арабский для DOS (не от IBM; ADOS)
  • - IBM Arabic PC (ADOS)
  • - Греческий DEC DOS (принтеры NEC Jetmate)
  • - Испанский DEC DOS (Не от IBM)
  • - Чехословацкий [программное обеспечение OCR 1993]
  • - DOS Польский (Мазовецкое воеводство) (Не от IBM)
  • 667 - DOS Польский (Mazovia) (Не от IBM)
  • 668 - DOS Polish (не от IBM)
  • - MS-DOS Arabic Sakhr (не от IBM; Sakhr Software от MSX компьютеры)
  • - MS-DOS Арабский Nafitha Enhanced (не от IBM)
  • - MS-DOS Arabic Sakr (Not from IBM)
  • - MS-DOS арабский APTEC (не от IBM)
  • - MS -DOS арабский Nafitha International (не от IBM)
  • - арабский аль-араби (не от IBM)
  • 770 - DOS эстонский, латышский, литовский (от литовского Lika Software; Литовский РСТ 1095-89 национальный стандарт)
  • 771 - DOS литовский / кириллица - KBL (от литовского Lika Software)
  • 772 - DOS литовский / кириллица (от литовского Lika Software; литовский LST 1284: Национальный стандарт 1993 года; принят IBM как кодовая страница 1119 )
  • 773 - DOS Latin-7 - KBL (от литовского Lika Software)
  • 774 - DOS Lithuania (от литовского Lika Software; Литовский LST 1283: 1993 национальный стандарт; принятый IBM как кодовая страница 1118 )
  • 775 - DOS Latin-7 Baltic Rim (от литовского Lika Software; литовский национальный стандарт LST 1590-1; принят IBM и Кодовая страница Microsoft as 775 )
  • 776 - Литовский DOS (расширенный CP770) (от литовского Lika Software)
  • 777 - Литовский с акцентом DOS (старый) (расширенный CP773) - KBL (от Литовского Lika Software)
  • 778 - Литовский с акцентом на DOS (расширенный CP775) (от литовского Lika Software)
  • 790 - DOS Польский (Мазовецкое воево дство)
  • - Испанский
  • - Latin 1 (не от IBM; AST Premium Exec DOS 5.0) (конфликтующий идентификатор с IBM)
  • - Latin 2 (ISO 8859-2) (не от IBM; то же, что и кодовая страница 912; AST Premium Exec DOS 5.0) (конфликтующий идентификатор с IBM)
  • - Latin 3 (не от IBM; AST Premium Exec DOS 5.0) (конфликтующий идентификатор с IBM)
  • - Latin 4 (не из IBM; AST Premium Exec DOS 5.0) ( конфликтующий идентификатор с IBM)
  • - Latin 5 (не от IBM; AST Premium Exec DOS 5.0) (конфликтующий идентификатор с IBM)
  • 895 - Чешский (Каменицкий), (Не от IBM; конфликтующий идентификатор с IBM CP895 - 7-битный EUC Японский римский)
  • 896 - DOS Польский (Мазовия) (Не от IBM; конфликтующий ID с IBM CP896 - 7- битный EUC Japanese Katakana)
  • 900 - DOS Русский (Русский MS-DOS 5.0 LCD.CPI)
  • 928 - Греческий (на принтерх Star); то же, что и национальный стандарт Греции ELOT 928 (не от IBM; конфликтующий идентификатор с IBM CP928 - упрощенный китайский PC DBCS)
  • - Саудовский (не от IBM)
  • 991 - DOS Польский (Мазовецкое воеводство) (не от IBM)
  • 999 - DOS сербохорватский I (не от IBM); также известный как PC Nova и CroSCII; нижняя часть - JUSI.B1.002, верхняя - кодовая страница 437; Поддерживает словенский и сербохорватский (латинский шрифт)
  • - арабский (на принтерх Star) (не от IBM; конфликтующий идентификатор с IBM CP1001 - MICR)
  • - Windows Korean IBM-1261 LMBCS-17, аналог 1363
  • 1270 - Windows Sámi
  • 2001 - литовский KBL (на принтерх Star) то же, что и кодовая страница 771
  • 3001 - эстонский 1 (на принтерех Star); то же, что и кодовая страница 1116
  • 3002 - эстонский 2 (на принтерех Star); то же, что и кодовая страница 922
  • - латышский 1 (на принтерех Star); то же, что и кодовая страница 437-латышский
  • 3012 - латышский-2 (на принтерх Star); то же, что и кодовая страница 866-латышский (латвийский национальный стандарт RST 1040-90)
  • 3021 - болгарский (на принтерх Star); то же, что и МИК
  • 3031 - иврит (на принтерех Star); то же, что и кодовая страница 862
  • 3041 - Мальтийский (на принтерех Star); то же, что и ISO 646 Мальтийский
  • 3840 - IBM-Russian (на принтерех Star); почти то же самое, что CP 866
  • 3841 - ГОСТ-Русский (на принтерх Star); ГОСТ 13052 плюс символы для среднеазиатских языков
  • 3843 - польский (на принтерх Star); то же, что Mazovia
  • 3844 - CS2 (на принтерех Star); то же, что и Каменицкий
  • 3845 - венгерский (на принтерех Star); то же, что и CWI
  • 3846 - турецкий (на принтерх Star); то же, что и PC-8 Turkish + старый знак турецкой лиры (Tʟ) в кодовой точке A8
  • 3847 - Brazil-ABNT (на принтере Star); соответствует Национальному стандарту Бразилии NBR-9614: 1986
  • 3848 - Brazil-ABICOMP (на принтерх Star); то же, что и ABICOMP
  • 3850 - Стандарт КУ (на принтерех Star); вариант кодировки Университета Касетсарт для тайского
  • 3860 - Rajvitee KU (на принтерх Star); вариант кодировки Университета Касетсарт для тайского языка
  • 3861 - Microwiz KU (на принтерх Star); вариант кодировки Университета Касетсарт для тайского языка
  • 3863 - STD988 TIS (на принтерх Star); вариант кодировки TIS 620 для тайского
  • 3864 - Популярный TIS (на принтерх Star); вариант кодировки TIS 620 для тайского
  • 3865 - Newsic TIS (на принтерх Star); вариант кодировки TIS 620 для тайского
  • (номер отсутствует) - CWI-2 (для DOS) поддерживает венгерский
  • (номер отсутствует) - MIK (для DOS) поддерживает болгарский
  • (номер отсутствует) - DOS сербо-хорватский II; поддерживает словенский и сербохорватский (латинский шрифт)
  • (номер отсутствует) - русский Альтернативная кодовая страница (для DOS); это источник для IBM CP 866

Список назначений кодовых страниц

Список известных назначений кодовых страниц (неполный):

IDИменаОписаниеИсточникПлатформаDOSOS / 2WindowsMacОстальноеКодированиеКомментарий
0N/AЗарезервированоIBM, MicrosoftN / A3.3+1.0+???Внутреннее использование ОС
437CP437, IBM437ПК СШАIBMIBM PC3.3+1.0+Да?Да8-битный SBCS
57344-61439Н / ДПроизводные для частного использованияIBMН / ПН / ПН / ДН / ДН / ДН / ДразличныеПроизводные кодовой страницы для частного использования (E000h-EFFFh)
65280 - 65533Н / ДОпределения частного использованияIBMН / ДН / ДN/AN/AН / Дн / дразноеКодовая страница для частного использования де финишн (FF00h-FFFDh)
65534н / дЗарезервированоIBM, MicrosoftN / A?????разноеВнутреннее использование ОС (FFFEh)
65535N / AЗарезервированоIBM, MicrosoftН / Д3.3+1.0+???различноеиспользование внутренней ОС (FFFFh)

Критика

Многие старые кодировки символов (в отличие от Unicode) страдают от нескольких проблем. Некоторые поставщики кодовых страниц недостаточно документируют значение всех значений кодовых точек, что снижает надежность обработки текстовых данных через различные компьютерные системы. Некоторые поставщики функций расширения к некоторым кодовым страницам для добавления или изменения значений кодовых точек; например, байт 0x5C в Shift JIS может представлять собой либо обратную косую черту , либо символ валюты иены в зависимости от платформы. Наконец, для поддержки нескольких языков в программе, не использующей Unicode, необходимо сохранить кодовую страницу, используемую для каждой строки / документа.

Из-за обширной документации Unicode, обширного репертуара символов политики и стабильности символов, перечисленные выше проблемы редко вызывают беспокойство Unicode. Приложения могут также неправильно маркировать текст в Windows-1252 как ISO-8859-1. К счастью, используются только кодовые страницы, используемые в качестве управляющих символов ISO-8859-1, вместо этого используются в качестве дополнительных печатаемых символов в Windows-1252. Поскольку управляющие символы не имеют функции в HTML, веб-браузеры обычно используют Windows-1252, а не ISO-8859-1. В HTML5 обработка ISO-8859-1 как Windows-1252 даже кодифицирована как стандарт. Позже UTF-8 сменил обе кодировки с точки зрения популярности в Интернете.

Частные кодовые страницы

Когда, в начале истории персональных компьютеров, пользователи не находили своих требований к кодировке символов Встречаемые, частные или локальные кодовые страницы были созданы с использованием утилит Terminate и Stay Resident или путем перепрограммирования BIOS EPROM. В некоторых случаях были изобретены неофициальные номера кодовых страниц (например, CP895).

Когда стала доступна поддержка более разнообразных наборов символов, большая часть этих кодовых страниц вышла из употребления, за некоторыми исключениями, такими как кодировка Kamenický или KEYBCS2 для чешского и словацкие алфавиты. Другой набор символов - это стандарт кодирования системы Iran, который был создан корпорацией Iran System для поддержки персидского языка. Этот стандарт использовался в Иране в программах на базе DOS, и после введения кодовой страницы Microsoft 1256 этот стандарт устарел. Однако некоторые программы Windows и DOS, использующие эту кодировку, все еще используются, и существуют некоторые шрифты Windows с этой кодировкой.

Чтобы преодолеть такие проблемы, Архитектура представления символьных данных IBM уровень 2 специально резервирует диапазоны идентификаторов кодовых страниц для определяемых пользователем назначений и назначений для частного использования. Когда бы ни использовались такие идентификаторы кодовой страницы, пользователь не должен предполагать, что те же функции и внешний вид могут быть воспроизведены в другой конфигурации системы или на другом устройстве или системе, если только пользователь не позаботится об этом специально. Диапазон кодовых страниц 57344-61439 (E000h- EFFFh) официально зарезервирован для определяемых пользователем кодовых страниц (или фактически CCSID в контексте IBM CDRA ), тогда как диапазон 65280-65533 (FF00h- FFFDh) зарезервирован для любых определяемых пользователем назначений «частного использования». Например, незарегистрированный пользовательский вариант кодовой страницы 437 (1B5h) или 28591 (6FAF) может стать 57781 (E1B5h) или 61359 (EFAFh) соответственно, чтобы избегайте потенциальных конфликтов с другими назначениями и поддерживайте иногда существующую внутреннюю числовую логику в назначениях исходных кодовых страниц. Незарегистрированная частная кодовая страница, не основанная на существующей кодовой странице, кодовая страница конкретного устройства, такая как шрифт принтера, которому просто нужен логический дескриптор, чтобы стать адресуемым для системы, часто меняющийся шрифт загрузки или номер кодовой страницы с символическим это означает, что в локальной среде может быть присвоение в частном диапазоне, например 65280 (FF00h).

Идентификаторы кодовых страниц 0, 65534 (FFFEh) и 65535 (FFFFh) зарезервированы для внутреннего использования операционными системами, такими как DOS, и не должны назначаться каким-либо конкретным кодовым страницам.

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-15 13:40:29
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте