EBCDIC

редактировать
Восьмибитная система кодировки символов, изобретенная IBM

семейством кодировок EBCDIC
Классификация8- бит базовая латинская кодировка (не-ASCII)
, предшествующаяBCD
  • v
  • t

расширенный двоично-десятичный код обмена (EBCDIC ; ) - это восьми- бит кодировка символов, используемая в основном на мэйнфрейме IBM и IBM компьютере среднего уровня операционные системы. Он произошел от кода, используемого с перфокартами и соответствующего шестибитного двоичного десятичного кода, который использовался с большей частью компьютерной периферии IBM конца 1950-х и начало 1960-х. Он поддерживается различными платформами сторонних производителей, такими как Fujitsu-Siemens 'BS2000 / OSD, OS-IV, MSP и MSP-EX, серия SDS Sigma., Unisys VS / 9, Burroughs MCP и ICL VME.

Содержание
  • 1 История
  • 2 Совместимость с ASCII
  • 3 Макет кодовой страницы
  • 4 Определения элементов управления EBCDIC, отличных от ASCII
  • 5 Кодовые страницы с наборами символов Latin-1
  • 6 Критика и юмор
  • 7 См. Также
  • 8 Ссылки
  • 9 Внешние ссылки
История
Перфокарта с кодировкой Холлерита набора символов EBCDIC 1964 года. Контрастность вверху увеличена для отображения печатных символов.

EBCDIC был разработан в 1963 и 1964 годах компанией IBM и был анонсирован с выпуском линейки IBM System / 360 мэйнфреймов компьютеры. Это восьмибитная кодировка символов, разработанная отдельно от семибитной схемы кодирования ASCII. Он был создан для расширения существующего кода обмена Binary-Coded Decimal (BCD) или BCDIC, который сам был разработан как эффективное средство кодирования двух зон и числовых штрихов на перфокарты на шесть бит. Различное кодирование «s» и «S» (с использованием позиции 2 вместо 1) сохранялось в перфокартах, где было желательно, чтобы дыроколы не располагались слишком близко друг к другу, чтобы гарантировать целостность карты. физическая карта.

В то время как IBM была главным сторонником комитета по стандартизации ASCII, у компании не было времени подготовить периферийные устройства ASCII (например, машины для перфорации карт) для поставки с компьютерами System / 360, поэтому компания остановился на EBCDIC. Система / 360 стала чрезвычайно успешной вместе с клонами, такими как RCA Spectra 70, ICL System 4 и Fujitsu FACOM, таким образом, EBCDIC.

Все мэйнфреймы IBM и среднего диапазона периферийные устройства и операционные системы используют EBCDIC в качестве собственной кодировки (с допуском для ASCII, например, ISPF в z / OS может просматривать и редактировать файлы в кодировке EBCDIC и ASCII). Программное обеспечение и многие аппаратные периферийные устройства могут выполнять преобразование в кодировки и обратно, а современные мэйнфреймы (такие как IBM Z ) включают инструкции процессора на аппаратном уровне для ускорения преобразования между наборами символов.

Существует ориентированный на EBCDIC формат преобразования Unicode под названием UTF-EBCDIC, предложенный консорциумом Unicode, разработанный для обеспечения простого обновления программного обеспечения EBCDIC для обработки Unicode, но не предназначен для использования в открытых средах обмена. Даже в системах с обширной поддержкой EBCDIC он не пользовался популярностью. Например, z / OS поддерживает Unicode (предпочтительно UTF-16 ), но z / OS имеет ограниченную поддержку UTF-EBCDIC.

IBM AIX, работающий на RS / 6000 и его потомках, включая IBM Power Systems, Linux, работающий на IBM Z, и операционные системы работающий на IBM PC и его потомках используют ASCII, как и AIX / 370 и AIX / 390, работающие на System / 370 и Система / 390 мэйнфреймы.

Совместимость с ASCII

При написании программного обеспечения, которое работало бы как в ASCII, так и в EBCDIC, возникли многочисленные трудности.

  • Пробелы между буквами сделали простой код, который работал в ASCII, не работал на EBCDIC. Например, for (c = 'A'; c <= 'Z'; ++c) putchar(c);будет печатать алфавит от A до Z, если используется ASCII, но печатать 41 символ (включая ряд неназначенных) в EBCDIC. Исправление этого потребовало усложнения код с вызовами функций, которому очень сопротивлялись программисты.
  • Сортировка EBCDIC помещала строчные буквы перед прописными буквами и буквы перед числами, в точности противоположную ASCII.
  • Языки программирования, форматы файлов и сетевые протоколы разработанный для ASCII, быстро использовал доступные знаки препинания (такие как фигурные скобки {и}), которых не было в EBCDIC, что затрудняло перевод в системы EBCDIC. В EBCDIC, наоборот, было несколько символов, таких как ¢ (центов США ), который использовался в системах IBM и не мог быть преобразован в ASCII.
  • Наиболее распространенное соглашение о переносе строки, используемое с EBCDIC, - это использование кода NEL (NEXT LINE) между строками. Конвертеры в другие кодировки часто заменяют NEL на LF или CR / LF, даже если в целевой кодировке есть NEL. Это приводит к тому, что LF и NEL преобразуются в один и тот же символ и не могут быть различимы.
  • Если использовался семибитный ASCII, в 8-битных байтах был «неиспользуемый» старший бит и много частей программного обеспечения хранит там другую информацию. Программное обеспечение также упаковывает семь битов и отбрасывает восьмой, например, упаковывая пять семибитных символов ASCII в 36-битное слово. На PDP-11 байты со старшими набор бит обрабатывался как отрицательные числа, поведение было скопировано в C, вызывая непредвиденные проблемы, если был установлен старший бит. Все это затрудняло переключение с ASCII на 8-битный EBCDIC (это также затрудняло переключение на (8-битные) расширенные кодировки ASCII ).
Макет кодовой страницы

Существуют сотни кодовых страниц EBCDIC, основанных на исходной кодировке символов EBCDIC; существует множество кодовых страниц EBCDIC , предназначенных для использования в различных частях мира, включая кодовые страницы для нелатинских шрифтов, таких как китайский, японский (например, EBCDIC 930, JEF и KEIS), корейский и греческий (EBCDIC 875). Также существует огромное количество вариаций, в которых буквы меняются местами без видимой причины.

В таблице ниже показано «инвариантное подмножество» EBCDIC, то есть символы, которые должны иметь одинаковые назначения на всех кодовых страницах EBCDIC. Он также показывает (серым цветом) отсутствующие знаки препинания ASCII и EBCDIC, расположенные там, где они находятся на кодовой странице 037 (один из вариантов кодовой страницы EBCDIC). Неназначенные коды обычно заполняются международными или региональными символами в различных вариантах кодовой страницы EBCDIC , но символы серого цвета также часто перемещаются или меняются местами. В каждой ячейке первая строка представляет собой аббревиатуру управляющего кода или самого символа; а вторая строка - это код Unicode (пусто для элементов управления, которых нет в Unicode).

EBCDIC
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_NUL. 0000SOH. 0001STX. 0002ETX. 0003SEL.HT. 0009RNL.DEL. 007FGE.SPS.RPT.VT. 000BFF. 000CCR. 000DSO. 000ESI. 000F
1_DLE. 0010DC1. 0011DC2. 0012DC3. 0013res / enp.NL. 0085BS. 0008POC.CAN. 0018EM. 0019UBS.CU1.IFS. 001CIGS. 001DIRS. 001Eius /itb. 001F
2_DS.SOS.FS.WUS.byp / inp.LF. 000AETB. 0017ESC. 001BSA.SFE.sm / sw.CSP.MFA.ENQ. 0005ACK. 0006BEL. 0007
3_SYN. 0016IR.PP.TRN.NBS.EOT. 0004SBS.IT.RFF.CU3.DC4. 0014NAK. 0015SUB. 001A
4_SP. 0020¢. 00A2.. 002E<. 003C(. 0028+. 002B|. 007C
5 _. 0026!. 0021$. 0024*. 002A). 0029;. 003B¬. 00AC
6_-. 002D/. 002F¦. 00A6,. 002C%. 0025_. 005F>. 003E?. 003F
7_`. 0060:. 003A#. 0023@. 0040'. 0027=. 003D". 0022
8_a. 0061b. 0062c. 0063d. 0064e. 0065f. 0066g. 0067h. 0068i. 0069±. 00B1
9_j. 006Ak. 006Bl. 006Cm. 006Dn. 006Eo. 006Fp. 0070q. 0071r. 0072
A_~. 007Es. 0073t. 0074u. 0075v. 0076w. 0077x. 0078y. 0079z. 007A
B_^. 005E[. 005B]. 005D
C_{. 007BA. 0041B. 0042C. 0043D. 0044E. 0045F. 0046G. 0047H. 0048I. 0049
D_}. 007DJ. 004AK. 004BL. 004CM. 004DN. 004EO. 004FP. 0050Q. 0051R. 0052
E_\. 005CS. 0053T. 0054U. 0055V. 0056W. 0057X. 0058Y. 0059Z. 005A
F_0. 00301. 00312. 00323. 00334. 00345. 00356. 00367. 00378. 00389. 0039EO.

Буква Число Знаки препинания Символ Другое Не определено

Определения не-ASCII элементов управления EBCDIC

Ниже приведены определения управляющих символов EBCDIC, которые либо не отображаются на управляющие символы ASCII, либо имеют дополнительное применение. При сопоставлении с Unicode они в основном сопоставляются с кодовыми точками управляющего символа C1 способом, указанным в Архитектуре представления символьных данных IBM (CDRA).

Хотя отображение новой строки (NL) по умолчанию соответствует ISO / IEC 6429 Символ следующей строки (NEL) (поведение которого также указано, но не требуется в Приложении 14 Unicode), большинство этих отображаемых C1 элементов управления не соответствуют ни тем, что в ISO / IEC 6429 C1 set, ни в других зарегистрированных наборах управления C1, таких как ISO 6630. Хотя это фактически делает элементы управления EBCDIC, отличные от ASCII, уникальным набором элементов управления C1, они не входят в число наборов элементов управления C1, зарегистрированных в реестре ISO-IR, что означает, что им не назначена последовательность назначения набора элементов управления. (как указано в ISO / IEC 2022 и необязательно разрешено в ISO / IEC 10646 (Unicode)).

Помимо U + 0085 (Следующая строка), Стандарт Unicode не предписывает интерпретацию управляющих символов C1, оставляя их интерпретацию протоколам более высокого уровня (он предлагает, но не требует, их интерпретации ISO / IEC 6429 при отсутствии использования для других целей), поэтому такое сопоставление допустимо в, но не указан в Unicode.

МнемоникаEBCDICСопряжение CDRAИмяОписание
SEL04009CВыбратьУправляющий символ устройства, принимающий однобайтовый параметр.
RNL060086Требуется новая строкаСброс разрыва строки Табуляция отступа режим
GE080097Графика EscapeСдвиг без блокировки, который изменяет интерпретацию следующего символа (см., Например, Кодовая страница 310 ). Сравните ISO / IEC 6429's SS2 (008E).
SPS09008DSuperscriptНачать надстрочный индекс или отменить подстрочный индекс. Сравните ISO / IEC 6429's PLU (008C).
RPT0A008ERepeatПереключение в рабочий режим, повторяющий буфер печати
RES/ENP14009DВосстановить, включить презентациюВозобновить вывод (после BYP / INP)
NL150085 (000A)Новая строка Разрыв строки. Отображение по умолчанию (0085) соответствует ISO / IEC 6429's NEL. Отображения иногда меняются местами с переводом строки (EBCDIC 0x25) в соответствии с соглашением о переносе строк в UNIX.
POC170087Связь с оператором программыдвумя однобайтовыми операторами, которые идентифицируют конкретную функцию, например световой или функциональной клавишей. В отличие от ISO / IEC 6429's CSI (009B), OSC (009D) и APC (009F).
UBS1A0092Единица BackspaceДробный возврат.
CU11B008FКлиентская единицаНе используется IBM; для использования клиентами.
IUS/ITB1F001FРазделитель блоков обмена, блок промежуточной передачиЛибо используется как информация s разделитель для завершения блока, называемого «единицей» (как в ASCII ; см. также IR), или используется в качестве кода управления передачей для обозначения конца промежуточного блока.
DS200080Выбор цифрИспользуется инструкцией редактирования CPU (ED) S / 360
SOS210081Начало значимостиИспользуется инструкцией редактирования (ED) процессора S / 360. (Примечание: отличается от стандарта ISO / IEC 6429 SOS.)
FS220082Разделитель полейИспользуется инструкцией S / 360 CPU edit (ED).. (Примечание: (Обмен) Разделитель файлов, сокращенно FS в ASCII, находится в 0x1C и сокращенно IFS.)
WUS230083Подчеркивание словПодчеркивает непосредственно предшествующее слово. В отличие от стандарта ISO / IEC 6429 SGR.
BYP/INP240084Bypass, Inhibit PresentationДеактивирует вывод, т.е. игнорирует все графические символы и управляющие символы, кроме коды управления передачей и RES / ENP, до следующего RES/ENP.
SA280088Set AttributeОбозначает начало последовательности управления фиксированной длины для конкретного устройства. Устарело в пользу CSP.
SFE290089Расширенное поле началаОбозначает начало управляющей последовательности переменной длины для конкретного устройства. Устарело в пользу CSP.
SM/SW2A008ASet Mode, SwitchУправление устройством, которое устанавливает режим работы, например переключатель буфера.
CSP2B008BПрефикс последовательности управленияОбозначает начало последовательности управления переменной длины для конкретного устройства. За ним следует байт класса, определяющий категорию функции управления, байт счетчика, указывающий длину последовательности (включая байты счетчика и типа, но не байт класса или начальный CSP), байт типа, определяющий функцию управления в этой категории, и ноль или больше байтов параметра. В отличие от ISO / IEC 6429 DCS (0090) и CSI (009B).
MFA2C008CИзменить атрибут поляОбозначает начало последовательности управления переменной длины, специфичной для устройства. Устарело в пользу CSP.
300090(reserved)Зарезервировано для будущего использования IBM
310091(зарезервировано)Зарезервировано для будущего использования IBM
IR330093Возвращение индексаЛибо перейти к началу следующей строки (см. Также NL), либо завершить информационный блок ( см. также IUS / ITB).
PP340094Позиция представленияЗа ними следуют два однобайтовых параметра (во-первых, функция, во-вторых, номер столбца или строки) для установки текущей позиции. В отличие от ISO / IEC 6429's CUP и HVP.
TRN350095Transparent, за которым следует однобайтный параметр, который указывает количество следующих за ними байтов прозрачных данных.
NBS360096Цифровой BackspaceПеремещение назад на ширину одной цифры.
SBS380098SubscriptНачать нижний индекс или отменить верхний индекс. Сравните ISO / IEC 6429's PLD (008B).
IT390099Отступ табуляцииПозволяет сдвигать текущую и все последующие строки до тех пор, пока не встретится RNL или RFF.
RFF3A009AПодача обязательной страницыСброс разрыва страницы Режим отступа табуляции.
CU33B009BИспользование заказчиком дваНе используется IBM; для использования клиентами.
3E009E(reserved)Зарезервировано для будущего использования IBM
EOFF009FEight OnesВсе символы используются в качестве заполнителя
Кодовые страницы с наборами символов Latin-1

Следующие кодовые страницы имеют полный набор символов Latin-1 (ISO / IEC 8859-1). В первом столбце указан исходный номер кодовой страницы. Во втором столбце указан номер кодовой страницы, обновленной знаком евро (€), заменяющим универсальный знак валюты (¤) (или, в случае EBCDIC 924, с установленным изменено на соответствие ISO 8859-15 )

CCSID Euro. обновлениеСтраны
0371140Австралия, Бразилия, Канада, Новая Зеландия, Португалия, Южная Африка, США
2731141Австрия, Германия
2771142Дания, Норвегия
2781143Финляндия, Швеция
2801144Италия
2841145Латинская Америка, Испания
2851146Ирландия, Великобритания
2971147Франция
5001148Международный
8711149Исландия
1047924Открытые системы (компилятор MVS C )
Критика и юмор

Программное обеспечение с открытым исходным кодом Сторонник и разработчик программного обеспечения Эрик С. Реймонд пишет в своем Файл жаргона, что EBCDIC ненавидели хакеры, имея в виду представителей субкультуры энтузиастов-программистов. Файл жаргона 4.4.7 дает следующее определение:

EBCDIC: / eb´s @ · dik /, / eb´see`dik /, / eb´k @ · dik /, n. [аббревиатура, расширенный двоично-десятичный код обмена] Предполагаемый набор символов, используемый на динозаврах IBM. Он существует как минимум в шести взаимно несовместимых версиях, каждая из которых отличается такими прелестями, как несмежные последовательности букв и отсутствие нескольких знаков пунктуации ASCII, довольно важных для современных компьютерных языков (какие именно символы отсутствуют, зависит от того, какую версию EBCDIC вы используете. смотря на). IBM адаптировала EBCDIC из кода перфокарт в начале 1960-х и провозгласила его тактикой контроля со стороны клиентов (см. заговор с коннекторами ), отказавшись от уже установленного стандарта ASCII. Сегодня IBM заявляет, что является компанией открытых систем, но собственное описание IBM вариантов EBCDIC и способов преобразования между ними по-прежнему засекречено внутри компании и является сверхсекретным. Хакеры игнорируют само название EBCDIC и считают его проявлением чистейшего зла.

— Файл жаргона 4.4.7

Дизайн EBCDIC также был источником множества шуток. Одна такая шутка гласила:

Профессор: «Итак, американское правительство обратилось к IBM с предложением стандарта шифрования, и они придумали…». Студент: «EBCDIC!»

Ссылки на набор символов EBCDIC сделаны в классической серии приключенческих игр Infocom Zork. В «Машинном зале» в Zork II EBCDIC используется для обозначения непонятного языка:

Это большая комната, полная разнообразной тяжелой техники, шумно жужжащей. В комнате пахнет сгоревшими резисторами. Вдоль одной стены расположены три кнопки соответственно круглой, треугольной и квадратной формы. Естественно, над этими кнопками находятся инструкции, написанные в EBCDIC...

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-18 14:12:19
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте