Управляющие коды C0 и C1

редактировать
Управляющие символы в диапазоне от U + 0000 до U + 001F (C0) и от U + 0080 до U + 009F (C1) в Unicode

Наборы C0 и C1 управляющего кода или управляющего символа определяют управляющие коды для использования в тексте компьютерными системами, которые используют ASCII и производные от ASCII. Коды представьте дополнительную информацию о тексте, такую ​​как позиция курсора, инструкция для начала новой строки или сообщение о том, что текст был получен.

Коды C0 - это диапазон 00 HEX –1F HEX, набор C0 по умолчанию был установлен определен в ISO 646 (ASCII ). Коды C1 - это диапазон 80 HEX –9F HEX, набор C1 по умолчанию установлен определен в ECMA-48 (позже согласован с ISO 6429). Система определения управляющих и графических символов ISO / IEC 2022 позволяет использовать другие наборы C0 и C1 для использования приложений, но они используются редко.

Содержание

  • 1 Элементы управления C0
    • 1.1 Основные коды управления ASCII
    • 1.2 Названия номеров категорий
    • 1.3 Модифицированные наборы управляющих кодов C0
  • 2 элемента управления C1
    • 2.1 Коды управления C1 для общих контрольных кодов
    • 2.2 Контрольные коды C1 для библиографического использования
    • 2.3 Другие наборы контрольных кодов C1
  • 3 Unicode
  • 4 См. также
  • 5 Сноски
  • 6 Ссылки

Элементы управления C0

ASCII определил 32 управляющих символов плюс дополнительный для символов DEL все 1 (необходимо, чтобы пробить все отверстия на бумажной ленте и стереть ее).

Это большое количество кодов было желательным в то время, поскольку многобайтовые элементы управления потребовали бы реализацию конечного автомата в терминале, что было очень сложно с современной электроникой и механическими терминалами. С тех пор только некоторые из исходных элементов управления сохранили свое использование: диапазон «пробелов» BS, TAB, LF, VT, FF и CR; код BEL; и ESC (но, за исключением ISO-2022-JP, почти всегда как часть ESC, '[' CSI представление, запускающее escape-последовательность ANSI ). Другие не использовались или приобрели другое значение, например NUL - признак конца строки C.

Некоторые протоколы последовательной передачи, такие как ANPA-1312, Kermit и XMODEM, широко используют управляющие символы SOH, STX, ETX., EOT, ACK, NAK и SYN для приближения их первоначальных определений.

Основные управляющие коды ASCII

Это стандартные управляющие коды ASCII, выход в ANSI X3.4. При использовании механизма расширения ISO / IEC 2022 они обозначаются как активный набор управляющих символов C0 с помощью следующих октетов 0x1B 0x21 0x40(ESC! @).

Seq DecHexСокращениеSymbolИмяC Описание
^@ 0000NULNull \0 Первоначально использовалось для сохранения оставить пробелы на Позже используется для заполнения после кода, который может занять некоторое время на обработку терминала (например, возврат каретки или перевод строки на печатном терминале). SOHНачало заголовкаПри передаче сообщения ограничивает начало заголовка сообщения. Формат этого заголовка может быть определен применимым протоколом, например IPTC 7901 для передачи журналистского текста и обычно завершается STX. В Hadoop он часто используется как раздел итель полей.
^B 0202STXНачало текстаПервый символ текста сообщения, и может сообщить, чтобы завершить заголовок сообщения.
^C 0303ETXКонец текста При передаче сообщения ограничивает конец основного сообщения. Может сопровождаться «пост-текстовой информацией» (то есть структурированным нижним колонтитулом), определяемой применимым протоколом, или любыми дополнительными текстами, распространенными EOT. При вводе клавиатуры часто используется символ «прерывания» (Ctrl-C) для прерывания или завершения программы или процесса.
^D 0404EOTКонец передачи Разграничивает конец переданного сообщения, которое может быть в себя заголовок, текст сообщения и нижний колонтитул пост-текста или даже несколько текстов и связанных заголовков. Также может установить перевод терминалов в режим ожидания. Часто используется в Unix для обозначения конца файла на терминале.
^E 0505ENQЗапрос Сигнал, предназначенный для инициирования ответа на принимающую сторону, чтобы узнать, присутствует ли он еще.
^F 0606ACKПодтверждение Ответ на ENQ или указание на успешное получение сообщений.
^G 0707BELBell, Alert\a Первоначально использовался для подачи сигнала звонка на терминал. Позже использовался для звукового сигнала в системе, у которой не было физического звонка. Также может быстро вернуться и выключать обратное видео (визуальный звонок).
^H 0808BSBackspace \bПереместите курсор на одну позицию влево. При вводе это может удалить символ слева от курсора. При выводе, когда в ранних компьютерных технологиях напечатанный символ нельзя было стереть, для генерации акцентированных символов в ASCII иногда использовался возврат назад. Например, àможет быть создано с использованием трехсимвольной придерживающейся BS `(или используя шестнадцатеричные значения символов, 0x61 0x08 0x60). Такое использование сейчас обычно не поддерживается (например, запрещено в ISO / IEC 8859 ). Чтобы обеспечить устранение набором неоднозначностей между двумя возможными вариантами использования Backspace, управляющий код символов отмены был включен в стандартный набор элементов управления C1.
^I 0909HTТабуляция символов, Горизонтальная табуляция \t Позиция до следующего символа позиция табуляции.
^J 100ALFПеревод строки \n На пишущих машинках, принтерх и некоторые эмуляторы терминала перемещают курсор на одну строку вниз, не влияя на его положение в столбце. В Unix используется для обозначения конца строки. В DOS, Windows и различные сетевые стандарты LF используется после CR как часть знака конца строки.
^K 110BVTТабуляция по строкам, Вертикальная таблица \v Поместите форму на табуляцию следующей строки.
^L 120CFFForm Feed \f На принтере загрузите следующую страницу. Считается пробелом во многих языках программирования и может установить разделение разделов в коде. В некоторых эмуляторах терминала очищает экран. Он по-прежнему отображается в обычных текстовых файлах как символ разрыва страницы, например, в RFC, опубликованном IETF.
^M 130DCRВозврат каретки \r Первоначально использовался для перемещения курсора в нулевой столбец, оставаясь на той же строке. В классической Mac OS (до Mac OS X ), а также в более ранних системах, таких как Apple II и Commodore 64, используется для обозначения конца строки. В DOS, Windows и различные сетевые стандарты он используется перед LF как часть знака конца строки. Клавиша Enter или Return на клавиатуре отправит этот символ, но он может быть преобразован в другую последовательность конца строки с помощью терминальной программы.
^N 140ESOShift Out Переключение на альтернативный набор символов.
^O 150FSIShift In Возврат к обычному набору символов после Shift Out.
^P 1610DLEData Link EscapeВызывает некоторую интерпретацию ограниченного числа друг за другом другим способом, например, как необработанные данные (в отличие от управляющих кодов или графических символов). Детали этого средства от реализации.

Такие стандарты, как (ныне отмененный) ECMA-37, существовали для конкретных символов выхода из канала передачи данных для доступа к дополнительной функции управления передачей.

Стандартная схема сжатия для Unicode предлагает заменить все байты диапазона C0 с DLE, за которым следует этот байт плюс 0x40, если данные SCSU должны быть переданы по системе, что может быть запутано из-за перепрофилирования SCSU байтов C0.

^Q 1711DC1Device Control One (XON )Эти четыре управляющих кода зарезервированы для управления устройствами, интерпретация зависит от устройства, к которому они были подключены. DC1 и DC2 предназначались в первую очередь для обозначения активации устройства DC1 и DC3 (также известные как XON и XOFF соответственно в этом использовании) возникли как функции «запуск и остановка удаленногоывателя бумажных лент» в считывающих сетях ASCII Telex. Это использование телетайпа стало де-факто стандартный для программного обеспечения управления потоком.
^R 1812DC2Управление управляющим 2
^S 1913DC3Управление регулированием 3 ( XOFF )
^T 2014DC4Управление соединением 4
^U 2115NAKОтрицательное соединение подтверждения Отправлено со стороны станции отрицательный ответ станции, с которой установлено. й связи NAK используется для указания того, что в ранее принятом блоке была обнаружена ошибка и что приемник готов принять повторную передачу этого блока. В многоточечных системах NAK используется как ответ о неготовности на опрос.
^V 2216SYNСинхронный холостой ход Используется система синхронной передачи для сигнала, по которому может быть достигнута синхронная коррекция между оконечным оборудованием, в частности, когда другой символ не передается.
^W 2317ETBКонец блока передачи Указывает конец блока передачи данных, когда данные делятся на такие блоки для целей передачи.

Если он не используется для других целей, IPTC 7901 рекомендует интерпретировать ETB как символ конца абзаца.

^X 2418CANОтмена Указывает, что предшествующие ему данные находятся в ошибке или не принимаются во внимание.
^Y 2519EMКонец носителяПредназначен для обозначения на бумаге или магнитной ленте того, что конец используемой части ленты достигнута. Он также может обозначать конец используемой части и не обязательно физического носителя.

Если он не используется для других целей, IPTC 7901 рекомендует перепрофилировать EM как длинное пространство для отступа первой строки абзаца (см. Также EMSP ).

^Z 261ASUBЗаменитель Первоначально предназначался для использования в качестве символов управления передачей, чтобы указать, что были получены искаженные или недопустимые символы. Его часто используют для других целей, когда внутриполосная сигнализация ошибок, которые он использует, не нужна, особенно там, где используются надежные методы обнаружения и исправления ошибок или когда они ожидаются, что они будут достаточно редкими, чтобы использовать персонажа для других целей. В DOS, Windows, CP / M и других производных систем Digital Equipment Corporation он используется для обозначения конца файла, как при наборе текста на терминале, так и иногда в текстовых файлах, хранящихся на диске.
^[271BESCEscape \e Клавиша Esc на клавиатуре вызывает отправку этого символа в большинстве систем. Его можно использовать в программных пользовательских интерфейсах для выхода из экрана, меню или режима или в протоколах управления устройствами (например, в принтере и терминалах), чтобы последующие действия выполняли особую последовательность команд, а не обычный текст. В системах, основанных на ISO / IEC 2022, даже если используется другой набор управляющих кодов C0, этот октет требуется, чтобы всегда была escape-символ.
^\281CFSРазделитель файловРазделитель файлов Разделители для пометки полей структур данных. Если используется для иерархических уровней, US - это самый низкий уровень (разделение элементов данных в виде обычного текста), а RS, GS и FS - возрастающие уровни для разделения групп, состоящих из элементов нижележащего уровня.

Формат информации Unix использует US, за которым следует необязательный перевод и разрыв строки, чтобы отметить начало узла.

MARC 21 использует США в качестве разделителя подполей., RS как признак конца поля и GS как признак конца записи.

В текущей редакции IPTC 7901, если они не используются для других целей, США рекомендуется использовать в качестве столбца разделитель в таблицах, FS как «центральный разделитель полей» в таблицах и GS и RS соответственно для обозначения следующего пробела или дефис-минус как неразрывный или мягкий соответственно (в наборах символов, не указанных символов NBSP и SHY).

^]291DGSРазделитель групп
^^301ERSРазделитель записей
^_311FUSРазделитель блоков
, хотя технически не является одним из основных управляющих символов C0 является одним из следующих двух решенных символов в ISO / IEC 2022 как всегда доступный независимо от того, какие наборы управляющих символов и графических символов были зарегистрированы. Их можно рассматривать как обладающие некоторыми характеристиками управляющих персонажей.
3220SPПробел Пробел - графический символ. Он имеет наглядное представление, состоящее из отсутствия графического символа. Это заставляет активную позицию продвигаться на одну символическую позицию. В некоторых приложениях пробел можно рассматривать как «разделитель слов» нижнего уровня, который используется с соседними символами-разделителями.
^? 1277FDELУдалить Технически не является частью диапазона управляющих символов C0, это использовалось маркировки удаленных символов на бумажной ленте, поскольку любой символ можно было заменить на все, пробив дыры повсюду. На VT100 совместимых терминалах это символ, генерируемый клавишей с меткой ⌫, обычно называемой backspace на современной машинех, и не соответствует клавише удаления ПК .

Имена категорий

Некоторые из основных управляющих кодов ASCII делятся на несколько категорий, и иногда используются альтернативные эти сокращенные имена, состоящие из категорий и номера:

  • Элементы управления передачей: TC 1 (SOH), TC 2 (STX), TC 3 (ETX), TC 4 (EOT), TC 5 (ENQ), TC 6 (ACK), TC 7 (DLE), TC 8 (NAK), TC 9 (SYN), TC 10 (ETB).
  • Эффекты формата: FE 0 (BS), FE 1 (HT), FE 2 (LF), FE 3 (VT), FE 4 (FF), FE 5 (CR).
  • Элементы управления включают: DC 1, DC 2, DC 3, DC 4.
  • Разделители информации: IS 1 (США), IS 2 (RS), IS 3 (GS), IS 4 (FS).
  • Сдвиги блокировки: LS 0 (SI), LS 1 (SO).
  • Другие: NUL, BEL, CAN, EM, SUB, ESC.

ISO / IEC 2022 (ECMA-35) относится к сдвигам блокировки C0 как LS0 и LS1 в 8-битных средах и как SI и SO в 7-битных средах.

во-первых, издание ASCII 1963 года классифицировало DLE как управлять, а не как управление передачей, и дать ему сокращение DC0 («управление, зарезервированное для выхода из канала передачи данных »).

Коды эффекторов формата влияют на расположение и отображение графических символов, в отличие от управления другими функциями аппаратных устройств или других побочных эффектов. Эффекторы формата C0 разрешены в последовательностях ISO / IEC 6429 DCS, OSC, PMи APC.

Разделители информации и эффекторы формата C0 (минус BS) являются единственными управляющими кодами C0 с семантикой, стандартным стандартом Unicode, а интерпретация остальных элементов управления C0 оставлена ​​протоколам более высокого уровня.

ISO / IEC 2022 (ECMA-35) требует, чтобы если наборы управляющих кодов C0 включали десять управляющих кодов передачи ASCII, они должны быть закодированы в их положениях ASCII. Он также запрещает включение этих десяти элементов управления передачей в набор управляющих кодов C1 и запрещает включение элементов управления передачей, помимо этих десяти, в набор управляющих кодов C0.

Наборы модифицированных управляющих кодов C0

Хотя наборы управляющих кодов C0 обычно сохраняют большую часть управляющих кодов ASCII без изменений, зарегистрирован номер, который заменяет функции управления альтернативами:

Seq DecHexЗамененоВ кодовом наборе (ах)АббревиатураИмяОписание
^I0909HTNATS, IPTCFOФорматированиеИспользуется в табличные данные для перехода к следующей позиции табуляции (с сохранением семантики «табуляции» в этом отношении) и в стандартных форматах для обозначения следующей фазы. Текущая спецификация IPTC вместо этого рекомендует использовать обычные элементы управления ASCII C0 и использовать элемент управления USв качестве разрыва столбца в таблицах.
^K110BVTNATS, IPTCECDКонец инструкцииРазграничивает конец типографской инструкции, предназначенной для наборного устройства.
^L120CFFNATS, IPTCSCDНачало инструкцииОграничивает начало типографской инструкции, предназначенной для устройства набора.
^M130DCRNATS, IPTCQLЧетверной левыйЗавершить строку, необходимо, что она должна быть выровнена по левому краю. Текущая спецификация IPTC вместо этого рекомендует использовать обычные элементы управления ASCII C0 и эту функцию последовательностью < CR LF.
^N140ESONATSURВерхний рельсНачинает выделенную область текста. Используется в передаче скандинавских журналистских текстов с 1975 г.; В рекомендациях IPTC от 1976 года вместо них использовались FT2 и FT3 (см. Ниже). Текущая спецификация IPTC вместо этого рекомендует использовать обычные элементы управления ASCII C0 и пометить эту функцию символом ^.
^O150FSINATSLRНижняя направляющаяЗавершает выделенную область текста. Используется для передачи скандинавских журналистских текстов с 1975 г.; В рекомендациях IPTC от 1976 года вместо него использовался FT1 (см. Ниже). Текущая спецификация IPTC вместо этого рекомендует использовать обычные элементы управления ASCII C0 и пометить эту функцию с помощью символа @.
^Q1711DC1IPTCFT1Первый шрифтПереключает на обычный шрифт, т. Е. Отключает полужирный или курсивный шрифт.
^R1812DC2IPTCFT2Font TwoПереключение на курсивный шрифт.
^S1913DC3IPTCFT3Три шрифтаПереключение на жирный шрифт.
^X2418CANNATS, IPTCKWKill WordУдаляет предыдущее слово (удаляет обратно до последнего пробела, включая последний, или обратно, исключая предыдущий разрыв строки, в зависимости от того, что сначала встречает). В этом отношении сохраняет семантику «Отмена», но имеет более конкретную функцию.
^Y2519EMT.61 / T.51, автономныйSS2Single Shift TwoНеблокирующий код смены для G2 ; представление C0, позволяющее представить его одним байтом в 7-битной среде.
^\281CFSNATS, IPTC, автономныйSS / SS2Super Shift или Single Shift TwoКод переключения без блокировки.
JIS C 6225CEXControl ExtensionВводит управляющую последовательность, как определено теперь отмененным JIS C 6225, обозначенным JIS X 0207 в более поздних источниках. В их число входят последовательности для управления поведением вертикального текста, надстрочных и подстрочных индексов, а также для передачи пользовательской символьной графики.
^]291DGSNATS, IPTCQCQuad CenterЗавершает строку, указывая, что она должна быть центрирована.
T.61 /T.51 SS3Single Shift ThreeКод переключения без блокировки для G3 ; представление C0, позволяющее представить его одним байтом в 7-битной среде.
^^301ERSNATS, IPTCQRQuad RightЗавершает строку, указывая, что она должна быть выровнена по правому краю.
^_311FUSNATS, IPTCJYJustifyЗавершает строку, которая должна быть выровнена.

С1 управляет

Параллельно с разработкой издания 1972 года ISO 646, который пересмотрел стандарт, чтобы ввести концепцию национальных версий кода в дополнение к исходному ASCII из США, также велась работа с целью определения механизмов расширения для ASCII, применимых как к 7-битной, так и к 8-битной среде, которые будут опубликованы как ECMA-35 и ISO 2022.

Эти механизмы были разработаны таким образом, чтобы любой соответствующий 8-битный код мог быть преобразован в соответствующий 7-битный код, и наоборот. В 7-битной среде элемент управления Shift Out (SO) изменит значение 94 байтов с 0x21по 0x7E(т. Е. Графические коды, исключая пробел) на вызывать символы из альтернативного набора, и элемент управления Shift In (SI) вернет их обратно. В 8-битной среде, вместо использования кодов сдвига, восьмой бит был установлен в байте, ссылающемся на дополнительный набор графических символов. Это означало, что байты с 0xA1по 0xFEиспользовались для дополнительных графических символов. Управляющие символы C0, на которые не влияет состояние сдвига 7-битного кода, всегда должны были быть представлены в 8-битном коде с неустановленным восьмым битом. Следовательно, неиспользуемые иначе байты в диапазоне от 0x80до 0x9Fмогут использоваться для дополнительных управляющих кодов, которые вместо этого будут представлены как 0x1B 0x40- 0x1B 0x5F(от ESC @до ESC _) в 7-битном коде. Эти дополнительные управляющие коды стали известны как управляющие коды C1 . Чтобы сохранить совместимость с 7-битным представлением, поведение байтов 0xA0и 0xFFизначально оставалось неопределенным.

Первый набор управляющих кодов C1, который должен быть зарегистрирован для использование с ISO 2022 было DIN 31626, специализированный набор для библиографического использования, который был зарегистрирован в 1979 году. Стандартный набор ISO / IEC 6429 был зарегистрирован в 1983 году, хотя спецификация ECMA-48, на основании которой он base был впервые опубликован в 1976 году.

Дальнейшие редакции стандартов в некоторой степени изменили положения. Например, в новой редакции стандартов ECMA-35 и ISO 2022 в 1985 г. была введена концепция набора графических символов с 96 кодами. В 8-битном коде это позволяло использовать весь диапазон от 0xA0до 0xFFдля графических символов. Использование 96-кодовых наборов также означало, что значение байтов 0x20и 0x7Fв соответствующем 7-битном коде могло отличаться от «Пробел» и «Удалить», если только код находился в состоянии Shift In. Использование 96-кодовых наборов для набора G0 (Shift In) было невозможно.

Это была эта 8-битная структура кода, при этом байты с восьмым набором битов были разделены между диапазоном управляющих кодов C1 и 96-кодовый набор графических символов, который был использован в качестве основы для ISO 8859.

C1 управляющих кодов для общего использования

Это наиболее распространенные расширенные управляющие коды, которые определены в ISO / IEC 6429, ECMA -48 и JIS X 0211 (ранее JIS C 6323). При использовании механизма расширения ISO / IEC 2022 они обозначаются как активный управляющий набор символов C1 с последовательностью 0x1B 0x22 0x43(ESC "C). Хотя Unicode не требует определенного набора управляющих кодов C1, оставляя их интерпретацию для определения протоколов более высокого уровня, и только определяет поведение для U + 0085, он предлагает интерпретировать управляющие коды C1, как указано в ISO / IEC 6429 при отсутствии использования для других целей. Также в таблице ниже перечислены три управляющих кода, перечисленных вместе с кодами ISO / IEC 6429 в RFC 1345, но фактически не определенные согласно ISO / IEC 6429 (PAD, HOP и SGC).

За исключением NEL (и SS2 и SS3 в EUC-JP ), 8-битные формы этих кодов почти никогда не используются. CSI, DCS и OSC используются для управления текстовы ми терминалами и эмуляторами терминалов, но почти всегда с помощью g их 7-битные представления кода перехода. Их однобайтовые представления, соответствующие ISO / IEC 2022, недействительны в UTF-8, а кодировки UTF-8 их соответствующих кодовых точек имеют длину два байта, как и их формы escape-кода (для Например, CSI в U + 009B закодирован как байты 0xC2, 0x9B в UTF-8), поэтому нет никаких преимуществ в использовании их вместо эквивалентной двухбайтовой escape-последовательности. Когда эти коды появляются в современных документах, веб-страницах, сообщениях электронной почты и т. Д., Они обычно предназначены для печати символов в этой позиции в проприетарной кодировке, такой как Windows-1252 или Mac OS Roman, использующие коды C1 для предоставления дополнительных графических символов.

Официальные названия некоторых кодов C1 на английском языке были пересмотрены в последней редакции стандарта для управляющих кодов в целом (ISO 6429: 1992 или ECMA-48: 1991), чтобы они оставались нейтральными по отношению к графическому изображению. используемые вместе с ними символы, и не предполагать, что, как в латинском шрифте, строки пишутся на странице сверху вниз, а символы пишутся в строке слева направо. Используемые сокращения не были изменены, поскольку в стандарте уже указано, что они останутся неизменными при переводе стандарта на другие языки. Если имя было изменено, исходное имя, от которого произошло сокращение, также приводится в скобках в таблицах ниже.

Esc+DecHexAcroИмяОписание
@12880PADСимвол заполненияНе является частью ISO / IEC 6429 (ECMA-48). В ранних версиях ISO 10646 использовался как часть предложенного механизма для кодирования не-ASCII символов. Это использование было удалено в более поздних проектах. Тем не менее используется внутренней двухбайтовой формой фиксированной длины стандарта ISO-2022 Extended Unix Code (EUC) для заполнения однобайтовых символов слева в кодовых наборах 1 и 3, тогда как NUL выполняет ту же функцию для кодовых наборов 0 и 2. Это не выполняется в обычном «упакованном» формате EUC.
A12981HOPПредустановка старших октетовНе является частью ISO / IEC 6429 (ECMA-48). В ранних версиях стандарта ISO 10646 это было предназначено как средство введения последовательности совместимых с ISO 2022 многобайтовых символов с одним и тем же первым байтом без повторения первого байта, таким образом уменьшая длину; это поведение никогда не было частью стандартной или опубликованной реализации. Тем не менее, его имя было сохранено как стандартное имя кодовой точки RFC 1345.
B13082BPHЗдесь разрешен разрывСледует за графическим символом там, где разрешен разрыв строки. Примерно эквивалентен мягкому дефису , за исключением того, что средство для обозначения разрыва строки не обязательно является дефисом. Не входит в первую редакцию ISO / IEC 6429. См. Также пробел нулевой ширины.
C13183NBHЗдесь нет разрываСледует за графическим символом, который не сломаться. Не входит в первую редакцию ISO / IEC 6429. См. Также объединитель слов.
D13284INDИндексПереместите активную позицию на одну строку вниз, чтобы исключить неоднозначность значения LF. Устарело в 1988 г. и исключено в 1992 г. из ISO / IEC 6429 (1986 и 1991 соответственно для ECMA-48).
E13385NELСледующая строка Эквивалент CR + LF. Используется для обозначения конца строки на некоторых мэйнфреймах IBM.
F13486SSAНачало выбранной областиИспользуется блочно-ориентированными терминалами.
G13587ESAКонец выбранной Область
H13688HTSНабор табуляции символов. Набор горизонтальных табуляцииЗаставляет установить остановку табуляции символов в активной позиции.
I13789HTJТабуляция символов с выравниванием. Горизонтальная табуляция с выравниваниемПодобна табуляции символов, за исключением того, что вместо пробелов или строк после предшествующих символов до достигается следующая позиция табуляции, пробелы или строки помещаются перед активным полем, так что предыдущий графический символ помещается непосредственно перед следующей табуляцией.
J1388AVTSНабор таблиц строк. Набор вертикальных таблицУказывает, что остановка табуляции строк будет установлена ​​в активную позицию.
K1398BPLDЧастичная пересылка строки. Частичная строка внизИспользуется для создания нижних и нижних индексов в ISO / IEC 6429, например, в принтер.. В нижних индексах используется текст PLD PLU, в то время как в верхних индексах используется текст PLU PLD.
L1408CPLUНеполная строка назад. Частичная Строка вверх
M1418DRIОбратный перевод строки. Обратный индекс
N1428ESS2Single-Shift 2 Следующий символ вызывает графический символ из графики G2 или G3 наборы соответственно. В системах, соответствующих ISO / IEC 4873 (ECMA-43), даже если используется набор C1, отличный от значения по умолчанию, эти два октета могут использоваться только для этой цели.
O1438FSS3Single-Shift 3
P14490DCSСтрока управления устройствомЗа ней следует строка печатаемых символов (от 0x20 до 0x7E) и эффекторы формата (от 0x08 до 0x0D), заканчивающиеся ST (0x9C). Это может использоваться управляющими последовательностями переменной длины для текстовых терминалов и эмуляторов терминалов, такими как запросы terminfo.
Q14591PU1Private Use 1Зарезервировано для функции, не имеющей стандартизованного значения, для частного использования по мере необходимости, при условии предварительного согласия отправителя и получателя данных.
R14692PU2Частное использование 2
S14793STSУстановить состояние передачи
T14894CCHОтменить символ Деструктивный возврат, предназначенный для устранения двусмысленности в значении BS.
U14995MWожидающего сообщения
V15096SPAНачало защищенной областиИспользуется блоком . ориентированные терминалы.
W15197EPAКонец защищенной области
X15298SOSНачало строки, за которым следует контрольная строка, заканчивающаяся ST(0x9C), который, в отличие от тех, что инициированы DCS, OSC, PMили APC, может содержать любой символ, кроме SOS или ST. Не входит в первую редакцию ISO / IEC 6429.

MARC 21 использует SOS и ST в записях в формате Unicode для разметки строки, которую следует игнорировать для целей сопоставления, тогда как MARC -8 записи формата используют NSB и NSE для той же цели.

Y15399SGCSingle Graphic Представитель символовНе является частью ISO / IEC 6429. В ранних версиях ISO 10646 использовался для кодирования одного многобайтового символа без выхода из режима HOP. В более поздних версиях это средство было удалено, однако имя было сохранено как RFC 1345 стандартное имя кодовой точки.
Z1549ASCIВведение одного символаЗа ним следует один печатаемый символ (от 0x20 до 0x7E) или эффектор формата (от 0x08 до 0x0D). Намерение состояло в том, чтобы предоставить средства, с помощью которых можно было бы определить функцию управления или графический символ, которые будут доступны независимо от того, какие графические или контрольные наборы используются. Определение того, что будет вызывать следующий байт, никогда не было реализовано в международном стандарте. Не входит в первую редакцию ISO / IEC 6429.
[1559BCSIControl Sequence Introducer Используется для представления управляющих последовательностей, которые принимают параметры.
\1569CSTЗнак конца строкиЗавершает строку управления переменной длины, инициированную DCS, SOS, OSC, PMили APC.
]1579DOSCКоманда операционной системы, за которой следует строка печатаемых символов (от 0x20 до 0x7E) и эффекторы формата (от 0x08 до 0x0D), завершаемые ST (0x9C). Эти три управляющих кода были предназначены для использования внутриполосной передачи протокольной информации, но редко используются для этой цели.

Некоторые эмуляторы терминала, включая xterm, поддерживают последовательности OSC для установки заголовка окна и перенастройки доступной цветовой палитры. They may also support terminating an OSC sequence with BELas a non-standard alternative to the standard ST.

^1589EPMPrivacy Message
_1599FAPCApplication Program Command

C1 control codes for bibliographic use

The following alternative C1 control code set is defined for bibliographic applications such as library systems. It is mostly concerned with string collation, and with markup of bibliographic fields. Slightly different variants are defined in the German standard DIN 31626and the ISO standard ISO 6630. Where these differ is noted in the table below where applicable. MARC-8 uses the coding of NSBand NSEfrom this set, and adds some additional format effectors in locations not used by the ISO version; however, MARC 21 uses this control set only in MARC-8 records, not in Unicode-format records.

If using the ISO/IEC 2022 extension mechanism, the DIN version is designated as the active C1 control character set with the sequence 0x1B 0x22 0x45(ESC " E), and the ISO version is designated with the sequence 0x1B 0x22 0x42(ESC " B). The 1985 edition of the ISO version также можно явно указать с помощью последовательности 0x1B 0x26 0x40 0x1B 0x22 0x42(ESC @ ESC "B).

Esc +DecHexAcroИмяОписание
@… F128… 13480… 86-(зарезервировано)
G13587CUSКрупный план для сортировки(DIN, ISO) Объявляет, что две последовательные последовательности символов, разделенные пробелом или разделителем, должны рассматриваться как одно слово для сопоставления
H13688NSBНачало несортированных символов(DIN, ISO, MARC) Отмечает начало последовательности символов, которые следует игнорировать при сопоставлении. MARC 21 использует этот символ в записях MARC-8, но использует 0x98 (SOS) в записях Unicode для той же цели.
I13789NSEКонец несортированных символов(DIN, ISO, MARC) Отмечает конец последовательности символов, которые следует игнорировать в целях сопоставления. MARC 21 использует этот символ в MARC- 8 записей, но использует 0x9C (ST) в Unicode re шнуры для той же цели.
J1388AFILЗнак-заполнитель(DIN) Заменяет обязательный буквенно-цифровой символ в поле.
K1398BTCIТег в индикаторе контекста(DIN) В пределах библиографического поля, используется для ссылки на данные в другом библиографическом поле по его номеру тега.
PLDНеполная линия вниз(ISO) Отсутствует в исходной редакции ISO 6630. В редакции ISO 6630 1985 года используется для частичной нисходящей линии (см. PLD выше).
L1408CICIИдентификационный номер в индикаторе контекста(DIN) В пределах библиографического поля, используется для ссылки на данные в другой библиографической записи по ее идентификационному номеру.
PLUPartial Line Up(ISO) Отсутствует в исходной редакции ISO 6630. В редакции ISO 6630 1985 года используется для частичной линейки (см. PLU выше).
M1418DOSCДополнительный контроль слогов(DIN) Отмечает границу слога в длинном слове. См. Также мягкий перенос.
ZWJJoiner(MARC) В MARC-8 используется для Joiner Zero-Width Joiner, а U + 200D используется в записях MARC в формате Unicode.
N1428ESS2Single-Shift 2(DIN) Код переключения без блокировки, см. SS2 выше.
ZWNJNon-Joiner(MARC) В MARC-8 используется для Non-Joiner нулевой ширины, а U + 200C используется в Записи MARC в формате Unicode.
O1438FSS3Single-Shift 3(DIN) Код сдвига без блокировки, см. SS3 над.
P14490-(reserved)
Q14591EABНачало встроенной аннотации(DIN, ISO) Отмечает начало встроенной аннотации переменной длины в пределах библиографического поля, в отличие от разделения с использованием обозначения содержимого.
R14692EAEКонец встроенной аннотации(DIN, ISO) Обозначает конец встроенной аннотации изменения длины.
S14793ISBПункт Спецификации Начало(DIN) Отмечает начало конкретной информации некоторого описания, кроме ключевого слова или перестановки.
T14894ISEКонец спецификации позиции(DIN) Обозначает конец строки с конкретной информацией.
U14995SIBСортировка Начало интерполяции(ISO) Отмечает начало последовательности символов, используемых только для сопоставления.
V15096SIEСортировка конца интерполяции(ISO) Отмечает конец последовательности символов, используемых только для сопоставления.
W15197SSBНачало значения вторичной сортировки(ISO) Отмечает начало строки с подчиненным сопоставлением.
X15298SSEКонец вторичного значения сортировки(ISO) Отмечает конец строки с подчиненным уровнем сортировки.
Y15399INCИндикатор нестандартного символа(DIN) Обозначает нестандартный символ.
Z1549A-(зарезервировано)
[1559B-(зарезервировано)
\1569CKWBНачало ключевого слова(DIN, ISO) Обозначает начало ключевого слова в библиографическом поле.
]1579DKWEКонец ключевого слова(DIN, ISO) Обозначает конец ключевого слова в библиографическом поле.
^1589EPSBНачало строки перестановки(DIN, ISO) Отмечает начало строки, которая должна быть переставлена ​​в начало элемента. Прекращено PSE или концом элемента.
_1599FPSEКонец строки перестановки(DIN, ISO) Отмечает конец строки, которая должна быть переставлена ​​в начало элемента.

Другие наборы управляющих кодов C1

EBCDIC определяют 16 дополнительных управляющих кодов, помимо тех, которые присутствуют в ASCII. При отображении в Unicode или в ISO 8859 эти коды контролируют символы C1 способами, указанными в Архитектуре представления символьных данных IBM (CDRA). Выбор по умолчанию элемента управления New Line (NL) действительно соответствует ISO / IEC 6429 NEL (0x85; хотя его отображение иногда заменяется LF, в соответствии с соглашением о завершении строки UNIX), остальные коды управления не соответствуют ISO / IEC 6429. Даже если они имеют одинаковое поведение, например, SPS и PLU, C1-отображаемый представление элементов управления EBCDIC (например, 0x8D для SPS) не соответствуют кодам ISO / IEC 6429 (например, 0x8C для PLU). Таким образом, EBCDIC с расширенным отображением ASCII можно рассматривать как имеющий собственный набор C1, хотя он не зарегистрирован в реестре ISO-IR для использования с ISO / IEC 2022.

Различные специализированные C1 наборы управляющих кодов зарегистрированы для использования в различных форматах Videotex.

Unicode

Unicode выделяет 65 кодовых точек в общей категории "Cc" (Контроль) на совместимость с ИСО / МЭК 2022. Управляющие символы Unicode охватывают U + 0000 - U + 001F (элементы управления C0), U + 007F (удаление) и U + 0080 - U + 009F (элементы управления C1). Юникод определяет семантику только для U + 0009 - U + 000D, U + 001C - U + 001F и U + 0085. Остальные управляющие символы прозрачны для Unicode, и их значения оставлены протоколам более высокого уровня.

Unicode не имеет выделенных кодовых точек категории «Cc», кроме C0 и C1. Тем не менее, он включает дополнительные символы-эффекторы формата, помимо тех, которые входят в наборы элементов управления C0 и C1, такие как метки, вставки, изолирующие и выталкивающие для явного двунаправленного форматирования и объединитель нулевой ширины и не присоединяющийся для использования лигатуры. Им присваивается общая категория «Cf» (формат), а не «Cc».

См. Также

Сноски

Ссылки

Последняя правка сделана 2021-05-13 09:25:51
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте