ISO / IEC 8859-1

редактировать
Кодировка символов для латинских алфавитов западноевропейских языков
ISO / IEC 8859-1: 1998
Latin-1-ink.svg Макет кодовой страницы ISO 8859-1
MIME / IANAISO-8859-1
Псевдоним (а)iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819
Язык (и)Английский, различные другие
СтандартISO / IEC 8859
КлассификацияExtended ASCII, ISO 8859
РасширяетUS-ASCII
На основеDEC MCS
СоответствуетWindows-1252 (Веб стандарты)
Другая связанная кодировка ( s)BraSCII
  • v
  • t

ISO / IEC 8859-1: 1998, Информационные технологии - 8-битный однобайтный байт графический код символ наборы - Часть 1: Латинский алфавит № 1, является частью серии ISO / IEC 8859 из ASCII стандартных кодировок символов , опубликовано первое издание в 1987 году. ISO 8859-1 кодирует то, что он именует «латинский алфавит № 1», состоящий из 191 символа из e Латинский шрифт. Эта схема кодирования символов используется на всей территории Северной и Южной Америки, Западной Европы, Океании и большей части Африки. Он также обычно используется в большинстве стандартных латинизации восточноазиатских языков. Это основа для большинства популярных 8-битных наборов символов, и первый блок символов в Unicode.

ISO-8859-1 был (по крайней мере, согласно стандартам) кодировкой по умолчанию для документов, доставляемых через HTTP с типом MIME, начинающимся с «text /» (HTML5 изменил это на Windows-1252 ). По состоянию на октябрь 2020 года 1,9% всех (в то время как только 0,8% из первой тысячи) веб-сайтов утверждают, что используют ISO 8859-1. Однако сюда входит неизвестное количество страниц, фактически использующих Windows-1252 и / или UTF-8, которые обычно распознаются браузерами, несмотря на тег набора символов.

Это кодировка по умолчанию для значений некоторых описательных заголовков HTTP, которая определяет набор символов, разрешенных в документах HTML 3.2 (HTML 4.0 использует Unicode, т. Е., UTF-8 ) и определяется многими другими стандартами. Этот и подобные наборы часто считаются кодировкой 8-битного текста в Unix и Microsoft Windows, если нет метки порядка байтов (BOM); это только постепенно меняется на UTF-8.

ISO-8859-1 - предпочтительное имя IANA для этого стандарта, если оно дополнено управляющими кодами C0 и C1 из ISO / IEC 6429. Зарегистрированы следующие другие псевдонимы: iso-ir-100, csISOLatin1, latin1, l1, IBM819 . Кодовая страница 28591 a.k.a. Windows-28591 используется для этого в Windows. IBM называет ее кодовой страницей 819 или CP819 (CCSID 819). Oracle называет ее WE8ISO8859P1 .

Contents

  • 1 Охват
    • 1.1 Современные языки с полным охватом
    • 1.2 Языки с неполным охватом
    • 1.3 Кавычки
  • 2 История
  • 3 Макет кодовой страницы
  • 4 Подобные наборы символов
    • 4.1 ISO / IEC 8859-15
    • 4.2 Windows-1252
    • 4.3 Mac Roman
    • 4.4 Другое
  • 5 См. Также
  • 6 Ссылки
  • 7 Внешние ссылки

Охват

Каждый символ кодируется как одно восьмибитовое значение кода. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках:

Современные языки с полным охватом

Примечания

Языки с неполным охватом

ISO-8859-1 обычно использовался для некоторых языков, хотя в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствует лишь несколько букв или они используются редко, и их можно заменить символами, которые есть в ISO-8859-1, используя некоторую форму типографского приближения. В следующей таблице перечислены такие языки.

ЯзыкОтсутствующие символыТипичное решениеПоддерживается
каталонским Ŀ, ŀ (устарело)L ·, l ·
датский Ǿ, ǿ (ударение необязательно, ǿ очень редко)Ø, ø или øe
голландский IJ, ij (но со спорным статусом ); j́ в подчеркнутых словах, таких как "blíj́f"орграфы IJ, ij; blíjf
эстонский Š, š, Ž, ž (присутствует только в заимствованных словах)Sh, sh, Zh, zhISO-8859-15, Windows-1252
Финский Š, š, Ž, ž (присутствует только в заимствованных словах)Ш, ш, Ж, жISO- 8859-15, Windows-1252
французский Œ, œ и очень редкие Ÿ диграфы OE, oe; Y или ÝISO-8859-15, Windows-1252
Немецкий (заглавная буква ß, используется только во всех заглавных буквах; включена в официальную орфографию в 2017 году, все еще необязательно)орграф SS
венгерский Ő, ő, Ű, űÖ, ö, Ü, üISO / IEC 8859-2, Windows-1250
ирландский (традиционная орфография )Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫBh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, thISO -8859-14
валлийский , ẁ, , ẃ, Ŵ, ŵ, , ẅ, , ỳ, Ŷ, ŷ, Ÿ W, w, Y, y, Ý, ýISO-8859-14

Буква ÿ, которая встречается во французском языке очень редко., в основном в названиях городов, таких как L'Haÿ-les-Roses и никогда в начале слов, включается только в строчной форме. Слот, соответствующий его прописной форме, занимает строчная буква ß из немецкого языка, в котором не было прописной формы во время создания стандарта.

Quo обозначения

Для некоторых языков, перечисленных выше, правильные типографские кавычки отсутствуют, поскольку только «», ""и ''включены. Также в этой схеме не предусмотрены ориентированные (6- или 9-образные) одинарные или двойные кавычки. Некоторые шрифты будут отображать серьезный акцент (0x60) и апостроф (0x27) в виде пары совпадающих ориентированных одинарных кавычек, но это не считается частью современного стандарта.

История

ISO 8859-1 был основан на многонациональном наборе символов, используемом Digital Equipment Corporation (DEC) в популярном Терминал VT220 в 1983 году. Он был разработан в рамках Европейской ассоциации производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA-94, под этим названием он до сих пор иногда известен. Второе издание ECMA-94 (июнь 1986 г.) также включало ISO 8859-2, ISO 8859-3 и ISO 8859-4 как часть Технические характеристики.

В исходном проекте ISO 8859-1 французские Œ и œ помещались в кодовые точки 215 (0xD7) и 247 (0xF7), как в ECMA-94. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не независимые французские буквы сами по себе, а всего лишь лигатуры (например, or или), поддерживаемые командой делегатов из, которые в то время регулярно не печатали французский язык с with / œ в своем домашнем стиле. Англоязычный делегат из Канады настоял на сохранении / œ, но получил отказ от французского делегата и команды из Bull. Эти кодовые точки вскоре были заполнены знаками × и ÷ по предложению немецкой делегации. Затем дела пошли еще хуже для французского языка, когда снова было ошибочно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной. Фактически, буква ÿ встречается во многих французских именах собственных, а заглавная буква используется в словарях и энциклопедиях. Эти символы были добавлены в ISO / IEC 8859-15: 1999. BraSCII соответствует исходному черновику.

В 1985 году Commodore принял ECMA-94 для своей новой операционной системы AmigaOS. Ударный матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку.

В 1990 году самая первая версия Unicode использовала кодовые точки ISO-8859 -1 в качестве первых 256 кодовых точек Unicode.

В 1992 году IANA зарегистрировала карту символов ISO_8859-1: 1987, более известную под своим предпочтительным именем MIME ISO-8859-1 (обратите внимание на дополнительный дефис по сравнению с ISO 8859-1), расширенный набор ISO 8859-1, для использования в Интернете. Эта карта назначает управляющие коды C0 и C1 неназначенным кодовым значениям, таким образом, обеспечивает 256 символов через каждое возможное 8-битное значение.

Макет кодовой страницы

ISO / IEC 8859-1
_0_1_2_3_4_5_6_7_8_9_A_B_C_D_E_F
0_. 0
1_. 16
2_. 32SP. 0020!. 0021". 0022#. 0023$. 0024%. 0025. 0026'. 0027(. 0028). 0029*. 002A+. 002B,. 002C-. 002D.. 002E/. 002F
3_. 480. 00301. 00312. 00323. 00334. 00345. 00356. 00367. 00378. 00389. 0039:. 003A;. 003B ​​<. 003C=. 003D>. 003E?. 003F
4_. 64@. 0040A. 0041B. 0042C. 0043D. 0044E. 0045F. 0046G. 0047H. 0048I. 0049J. 004AK. 004BL. 004CM. 004DN. 004EO. 004F
5_. 80P. 0050Q. 0051R. 0052S. 0053T. 0054U. 0055V. 0056W. 0057X. 0058Y. 0059Z. 005A[. 005B\. 005C]. 005D^. 005E_. 005F
6_. 96`. 0060a. 0061b. 0062c. 0063d. 0064e. 0065f. 0066g. 0067h. 0068i. 0069j. 006Ak. 006Bl. 006Cm. 006Dn. 006Eo. 00 6F
7_. 112p. 0070q. 0071r. 0072s. 0073t. 0074u. 0075v. 0076w. 0077x. 0078y. 0079z. 007A{. 007B|. 007C}. 007D~. 007E
8_. 128
9_. 144
A_. 160NBSP. 00A0¡. 00A1¢. 00A2£. 00A3¤. 00A4¥. 00A5¦. 00A6§. 00A7¨. 00A8©. 00A9ª. 00AA«. 00AB¬. 00ACSHY. 00AD®. 00AE¯. 00AF
B_. 176°. 00B0±. 00B1². 00B2³. 00B3´. 00B4µ. 00B5. 00B6·. 00B7¸. 00B8¹. 00B9º. 00BA». 00BB¼. 00BC½. 00BD¾. 00BE¿. 00BF
C_. 192À. 00C0Á. 00C1Â. 00C2Ã. 00C3Ä. 00C4Å. 00C5Æ. 00C6Ç. 00C7È. 00C8É. 00C9Ê. 00CAË. 00CBÌ. 00CCÍ. 00CDÎ. 00CEÏ. 00CF
D_. 208Ð. 00D0Ñ. 00D1Ò. 00D2Ó. 00D3Ô. 00D4Õ. 00D5Ö. 00D6×. 00D7Ø. 00D8Ù. 00D9Ú. 00DAÛ. 00DBÜ. 00DCÝ. 00DDÞ. 00DEß. 00DF
E_. 224à. 00E0á. 00E1â. 00E2ã. 00E3ä. 00E4å. 00E5æ. 00E6ç. 00E7è. 00E8é. 00E9ê. 00EAë. 00EBì. 00ECí. 00EDî. 00EEï. 00EF
F_. 240ð. 00F0ñ. 00F1ò. 00F2ó. 00F3ô. 00F4õ. 00F5ö. 00F6÷. 00F7ø. 00F8ù. 00F9ú. 00FAû. 00FBü. 00FCý. 00FDþ. 00FEÿ. 00FF

Letter Число Пунктуация Символ Другое Не определено Не определено в первом выпуске ECMA-94 (1985). Однако в первоначальном черновике Œ находилась в кодовой точке 215 (0xD7), а œ - в кодовой точке 247 (0xF7).

Подобные наборы символов

ISO / IEC 8859-15

ISO / IEC 8859-15 были разработаны в 1999 году как обновление ISO / IEC 8859-1. Он предоставляет некоторые символы для текста на французском и финском языках и знак евро, которые отсутствуют в ISO / IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO / IEC 8859-1, включая символы дроби и диакритические знаки без букв: ¤, ¦, ¨, ´, ¸, ¼, ½и ¾. По иронии судьбы, три из недавно добавленных символов (Œ, œи Ÿ) уже присутствовали в DEC 1983 года Многонациональный набор символов (MCS), предшественник ISO / IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь были повторно использованы для других целей, символы пришлось повторно вводить под другими, менее логичными кодовыми точками.

ISO-IR-204, более незначительная модификация, была зарегистрирована в 1998 году, изменив ISO-8859-1 путем замены знака универсальной валюты (¤) на знак евро ( такая же замена, сделанная ISO-8859-15).

Windows-1252

Популярный набор символов Windows-1252 добавляет все отсутствующие символы, предусмотренные ISO / IEC 8859-15, а также количество типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 (шестнадцатеричный от 80 до 9F). Очень часто неправильно маркировать текст Windows-1252 как находящийся в ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданные с помощью «умных кавычек» в текстовых редакторах) были заменены вопросительными знаками или квадратами в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты интерпретируют управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение позже было стандартизовано в HTML5.

Mac Roman

The Apple Компьютер Macintosh представил кодировку символов под названием Mac Roman в 1984 году. Она была предназначена для западноевропейских настольных издательских систем. Это надмножество ASCII, и в нем есть большинство символов из ISO-8859-1 и все дополнительные символы из Windows-1252, но в совершенно другом расположении. Несколько печатных символов, которые есть в ISO 8859-1, но не в этом наборе, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac.

В других

DOS была кодовая страница 850, на которой были все печатаемые символы, которые были в ISO-8859-1 (хотя и в совершенно другом расположении), плюс наиболее широко используемые графические символы из кодовой страницы 437.

Между 1989 и 2015 годами Hewlett-Packard использовала другой расширенный набор ISO-8859-1 на многих своих калькуляторах. Этот собственный набор символов иногда также назывался просто «ECMA-94».

См. Также

Ссылки

Внешние ссылки

Последняя правка сделана 2021-05-23 07:55:46
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте