Макет кодовой страницы ISO 8859-1 | |
MIME / IANA | ISO-8859-1 |
---|---|
Псевдоним (а) | iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819 |
Язык (и) | Английский, различные другие |
Стандарт | ISO / IEC 8859 |
Классификация | Extended ASCII, ISO 8859 |
Расширяет | US-ASCII |
На основе | DEC MCS |
Соответствует | Windows-1252 (Веб стандарты) |
Другая связанная кодировка ( s) | BraSCII |
|
ISO / IEC 8859-1: 1998, Информационные технологии - 8-битный однобайтный байт графический код символ наборы - Часть 1: Латинский алфавит № 1, является частью серии ISO / IEC 8859 из ASCII стандартных кодировок символов , опубликовано первое издание в 1987 году. ISO 8859-1 кодирует то, что он именует «латинский алфавит № 1», состоящий из 191 символа из e Латинский шрифт. Эта схема кодирования символов используется на всей территории Северной и Южной Америки, Западной Европы, Океании и большей части Африки. Он также обычно используется в большинстве стандартных латинизации восточноазиатских языков. Это основа для большинства популярных 8-битных наборов символов, и первый блок символов в Unicode.
ISO-8859-1 был (по крайней мере, согласно стандартам) кодировкой по умолчанию для документов, доставляемых через HTTP с типом MIME, начинающимся с «text /» (HTML5 изменил это на Windows-1252 ). По состоянию на октябрь 2020 года 1,9% всех (в то время как только 0,8% из первой тысячи) веб-сайтов утверждают, что используют ISO 8859-1. Однако сюда входит неизвестное количество страниц, фактически использующих Windows-1252 и / или UTF-8, которые обычно распознаются браузерами, несмотря на тег набора символов.
Это кодировка по умолчанию для значений некоторых описательных заголовков HTTP, которая определяет набор символов, разрешенных в документах HTML 3.2 (HTML 4.0 использует Unicode, т. Е., UTF-8 ) и определяется многими другими стандартами. Этот и подобные наборы часто считаются кодировкой 8-битного текста в Unix и Microsoft Windows, если нет метки порядка байтов (BOM); это только постепенно меняется на UTF-8.
ISO-8859-1 - предпочтительное имя IANA для этого стандарта, если оно дополнено управляющими кодами C0 и C1 из ISO / IEC 6429. Зарегистрированы следующие другие псевдонимы: iso-ir-100, csISOLatin1, latin1, l1, IBM819 . Кодовая страница 28591 a.k.a. Windows-28591 используется для этого в Windows. IBM называет ее кодовой страницей 819 или CP819 (CCSID 819). Oracle называет ее WE8ISO8859P1 .
Каждый символ кодируется как одно восьмибитовое значение кода. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках:
ISO-8859-1 обычно использовался для некоторых языков, хотя в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствует лишь несколько букв или они используются редко, и их можно заменить символами, которые есть в ISO-8859-1, используя некоторую форму типографского приближения. В следующей таблице перечислены такие языки.
Язык | Отсутствующие символы | Типичное решение | Поддерживается |
---|---|---|---|
каталонским | Ŀ, ŀ (устарело) | L ·, l · | |
датский | Ǿ, ǿ (ударение необязательно, ǿ очень редко) | Ø, ø или øe | |
голландский | IJ, ij (но со спорным статусом ); j́ в подчеркнутых словах, таких как "blíj́f" | орграфы IJ, ij; blíjf | |
эстонский | Š, š, Ž, ž (присутствует только в заимствованных словах) | Sh, sh, Zh, zh | ISO-8859-15, Windows-1252 |
Финский | Š, š, Ž, ž (присутствует только в заимствованных словах) | Ш, ш, Ж, ж | ISO- 8859-15, Windows-1252 |
французский | Œ, œ и очень редкие Ÿ | диграфы OE, oe; Y или Ý | ISO-8859-15, Windows-1252 |
Немецкий | ẞ (заглавная буква ß, используется только во всех заглавных буквах; включена в официальную орфографию в 2017 году, все еще необязательно) | орграф SS | |
венгерский | Ő, ő, Ű, ű | Ö, ö, Ü, ü | ISO / IEC 8859-2, Windows-1250 |
ирландский (традиционная орфография ) | Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ | Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, th | ISO -8859-14 |
валлийский | Ẁ, ẁ, Ẃ, ẃ, Ŵ, ŵ, Ẅ, ẅ, Ỳ, ỳ, Ŷ, ŷ, Ÿ | W, w, Y, y, Ý, ý | ISO-8859-14 |
Буква ÿ, которая встречается во французском языке очень редко., в основном в названиях городов, таких как L'Haÿ-les-Roses и никогда в начале слов, включается только в строчной форме. Слот, соответствующий его прописной форме, занимает строчная буква ß из немецкого языка, в котором не было прописной формы во время создания стандарта.
Для некоторых языков, перечисленных выше, правильные типографские кавычки отсутствуют, поскольку только «»
, ""
и ''
включены. Также в этой схеме не предусмотрены ориентированные (6- или 9-образные) одинарные или двойные кавычки. Некоторые шрифты будут отображать серьезный акцент (0x60) и апостроф (0x27) в виде пары совпадающих ориентированных одинарных кавычек, но это не считается частью современного стандарта.
ISO 8859-1 был основан на многонациональном наборе символов, используемом Digital Equipment Corporation (DEC) в популярном Терминал VT220 в 1983 году. Он был разработан в рамках Европейской ассоциации производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA-94, под этим названием он до сих пор иногда известен. Второе издание ECMA-94 (июнь 1986 г.) также включало ISO 8859-2, ISO 8859-3 и ISO 8859-4 как часть Технические характеристики.
В исходном проекте ISO 8859-1 французские Œ и œ помещались в кодовые точки 215 (0xD7) и 247 (0xF7), как в ECMA-94. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не независимые французские буквы сами по себе, а всего лишь лигатуры (например, or или), поддерживаемые командой делегатов из, которые в то время регулярно не печатали французский язык с with / œ в своем домашнем стиле. Англоязычный делегат из Канады настоял на сохранении / œ, но получил отказ от французского делегата и команды из Bull. Эти кодовые точки вскоре были заполнены знаками × и ÷ по предложению немецкой делегации. Затем дела пошли еще хуже для французского языка, когда снова было ошибочно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной. Фактически, буква ÿ встречается во многих французских именах собственных, а заглавная буква используется в словарях и энциклопедиях. Эти символы были добавлены в ISO / IEC 8859-15: 1999. BraSCII соответствует исходному черновику.
В 1985 году Commodore принял ECMA-94 для своей новой операционной системы AmigaOS. Ударный матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку.
В 1990 году самая первая версия Unicode использовала кодовые точки ISO-8859 -1 в качестве первых 256 кодовых точек Unicode.
В 1992 году IANA зарегистрировала карту символов ISO_8859-1: 1987, более известную под своим предпочтительным именем MIME ISO-8859-1 (обратите внимание на дополнительный дефис по сравнению с ISO 8859-1), расширенный набор ISO 8859-1, для использования в Интернете. Эта карта назначает управляющие коды C0 и C1 неназначенным кодовым значениям, таким образом, обеспечивает 256 символов через каждое возможное 8-битное значение.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_. 0 | ||||||||||||||||
1_. 16 | ||||||||||||||||
2_. 32 | SP. 0020 | !. 0021 | ". 0022 | #. 0023 | $. 0024 | %. 0025 | . 0026 | '. 0027 | (. 0028 | ). 0029 | *. 002A | +. 002B | ,. 002C | -. 002D | .. 002E | /. 002F |
3_. 48 | 0. 0030 | 1. 0031 | 2. 0032 | 3. 0033 | 4. 0034 | 5. 0035 | 6. 0036 | 7. 0037 | 8. 0038 | 9. 0039 | :. 003A | ;. 003B | <. 003C | =. 003D | >. 003E | ?. 003F |
4_. 64 | @. 0040 | A. 0041 | B. 0042 | C. 0043 | D. 0044 | E. 0045 | F. 0046 | G. 0047 | H. 0048 | I. 0049 | J. 004A | K. 004B | L. 004C | M. 004D | N. 004E | O. 004F |
5_. 80 | P. 0050 | Q. 0051 | R. 0052 | S. 0053 | T. 0054 | U. 0055 | V. 0056 | W. 0057 | X. 0058 | Y. 0059 | Z. 005A | [. 005B | \. 005C | ]. 005D | ^. 005E | _. 005F |
6_. 96 | `. 0060 | a. 0061 | b. 0062 | c. 0063 | d. 0064 | e. 0065 | f. 0066 | g. 0067 | h. 0068 | i. 0069 | j. 006A | k. 006B | l. 006C | m. 006D | n. 006E | o. 00 6F |
7_. 112 | p. 0070 | q. 0071 | r. 0072 | s. 0073 | t. 0074 | u. 0075 | v. 0076 | w. 0077 | x. 0078 | y. 0079 | z. 007A | {. 007B | |. 007C | }. 007D | ~. 007E | |
8_. 128 | ||||||||||||||||
9_. 144 | ||||||||||||||||
A_. 160 | NBSP. 00A0 | ¡. 00A1 | ¢. 00A2 | £. 00A3 | ¤. 00A4 | ¥. 00A5 | ¦. 00A6 | §. 00A7 | ¨. 00A8 | ©. 00A9 | ª. 00AA | «. 00AB | ¬. 00AC | SHY. 00AD | ®. 00AE | ¯. 00AF |
B_. 176 | °. 00B0 | ±. 00B1 | ². 00B2 | ³. 00B3 | ´. 00B4 | µ. 00B5 | ¶. 00B6 | ·. 00B7 | ¸. 00B8 | ¹. 00B9 | º. 00BA | ». 00BB | ¼. 00BC | ½. 00BD | ¾. 00BE | ¿. 00BF |
C_. 192 | À. 00C0 | Á. 00C1 | Â. 00C2 | Ã. 00C3 | Ä. 00C4 | Å. 00C5 | Æ. 00C6 | Ç. 00C7 | È. 00C8 | É. 00C9 | Ê. 00CA | Ë. 00CB | Ì. 00CC | Í. 00CD | Î. 00CE | Ï. 00CF |
D_. 208 | Ð. 00D0 | Ñ. 00D1 | Ò. 00D2 | Ó. 00D3 | Ô. 00D4 | Õ. 00D5 | Ö. 00D6 | ×. 00D7 | Ø. 00D8 | Ù. 00D9 | Ú. 00DA | Û. 00DB | Ü. 00DC | Ý. 00DD | Þ. 00DE | ß. 00DF |
E_. 224 | à. 00E0 | á. 00E1 | â. 00E2 | ã. 00E3 | ä. 00E4 | å. 00E5 | æ. 00E6 | ç. 00E7 | è. 00E8 | é. 00E9 | ê. 00EA | ë. 00EB | ì. 00EC | í. 00ED | î. 00EE | ï. 00EF |
F_. 240 | ð. 00F0 | ñ. 00F1 | ò. 00F2 | ó. 00F3 | ô. 00F4 | õ. 00F5 | ö. 00F6 | ÷. 00F7 | ø. 00F8 | ù. 00F9 | ú. 00FA | û. 00FB | ü. 00FC | ý. 00FD | þ. 00FE | ÿ. 00FF |
Letter Число Пунктуация Символ Другое Не определено Не определено в первом выпуске ECMA-94 (1985). Однако в первоначальном черновике Œ находилась в кодовой точке 215 (0xD7), а œ - в кодовой точке 247 (0xF7).
ISO / IEC 8859-15 были разработаны в 1999 году как обновление ISO / IEC 8859-1. Он предоставляет некоторые символы для текста на французском и финском языках и знак евро, которые отсутствуют в ISO / IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO / IEC 8859-1, включая символы дроби и диакритические знаки без букв: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
и ¾
. По иронии судьбы, три из недавно добавленных символов (Œ
, œ
и Ÿ
) уже присутствовали в DEC 1983 года Многонациональный набор символов (MCS), предшественник ISO / IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь были повторно использованы для других целей, символы пришлось повторно вводить под другими, менее логичными кодовыми точками.
ISO-IR-204, более незначительная модификация, была зарегистрирована в 1998 году, изменив ISO-8859-1 путем замены знака универсальной валюты (¤) на знак евро ( такая же замена, сделанная ISO-8859-15).
Популярный набор символов Windows-1252 добавляет все отсутствующие символы, предусмотренные ISO / IEC 8859-15, а также количество типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 (шестнадцатеричный от 80 до 9F). Очень часто неправильно маркировать текст Windows-1252 как находящийся в ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданные с помощью «умных кавычек» в текстовых редакторах) были заменены вопросительными знаками или квадратами в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты интерпретируют управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение позже было стандартизовано в HTML5.
The Apple Компьютер Macintosh представил кодировку символов под названием Mac Roman в 1984 году. Она была предназначена для западноевропейских настольных издательских систем. Это надмножество ASCII, и в нем есть большинство символов из ISO-8859-1 и все дополнительные символы из Windows-1252, но в совершенно другом расположении. Несколько печатных символов, которые есть в ISO 8859-1, но не в этом наборе, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac.
DOS была кодовая страница 850, на которой были все печатаемые символы, которые были в ISO-8859-1 (хотя и в совершенно другом расположении), плюс наиболее широко используемые графические символы из кодовой страницы 437.
Между 1989 и 2015 годами Hewlett-Packard использовала другой расширенный набор ISO-8859-1 на многих своих калькуляторах. Этот собственный набор символов иногда также назывался просто «ECMA-94».