ISO / IEC 8859

редактировать

Семейство кодировок ISO 8859
СтандартISO / IEC 8859
Классификация8-битный расширенный ASCII, ISO 4873 уровень 1
РасширяетUS-ASCII
ПредыдущийISO 646
ПреемникISO / IEC 10646 (Unicode )
Другая связанная кодировка (и)Windows-125x
  • v
  • t

ISO / IEC 8859 является объединением ISO и серия стандартов IEC для 8-битных кодировок символов. Серия стандартов состоит из пронумерованных частей, например ISO / IEC 8859-1, ISO / IEC 8859-2 и т. Д. Есть 15 частей, не считая заброшенного ISO / IEC 8859-12. Рабочая группа ISO, поддерживающая эту серию стандартов, была распущена.

ISO / IEC 8859 части 1, 2, 3 и 4 изначально были Ecma International стандартом ECMA-94 .

Содержание
  • 1 Введение
  • 2 символа
  • 3 Части ISO / IEC 8859
    • 3.1 Таблица
  • 4 Связь с Unicode и UC S
  • 5 Текущее состояние
  • 6 См. Также
  • 7 Примечания
  • 8 Ссылки
Введение

В то время как битовые шаблоны 95 printable Для обмена информацией в современном английском достаточно символов ASCII, для большинства других языков, использующих латинские алфавиты, требуются дополнительные символы, не охватываемые ASCII. ИСО / МЭК 8859 попытался решить эту проблему, используя восьмой бит в 8-битном байте , чтобы разрешить позиции для других 96 печатаемых символов. Раннее кодирование было ограничено 7 битами из-за ограничений некоторых протоколов передачи данных и частично по историческим причинам. Однако требовалось больше символов, чем могло поместиться в одной 8-битной кодировке символов, поэтому было разработано несколько отображений, в том числе по крайней мере десять, подходящих для различных латинских алфавитов.

Кодировки ISO / IEC 8859-n содержат только печатаемые символы и были разработаны для использования вместе с управляющими символами, сопоставленными с неназначенными байтами. С этой целью серия кодировок, зарегистрированных в IANA, добавляет контрольный набор C0 (управляющие символы отображаются в байты с 0 по 31) из ISO 646 и C1 контрольный набор (управляющие символы сопоставлены байтам со 128 по 159) из ISO 6429, что приводит к полному 8-битному отображению символов с большинством, если не всеми, назначенными байтами. Эти наборы имеют ISO-8859-n в качестве предпочтительного имени MIME или, в случаях, когда предпочтительное имя MIME не указано, их каноническое имя. Многие люди используют термины ISO / IEC 8859-n и ISO-8859-n как синонимы. ISO / IEC 8859-11 не получил такой кодировки, предположительно потому, что он почти идентичен TIS 620.

Символы

Разработан стандарт ISO / IEC 8859 для надежного обмена информацией, а не типографика ; в стандарте отсутствуют символы, необходимые для высококачественной типографики, такие как необязательные лигатуры, фигурные кавычки, тире и т. д. В результате в высококачественных системах набора часто используются собственные или идиосинкразические расширения поверх ASCII и стандартами ISO / IEC 8859 или используйте вместо него Unicode.

Как показывает практика, если символ или символ еще не был частью широко используемого набора символов обработки данных, а также обычно не предоставлялся на клавиатурах пишущих машинок для национального языка, они не попадали в него. Следовательно, были включены направленные двойные кавычки «и», используемые для некоторых европейских языков, но не направленные двойные кавычки «и», используемые для английского и некоторых других языков.

Французский язык не получил своих лигатур œ и, потому что их можно было набрать как «oe». Аналогично, Ÿ, необходимая для текста, состоящего только из заглавных букв, также была удалена. Эти три символа, хотя и под разными кодовыми точками, были позже повторно введены в ISO / IEC 8859-15 в 1999 году, в котором также был введен новый знак евро символ €. Точно так же голландский язык не получил букв ij и IJ, потому что носители голландского языка привыкли набирать их как две буквы.

Румынский язык изначально не получил своих букв Ș / ș и Ț / ț (с запятой ), потому что эти буквы изначально были объединены с / ş и Ţ / ţ (с cedilla ) Консорциумом Unicode, учитывая, что формы с запятой ниже являются вариантами глифа форм с седилем. Однако буквы с явной запятой ниже были позже добавлены в стандарт Unicode, а также в ISO / IEC 8859-16.

Большинство кодировок ISO / IEC 8859 содержат диакритические знаки, необходимые для различных европейских языков с использованием латиницы. сценарий. Другие используют нелатинские алфавиты: греческий, кириллица, иврит, арабский и тайский. Большинство кодировок содержат только пробелов, хотя тайский, еврейский и арабский также содержат комбинирующие символы.

Стандарт не предусматривает сценариев восточноазиатских языков (CJK ), поскольку их идеографические системы письма требуют многих тысяч кодовых точек. Хотя в нем используются символы на основе латиницы, вьетнамский не помещается в 96 позиций (без использования комбинированных диакритических знаков, таких как Windows-1258 ). Каждый японский слоговой алфавит (хирагана или катакана, см. Кана ) подойдет, как в JIS X 0201, но, как и некоторые другие алфавиты мира, они не закодированы в ISO / IEC. Система 8859.

Разделы ISO / IEC 8859

ISO / IEC 8859 разделены на следующие части:

ЧастьНазваниеРедакцииДругие стандартыОписание
Часть 1 Latin-1. Западноевропейская1987, 1998 ECMA-94 (1985, 1986)Возможно, наиболее широко используемая часть ISO / IEC 8859, охватывающая большинство западноевропейских языков: датский (частично), голландский (частично), английский, фарерский, финский (частично), французский (частично), немецкий, исландский, ирландский, итальянский, норвежский, португальский, рето-романский, шотландский гэльский, испанский, каталонский и шведский. Охватываются также языки из других частей мира, в том числе: восточноевропейский албанский, юго-восточноазиатский индонезийский, а также африканские языки африкаанс и Суахили. Отсутствующий знак евро и заглавная буква Ÿ присутствуют в новой версии ISO / IEC 8859-15 (см. Ниже). Соответствующий набор символов IANA - ISO-8859-1.
Часть 2 Latin-2. Центральноевропейская1987, 1999 ECMA-94 (1986)Поддерживает центральные и Восточноевропейские языки, использующие латинский алфавит, включая боснийский, польский, хорватский, чешский, словацкий, словенский, сербский и венгерский. Отсутствующий знак евро можно найти в версии ISO / IEC 8859-16.
Часть 3 Latin-3. Южноевропейский1988, 1999 Турецкий, Мальтийский и Эсперанто. В значительной степени заменен ISO / IEC 8859-9 для турецкого языка.
Часть 4 Latin-4. Северная Европа1988, 1998 Эстонский, Латышский, Литовский, гренландский и саамский.
часть 5 латынь / кириллица1988, 1999 ECMA-113 (1988, 1999)Охватывает в основном славянские языки с кириллицей, включая белорусский, болгарский, македонский, русский, сербский и украинский (частично).
часть 6 латинский / арабский1987, 1999 ASMO 708 (1986) / ECMA-114 (1986, 2000)Охватывает наиболее распространенные символы арабского языка. Не поддерживает другие языки, использующие арабский шрифт. Необходимо обработать BiDi и курсивное соединение для отображения.
Часть 7 Латинский / Греческий1987, 2003 ELOT 928 (1986) / ECMA-118 (1986)Охватывает современный греческий язык (монотонная орфография ). Также может использоваться для древнегреческого греческого, написанного без ударения или в монотонной орфографии, но без диакритических знаков для политонической орфографии. Они были введены в Unicode.
Часть 8 Латинский / Иврит1988, 1999 ECMA-121 (1987, 2000) / SI 1311 (2002 )Охватывает современный еврейский алфавит, используемый в Израиле. На практике существуют две разные кодировки: логический порядок (должен быть BiDi обработан для отображения) и визуальный (слева направо). -право) порядок (фактически, после обработки двунаправленного текста и разрыва строки).
Часть 9 Latin-5. Турецкий1989, 1999 ECMA-128 (1988, 1999)В основном то же, что и ISO / IEC 8859-1, с заменой редко используемых исландских букв на турецких.
Часть 10 Latin-6. Nordic1992, 1998 ECMA-144 (1990, 1992, 2000)Перегруппировка Latin- 4. Считается более полезным для скандинавских языков. В балтийских языках больше используется Latin-4.
Часть 11 Latin / Thai2001 TIS-620 (1990)Содержит символы, необходимые для тайского языка. Практически идентичны TIS 620.
Часть 12 Latin / D evanagariN / A-Работа по созданию части 8859 для Деванагари была официально прекращена в 1997 году. ISCII и Unicode / ISO / IEC 10646 охват Деванагари.
Часть 13 Latin-7. Baltic Rim1998 -Добавлены некоторые символы для балтийских языков, которые отсутствовали в Latin-4 и Latin-6. Относится к ранее опубликованной Windows-1257.
Part 14 Latin-8. Celtic1998 -Охватывает кельтские языки, такие как Gaelic и Бретонский язык.
Часть 15 Latin-91999 -Редакция 8859-1, в которой удалены некоторые малоиспользуемые символы, заменены на знак евро € и буквы Š, š, Ž, ž, Œ, œ и Ÿ, что завершает охват французского, финского и эстонского.
части 16 латыни -10. Юго-Восточная Европа2001 SR 14111 (1998)Предназначено для албанцев, хорватов, Венгерский, итальянский, польский, румынский и словенский, а также финский, французский, немецкий и ирландский Гэльский (новая орфография). Акцент делается больше на буквы, чем на символы. Знак валюты заменяется знаком евро.

Каждая часть ISO / IEC 8859 разработана для поддержки языков, которые часто заимствуют друг у друга, поэтому символы, необходимые для каждого языка, обычно используются одной частью. Однако есть некоторые символы и языковые комбинации, которые нельзя использовать без транскрипции. Были приложены усилия, чтобы преобразование было максимально плавным. Например, в немецком языке все семь специальных символов находятся на одних и тех же позициях во всех латинских вариантах (1–4, 9, 10, 13–16), и во многих позициях символы различаются только диакритическими знаками между наборами. В частности, варианты 1–4 были разработаны совместно и обладают тем свойством, что каждый закодированный символ появляется либо в определенной позиции, либо не появляется вовсе.

Таблица

Сравнение различных частей (1–16) ISO / IEC 8859
Двоичный Окт Dec Hex 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16
1010 0000240160A0Неразрывный пробел (NBSP)
1010 0001241161A1¡ Ą Ħ Ą Ё ¡ Ą ¡ Ą
1010 0010242162A2¢ ˘ ĸ Ђ ¢ ¢ Ē ¢ ¢ ą
1010 0011243163A3£ Ł £ Ŗ Ѓ £ Ģ £ Ł
1010 0100244164A4¤ Є ¤ ¤ Ī ¤ Ċ
1010 0101245165A5¥ Ľ Ĩ Ѕ ¥ Ĩ ċ ¥
1010 0110246166A6¦ Ś Ĥ Ļ І ¦ Ķ ¦ Š
1010 0111247167A7§ Ї § §
1010 1000250168A8¨ Ј ¨ Ļ Ø š
1010 1001251169A9© Š İ Š Љ © Đ ©
1010 1010252170AAª Ş Ē Њ ͺ × ª Š Ŗ ª Ș
1010 1011253171AB« Ť Ğ Ģ Ћ « Ŧ « «
1010 1100254172AC¬ Ź Ĵ Ŧ Ќ ، ¬ Ž ¬ ¬ Ź
1010 1101255173ADМягкий дефис (SHY) SHY
1010 1110256174AE® Ž Ž Ў ® Ū ® ź
1010 111125 7175AF¯ Ż ¯ Џ ¯ Ŋ Æ Ÿ ¯ Ż
1011 0000260176B0° А ° ° °
1011 0001261177B1± ą ħ ą Б ± ą ± ±
1011 0010262178B2² ˛ ² ˛ В ² ē ² Ġ ² Č
1011 0011263179B3³ ł ³ ŗ Г ³ ģ ³ ġ ³ ł
1011 0100264180B4´ Д ΄ ´ ī Ž
1011 0101265181B5µ ľ µ ĩ Е ΅ µ ĩ µ µ
1011 0110266182B6 ś ĥ ļ Ж Ά ķ
1011 0111267183B7· ˇ · ˇ З · · ·
1011 1000270184B8¸ И Έ ¸ ļ ø ž
1011 1001271185B9¹ š ı š Й Ή ¹ đ ¹ ¹ č
1011 1010272186BAº ş ē К Ί ÷ º š ŗ º ș
1011 1011273187BB» ť ğ ģ Л ؛ » ŧ » »
1011 1100274188BC¼ ź ĵ ŧ М Ό ¼ ž ¼ Œ
1011 1101275189BD½ ˝ ½ Ŋ Н ½ ½ œ
1011 1110276190BE¾ ž ž О Ύ ¾ ū ¾ Ÿ
1011 1111277191BF¿ ż ŋ П ؟ Ώ ¿ ŋ æ ¿ ż
1100 0000300192C0À Ŕ À Ā Р ΐ À Ā Ą À
1100 0001301193C1Á С ء Α Á Į Á
1100 0010302194C2Â Т آ Β Â Ā Â
1100 0011303195C3Ã Ă Ã У أ Γ Ã Ć Ã Ă
1100 0100304196C4Ä Ф ؤ Δ Ä Ä
1100 0101305197C5Å Ĺ Ċ Å Х إ Ε Å Å Ć
1100 0110306198C6Æ Ć Ĉ Æ Ц ئ Ζ Æ Ę Æ
1100 0111307199C7Ç Į Ч ا Η Ç Į Ē Ç
1100 1000310200C8È Č È Č Ш ب Θ È Č Č È
1100 1001311201C9É Щ ة Ι É É
1100 1010312202CAÊ Ę Ê Ę Ъ ت Κ Ê Ę Ź Ê
1100 1011313203CBË Ы ث Λ Ë Ė Ë
1100 1100314204CCÌ Ě Ì Ė Ь ج Μ Ì Ė Ģ Ì
1100 1101315205CDÍ Э ح Ν Í Ķ Í
1100 1110316206CEÎЮ خ Ξ Î Ī Î
1100 1111317207CFÏĎ ÏĪ Я د Ο Ï Ļ Ï
двоичный окт декабрь шестнадцатеричный 123456789101113141516
1101 0000320208D0ÐĐ Đ а ذ Π Ğ Ð Š Ŵ Ð
1101 0001321209D1ÑŃ ÑŅ б ر Ρ ÑŅ Ń ÑŃ
1101 0010322210D2ÒŇ ÒŌ в ز ÒŌ Ņ Ò
1101 0011323211D3ÓĶ г س Σ Ó Ó
1101 0100324212D4Ôд ش Τ Ô Ō Ô
1101 0101325213D5ÕŐ Ġ Õе ص Υ Õ Ő
1101 0110326214D6Öж ض Φ Ö Ö
1101 0111327215D7×з ط Χ ×Ũ × ×Ś
1101 1000330216D8ØŘ Ĝ Øи ظ Ψ Ø Ų ØŰ
1101 1001331217D9ÙŮ ÙŲ й ع Ω ÙŲ Ł Ù
1101 1010332218DAÚк غ Ϊ Ú Ś Ú
1101 1011333219DBÛŰ Ûл Ϋ ÛŪ Û
1101 1100334220DCÜм ά ÜÜ
1101 1101335221DDÝŬ Ũ н έ İ ÝŻ ÝĘ
1101 1110336222DEÞ Ţ Ŝ Ū о ή Ş Þ Ž Ŷ Þ Ț
1101 1111337223DFß п ί ß ฿ ß
1110 0000340224E0àŕ àā р ـ ΰ א àā ą à
1110 0001341225E1áс ف α ב á į á
1110 0010342226E2âт ق β ג â ā â
1110 0011343227E3ãă ãу ك γ ד ã ć ãă
1110 0100344228E4äф ل δ ה ä ä
1110 0101345229E5åĺ ċ åх م ε ו å åć
1110 0110346230E6æć ĉ æц ن ζ ז æ ę æ
1110 0111347231E7ç į ч ه η ח ç į ē ç
1110 1000350232E8è č è č ш و θ ט è č č è
1110 1001351233E9é щ ى ι י é é
1110 1010352234EAê ę ê ę ъ ي κ ך ê ę ź ê
1110 1011353235EBë ы ً λ כ ë ė ë
1110 1100354236ECì ě ì ė ь ٌ μ ל ì ė ģ ì
1110 1101355237EDí э ٍ ν ם í ķ í
1110 1110356238EEîю َ ξ מ î ī î
1110 1111357239EFïď ïī я ُ ο ן ï ļ ï
1111 0000360240F0ðđ đ ِ π נ ğ ðš ŵ ðđ
1111 0001361241F1ñń ñņ ё ّ ρ ס ñņ ń ñń
1111 0010362242F2òň òō ђ ْ ς ע òō ņ ò
1111 0011363243F3óķ ѓ σ ף óó
1111 0100364244F4ôє τ פ ôō ô
1111 0101365245F5õő ġ õѕ υ ץ õő
1111 0110366246F6öі φ צ öö
1111 0111367247F7÷ї χ ק ÷ũ ÷ ÷ś
1111 1000370248F8øř ĝ øј ψ ר øų øű
1111 1001371249F9ùů ùų љ ω ש ùų ł ù
111 1 1010372250FAúњ ϊ ת ú ś ú
1111 1011373251FBûű ûћ ϋ û ū û
1111 1100374252FCüќ ό üü
1111 1101375253FDýŭ ũ §ύ LRMı ýż ýę
1111 1110376254FEþ ţ ŝ ū ў ώ RLMş þ ž ŷ þ ț
1111 1111377255FFÿ˙ џ ÿĸ ÿ
Binary Oct Dec Hex 123456789101113141516

В позиции 0xA0 всегда есть неразрывный пробел, а 0xAD - это в основном мягкий дефис, который отображается только в разрывах строки. Другие пустые поля либо не назначены, либо используемая система не может их отобразить.

Есть новых дополнений в виде версий ISO / IEC 8859-7: 2003 и ISO / IEC 8859-8: 1999. LRM означает знак с направлением слева направо (U + 200E), а RLM означает знак с направлением справа налево (U + 200F).

Связь с Unicode и UCS

С 1991 года Консорциум Unicode работал с ISO и IEC над разработкой стандарта Unicode и ISO / IEC 10646 : тандемный универсальный набор символов (UCS). Более новые версии ISO / IEC 8859 выражают символы в терминах их имен Unicode / UCS и нотации U + nnnn, фактически заставляя каждую часть ISO / IEC 8859 быть схемой кодирования символов Unicode / UCS, которая отображает очень небольшое подмножество ПСК в одиночные 8-битные байты. Первые 256 символов в Unicode и UCS идентичны таковым в ISO / IEC-8859-1 (Latin-1 ).

Однобайтовые наборы символов, включая части ISO / IEC 8859 и производные от них, пользовались популярностью на протяжении 1990-х годов, имея преимущества в том, что они хорошо известны и их легче реализовать в программном обеспечении: уравнение одного байта к один символ прост и подходит для большинства одноязычных приложений, и здесь нет комбинируемых символов или вариантов форм. По мере того, как операционные системы с поддержкой Unicode стали более распространенными, ISO / IEC 8859 и другие устаревшие кодировки стали менее популярными. В то время как остатки стандарта ISO 8859 и однобайтовых символьных моделей по-прежнему укоренились во многих операционных системах, языках программирования, системах хранения данных, сетевых приложениях, аппаратном обеспечении дисплея и прикладном программном обеспечении для конечных пользователей, большинство современных вычислительных приложений используют Unicode для внутренних целей и полагаются на преобразование таблицы для сопоставления с другими кодировками, когда это необходимо.

Текущее состояние

Стандарт ISO / IEC 8859 поддерживался Объединенным техническим комитетом ISO / IEC 1, Подкомитетом 2, Рабочей группой 3 (ISO / IEC JTC 1 / SC 2 / WG 3). В июне 2004 г. WG 3 была расформирована, а обязанности по обслуживанию были переданы SC 2. Стандарт в настоящее время не обновляется, так как единственная оставшаяся рабочая группа Подкомитета, WG 2, концентрируется на разработке универсального кодированного набора символов.

Кодировки WHATWG. Стандарт, который определяет кодировки символов, разрешенные в HTML5, которые должны поддерживать совместимые браузеры, включает большинство частей ISO / IEC 8859, за исключением частей 1, 9 и 11, которые вместо этого интерпретируются как Windows- 1252, Windows-1254 и Windows-874 соответственно. Авторам новых страниц и разработчикам новых протоколов рекомендуется использовать UTF-8 вместо.

См. Также
Примечания
Ссылки
  • Опубликованные версии каждой части ISO / IEC 8859 доступны за плату на сайте каталога ISO и в Интернет-магазине IEC.
  • PDF-версии окончательных проектов некоторых частей ISO / IEC 8859, представленных в ISO / IEC JTC 1 / SC 2 / WG 3 для обзора и публикации, доступны на веб-сайте WG 3 :
    • ISO / IEC 8859-1: 1998 - 8-битные однобайтовые наборы графических символов, Часть 1: Латинский алфавит № 1 (черновик от 12 февраля 1998 г., опубликован 15 апреля 1998 г.)
    • ISO / IEC 8859-4: 1998 - 8-битные однобайтовые наборы графических символов, Часть 4: Латинский алфавит № 4 (черновик от февраля 12 января 1998 г., опубликовано 1 июля 1998 г.)
    • ISO / IEC 8859-7: 1999 - 8-битные однобайтовые наборы графических символов, Часть 7: Латинский / греческий алфавит (черновик от 10 июня, 1999; заменен ISO / IEC 8859-7: 2003, опубликованным 10 октября 2003 г.)
    • ISO / IEC 8859-10: 1998 - 8-битные однобайтовые наборы графических символов, Часть 10: Латинский алфавит No. 6 (черновик от 12 февраля 1998 г., опубликован 15 июля 1998 г.)
    • ISO / IEC 8859-11: 1999 - 8-битные однобайтовые наборы графических символов, Часть 11: Набор латинских / тайских символов ( проект от 22 июня 1999 г.; заменен ISO / IEC 8859-11: 2001, опубликован 15 декабря 2001 г.)
    • ISO / IEC 8859-13: 1998 - 8-битные однобайтовые графические наборы символов, Часть 13: Латинский алфавит № 7 (черновик от 15 апреля 1998 г., опубликован 15 октября 1998 г.)
    • ISO / IEC 8859-15: 1998 - 8-битные однобайтовые наборы графических символов, Часть 15: Латинский алфавит № 9 (проект от 1 августа 1997 г.; заменен ISO / IEC 8859-15: 1999, опубликован 15 марта 1999 г.)
    • ISO / IEC 8859-16: 2000 - 8-битный одинарный наборы графических символов с байтовым кодированием, Часть 16: Латинский алфавит № 10 (черновик от 15 ноября 1999 г.; заменен ISO / IEC 8859-16: 2001, опубликован 15 июля 200 г. 1)
  • Стандарты ECMA, которые по замыслу точно соответствуют стандартам набора символов ISO / IEC 8859, можно найти по адресу:
    • Стандарт ECMA-94 : 8-битный однобайтовый графический символ Наборы - латинские алфавиты с №1 по №4, 2-е издание (июнь 1986 г.)
    • Стандартный ECMA-113 : 8-битные однобайтовые графические наборы символов - латинский / кириллический алфавит, 3-е издание (декабрь 1999 г.)
    • Стандартный ECMA-114 : 8-битные однобайтовые графические наборы символов - латинский / арабский алфавит 2-е издание (декабрь 2000 г.)
    • Стандартный ECMA-118 : 8-битные однобайтовые графические символы Наборы символов - латинский / греческий алфавит (декабрь 1986 г.)
    • Стандартный ECMA-121 : 8-битные однобайтовые графические наборы символов - латинский / еврейский алфавит 2-е издание (декабрь 2000 г.)
    • Стандартный ECMA-128 : 8-битные однобайтовые наборы графических символов - латинский алфавит № 5, 2-е издание (декабрь 1999 г.)
    • Стандартный ECMA-144 : 8-битные однобайтовые кодированные символы - латинский алфавит Нет. 6 3-е издание (декабрь 2000 г.)
  • Таблицы сопоставления ISO / IEC 8859-1 в Unicode в виде текстовых файлов находятся на FTP-сайте Unicode.
  • Неофициальные описания и таблицы кодов для большинства стандартов ISO / IEC 8859 доступны в ISO / IEC 8859 Alphabet Soup (Зеркало)
Последняя правка сделана 2021-05-23 07:55:47
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте