Наборы символов западной латиницы (вычисления)

редактировать

Несколько двоичных представлений 8-битных наборов символов для общих Западноевропейских языков сравниваются в этой статье. Эти кодировки были разработаны для представления итальянского, испанского, португальского, французского, немецкого, Голландский, английский, датский, шведский, норвежский и исландский, в которых используется Латинский алфавит, несколько дополнительных букв и буквы с предварительно составленными диакритическими знаками, некоторые знаки препинания и различные символы (включая некоторые греческие буквы). Хотя их называют «западноевропейскими», на многих из этих языков говорят во всем мире. Кроме того, эти наборы символов поддерживают многие другие языки, такие как малайский, суахили и классическая латынь.

. Этот материал технически устарел и был функционально заменен на Юникод. Однако он по-прежнему имеет исторический интерес.

Содержание

  • 1 Обзор
  • 2 История
    • 2.1 Знак евро
  • 3 Таблица сравнения
  • 4 Примечания
  • 5 Ссылки

Обзор

The ISO-8859 серия наборов символов 8bit кодирует все наборы символов Latin, используемые в Европе, хотя одни и те же кодовые точки имеют несколько применений, вызывающих определенные трудности (включая моджибаке или искаженные символы, а также проблемы со связью). Появление Unicode с уникальной кодовой точкой для каждого глифа устранило эти проблемы.

История

Более ранние семь- бит США Американский стандартный код для обмена информацией Кодировка ('ASCII') содержит символы, достаточные для правильного представления только нескольких языков, таких как английский, латынь, малайский и суахили. В нем отсутствуют некоторые буквы и буквенно-диакритические комбинации, используемые в других языках латинского алфавита. Однако, поскольку на большинстве компьютерных платформ, поставляемых в США, другого выбора не было, использование ASCII было неизбежным, за исключением тех случаев, когда существовала сильная национальная вычислительная промышленность. Существовала группа кодировок ISO 646, которая заменяла некоторые символы в ASCII локальными символами, но пространство было очень ограничено, а некоторые замененные символы были довольно распространены в таких вещах, как языки программирования.

Большинство компьютеров внутри используют восьмибитные байты, но для связи (которая по своей природе ненадежная) использовалось семь битов данных плюс один бит четности. Со временем стало обычным использовать все восемь бит для данных, создавая пространство для еще 128 символов. Вначале большинство из них были специфичными для системы, но постепенно появились стандарты ISO / IEC 8859, чтобы обеспечить некоторую кросс-платформенную схожесть для обмена информацией.

К концу В 20-м веке, когда снизились затраты на хранение и память, проблемы, связанные с множественными значениями данного восьмибитного кода (существует только семь наборов кодов ISO-Latin), перестали быть оправданными. Все основные операционные системы перешли на Unicode в качестве основного внутреннего представления. Однако, поскольку Windows не поддерживала метод кодирования Unicode UTF-8 (предпочитая UTF-16 ), многие приложения по-прежнему ограничивались этими устаревшими наборами символов.

Знак евро

Знак евро и его знак евро оказали значительное давление на поддержку знака евро (€) и большинства 8-битных наборы символов пришлось как-то адаптировать.

  • Apple с MacRoman и Sun Microsystems с OS Solaris просто заменили общий знак валюты (¤ ). Это вызвало значительные трудности, поскольку организации нашли ему другое применение, например, логотип компании.
  • ISO представила дополнительный вариант ISO 8859, ISO 8859-15, который заменил общую валюту знак евро, а также некоторые другие замены символов буквами с диакритическими знаками. ISO 8859-15 так и не получил широкого распространения.
  • В Windows-1252 Microsoft поместила знак евро в пробел (позиция 80 шестнадцатеричный) в существующем Контрольные коды C1.

Все эти проблемы были решены, поскольку операционные системы были обновлены для поддержки Unicode в качестве стандарта, который кодирует знак евро в U + 20AC (десятичное число 8364).

Таблица сравнения

Кодовые точки от U + 0000 до U + 007F в настоящее время не показаны в этой таблице, поскольку они напрямую отображаются во всех перечисленных здесь наборах символов. Стандарт кодирования ASCII определяет исходную спецификацию для отображения первых 0–127 символов.

Таблица упорядочена по кодовой точке Unicode. Наборы символов здесь упоминаются их именами IANA в верхнем регистре.

СимволКодовая точкаISO-8859-1 ISO-8859-15 WINDOWS-1252 IBM437 IBM850 MACINTOSH
NBSP U + 00A0A0A0A0FFFFCA
¡ U + 00A1A1A1A1ADADC1
¢ U + 00A2A2A2A29BBDA2
£ U + 00A3A3A3A39C9CA3
¤ U + 00A4A4A4CF
¥ U + 00A5A5A5A59DBEB4
¦ U + 00A6A6A6DD
§ U + 00A7A7A7A7F5A4
¨ U + 00A8A8A8F9AC
© U + 00A9A9A9A9B8A9
ª U + 00AAAAAAAAA6A6BB
« U + 00ABABABABAEAEC7
¬ U + 00ACACACACAAAAC2
SHY U + 00ADADADADF0
® U + 00AEAEAEAEA9A8
¯ U + 00AFAFAFAFEEF8
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
° U + 00B0B0B0B0F8F8A1
± U + 00B1B1B1B1F1F1B1
² U + 00B2B2B2B2FDFD
³ U + 00B3B3B3B3FC
´ U + 00B4B4B4EFAB
µ U + 00B5B5B5B5E6E6B5
U + 00B6B6B6B6F4A6
· U + 00B7B7B7B7FAFAE1
¸ U + 00B8B8B8F7FC
¹ U + 00B9B9B9B9FB
º U + 00BABABABAA7A7BC
» U + 00BBBBBBBBAFAFC8
¼ U + 00BCBCBCACAC
½ U + 00BDBDBDABAB
¾ U + 00BEBEBEF3
¿ U + 00BFBFBFBFA8A8C0
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
À U + 00C0C0C0C0B7CB
Á U + 00C1C1C1C1B5E7
 U + 00C2C2C2C2B6E5
à U + 00C3C3C3C3C7CC
Ä U + 00C4C4C4C48E8E80
Å U + 00C5C5C5C58F8F81
Æ U + 00C6C6C6C69292AE
Ç U + 00C7C7C7C7808082
È U + 00C8C8C8C8D4E9
É U + 00C9C9C9C9909083
Ê U + 00CACACACAD2E6
Ë U + 00CBCBCBCBD3E8
Ì U + 00CCCCCCCCDEED
Í U + 00CDCDCDCDD6EA
Î U + 00CECECECED7EB
Ï U + 00CFCFCFCFD8EC
СимволКодовая точкаISO- 8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
Ð U + 00D0D0D0D0D1
Ñ U + 00D1D1D1D1A5A584
Ò U + 00D2D2D2D2E3F1
Ó U + 00D3D3D3D3E0EE
Ô U + 00D4D4D4D4E2EF
Õ U + 00D5D5D5D5E5CD
Ö U + 00D6D6D6D6999985
× U + 00D7D7D7D79E
Ø U + 00D8D8D8D89DAF
Ù U + 00D9D9D9D9EBF4
Ú U + 00DADADADAE9F2
Û U + 00DBDBDBDBEAF3
Ü U + 00DCDCDCDC9A9A86
Ý U + 00DDDDDDDDED
Þ U + 00DEDEDEDEE8
ß U + 00DFDFDFDFE1E1A7
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
à U + 00E0E0E0E0858588
á U + 00E1E1E1E1A0A087
â U + 00E2E2E2E2838389
ã U + 00E3E3E3E3C68B
ä U + 00E4E4E4E484848A
å U + 00E5E5E5E586868C
æ U + 00E6E6E6E69191BE
ç U + 00E7E7E7E787878D
è U + 00E8E8E8E88A8A8F
é U + 00E9E9E9E982828E
ê U + 00EAEAEAEA888890
ë U + 00EBEBEBEB898991
ì U + 00ECECECEC8D8D93
í U + 00EDEDEDEDA1A192
î U + 00EEEEEEEE8C8C94
ï U + 00EFEFEFEF8B8B95
СимволКодовая точкаISO-8859-1ISO -8859-15WINDOWS-1252IBM437IBM850MACINTOSH
ð U + 00F0F0F0F0D0
ñ U + 00F1F1F1F1A4A496
ò U + 00F2F2F2F2959598
ó U + 00F3F3F3F3A2A297
ô U + 00F4F4F4F4939399
õ U + 00F5F5F5F5E49B
ö U + 00F6F6F6F694949A
÷ U + 00F7F7F7F7F6F6D6
ø U + 00F8F8F8F89BBF
ù U + 00F9F9F9F997979D
ú U + 00FAFAFAFAA3A39C
û U + 00FBFBFBFB96969E
ü U + 00FCFCFCFC81819F
ý U + 00FDFDFDFDEC
þ U + 00FEFEFEFEE7
ÿ U + 00FFFFFFFF9898D8
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
ı U +0131D5F5
ΠU + 0152BC8CCE
œ U + 0153BD9CCF
Š U + 0160A68A
š U + 0161A89A
Ÿ U + 0178BE9FD9
Ž U + 017DB48E
ž U + 017EB89E
ƒ U + 0192839F9FC4
ˆ U + 02C688F6
ˇ U + 02C7FF
˘ U + 02D8F9
˙ U + 02D9FA
˚ U + 02DAFB
˛ U + 02DBFE
˜ U + 02DC98F7
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
˝ U + 02DDFD
Γ U + 0393E2
Θ U + 0398E9
Σ U + 03A3E4
Φ U + 03A6E8
Ω U + 03A9EABD
α U + 03B1E0
δ U + 03B4EB
ε U + 03B5EE
π U + 03C0E3B9
σ U + 03C3E5
τ U + 03C4E7
φ U + 03C6ED
U + 201396D0
U + 201497D1
U+2017F2
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
U + 201891D4
U + 201992D5
U + 201A82E2
U + 201C93D2
U + 201D94D3
U + 201E84E3
U + 202086A0
U + 202187E0
U + 202295A5
U + 202685C9
U + 203089E4
U + 20398BDC
U + 203A9BDD
U + 2044DA
U+207FFC
U+20A79E
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
U+20ACA480(D5)DB
U + 212299AA
U + 2202B6
U + 2206C6
U + 220FB8
U + 2211B7
U + 2219F9
U + 221AFBC3
U + 221EECB0
U + 2229EF
U + 222BBA
U + 2248F7C5
U + 2260AD
U + 2261F0
U + 2264F3B2
U + 2265F2B3
СимволКодовая точкаISO-8859-1ISO-8859- 15WINDOWS-1252IBM437IBM850MACINTOSH
U + 2310A9
U + 2320F4
U + 2321F5
U + 2500C4C4
U + 2502B3B3
U + 250CDADA
U + 2510BFBF
U + 2514C0C0
U + 2518D9D9
U + 251CC3C3
U + 2524B4B4
U + 252CC2C2
U + 2534C1C1
U + 253CC5C5
U + 2550CDCD
U + 2551BABA
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
U + 2552D5
U + 2553D6
U + 2554C9C9
U + 2555B8
U + 2556B7
U + 2557BBBB
U + 2558D4
U + 2559D3
U + 255AC8C8
U + 255BBE
U + 255CBD
U + 255DBCBC
U + 255EC6
U + 255FC7
U + 2560CCCC
U + 2561B5
СимволCo точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
U + 2562B6
U + 2563B9B9
U + 2564D1
U + 2565D2
U + 2566CBCB
U + 2567CF
U + 2568D0
U +2569CACA
U + 256AD8
U + 256BD7
U + 256CCECE
U + 2580DFDF
U + 2584DCDC
U + 2588DBDB
U + 258CDD
U + 2590DE
СимволКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850MACINTOSH
U + 2591B0B0
U + 2592B1B1
U + 2593B2B2
U + 25A0FEFE
U + 25CAD7
U + FB01DE
U + FB02DF
  • Сопоставления кодовых страниц IBM взяты с сайта Unicode, предоставленного Microsoft. См. Документ Консорциума Unicode о различиях между отображениями IBM и Microsoft для этих кодовых страниц.
  • IBM437 и IBM850 определили печатаемые символы для диапазонов управляющих кодов. Хотя их нельзя было использовать при печати текста через DOS, так как они будут захвачены до достижения экрана, они могут использоваться приложениями, которые напрямую используют память экрана.
  • Macintosh имеет Apple logo ⟨⟩ в 0xF0, и преобразует его в U + F8FF в области частного использования для Unicode.

Примечания

Ссылки

Последняя правка сделана 2021-06-20 12:40:32
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте