Единый код хангыль

редактировать
Кодировка символов Windows для корейского языка
Унифицированный код хангыль
Unified Hangul Code.svg Макет единого кода хангыль
Псевдоним (а)Кодовая страница Windows 949, IBM Code Page 1363
Язык (и)Корейский
СтандартСтандарт кодирования WHATWG (как «EUC-KR»)
КлассификацияРасширенный ISO 646, кодирование с переменной шириной, кодирование CJK
РасширяетEUC-KR
Другие связанные кодировкиKPS 9566 -2003, KPS 9566-2011
  • v
  • t

Унифицированный код хангыль (UHC ) или Расширенный Wa nsung, также известный под Microsoft Windows как Кодовая страница 949 (Windows-949, MS949 или двусмысленно CP949 ), это кодовая страница Microsoft Windows для корейского языка. Это расширение кода Wansung (KS C 5601 : 1987, кодируется как EUC-KR ), включающее все 11172 слоги хангыль, присутствующие в Johab (KS C 5601: 1992 приложение 3). Это соответствует заранее составленным слогам, доступным в Unicode 2.0 и более поздних версиях.

Код Wansung имеет недостаток, заключающийся в том, что он назначает коды только для 2350 предварительно составленных слогов хангыль, которые имеют свои собственные кодовые точки KS X 1001 (KS C 5601) (из 11172 в целом, не считая те, которые используют устаревшее jamo), и требует, чтобы другие использовали восьмибайтовые последовательности композиции, которые не поддерживаются некоторыми частичными реализациями стандарта. UHC решает эту проблему, присваивая единые коды для всех возможных слогов, созданных с использованием современного джамо, путем выполнения назначений вне пространства кодирования, используемого для KS X 1001.

Диапазон ведущих байтов расширен до 0x 81 – FE, а диапазон байтов следа расширен до 0x41–5A, 0x61–7A и 0x81 – FE (в EUC-KR оба диапазона равны 0xA1 – FE). Коды вне диапазонов EUC-KR используются для дополнительного хангыля.

Содержание
  • 1 Терминология
  • 2 Сноски
  • 3 Ссылки
  • 4 Внешние ссылки
Терминология

Унифицированный код хангыль не зарегистрирован в IANA в качестве стандарта для передачи информации через Интернет. Альтернативы включают UTF-8. Однако стандарт кодирования W3C / WHATWG, используемый HTML5, включает расширения унифицированного кода хангыль в свое определение «EUC-KR».

Microsoft присваивает Windows-949 метку «ks_c_5601-1987», которая правильно применяется к самому KS X 1001 (KS C 5601 является исходным названием KS X 1001). WHATWG рассматривает метку «ks_c_5601-1987» как синоним «EUC-KR» с целью «совместимости с развернутым контентом». Коллекция отозванных сопоставлений Консорциума Unicode «OBSOLETE / EASTASIA» включала сопоставления для Unified Hangul Code как «KSC5601.TXT» с автоматически полученными сопоставлениями для 7-битного KS X 1001, включенными как «KSX1001».TXT ".

Кодовая страница IBM 949 является еще одним расширением EUC-KR, не имеющим отношения к нему. Международные компоненты для Unicode (ICU) используют «cp949», «949» или «ibm-949» для обозначения этой кодовой страницы IBM, а «ms949» или «windows-949» (или несколько вариантов «ks_c_5601-1987») для обозначения отображения UHC в Windows. Python, напротив, распознает «cp949», «949», «ms949» и «uhc» как метки для UHC и не включить кодек IBM-949. Из этикеток, содержащих номер кодовой страницы, WHATWG распознает только "windows-949".

Кодовая страница IBM для Unified Hangul Code называется Code page 1363 (IBM- 1363 ) или "Korean MS-Win". Это комбинация SBCS кодовой страницы 1126 и DBCS кодовой страницы 1362. Она отличается тем, что имеет однобайтовое отображение 0x5C в знак выигрыша (U + 20А9); Windows отображает 0x5C в U + 005C (кодовая точка Unicode для обратной косой черты ), как в ASCII, хотя шрифты часто по-прежнему отображают его как знак Won. Отображение Unicode волнового тире ( 0xA1AD) также отличается: отображение IBM отдает предпочтение U + 301C, а отображение Microsoft - U + 223C (оператор тильды). Отображение IBM для UHC доступно как "ibm-1363" в ICU, тогда как кодек ICU "windows-949" упоминается как IBM-1261 в некоторых комментариях к исходному коду ICU.

Сноски
Ссылки
Внешние ссылки
Последняя правка сделана 2021-06-20 11:03:13
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте