Стандартная схема сжатия для Unicode

редактировать

Стандартная схема сжатия для Unicode (SCSU) - это технический стандарт Unicode для сокращения количества байтов, необходимых для представления текста Unicode (в то время как иногда полезно, оно имеет риски для безопасности, и более простая кодировка UTF-8 обычно лучше), особенно если этот текст использует в основном символы из одного или небольшого количества блоков символов для каждого языка. Это достигается путем динамического отображения значений в диапазоне 128–255 на смещения в определенных блоках по 128 символов. Начальные условия кодировщика означают, что существующие строки в ASCII и ISO-8859-1, которые не содержат управляющих кодов C0, кроме NULL TAB CR и LF, могут рассматриваться как строки SCSU. Поскольку большинство алфавитов находятся в блоках смежных кодовых точек Unicode, тексты, в которых используются маленькие алфавиты и знаки препинания или знаки препинания ASCII, которые умещаются в окне для основного алфавита, могут быть закодированы по одному байту на символ (плюс накладные расходы на настройку, которые для распространенных языков равны часто только 1 байт), большинство других знаков препинания можно закодировать из расчета 2 байта на символ посредством неблокирующего сдвига. SCSU также может переключаться на UTF-16 внутри для обработки неалфавитных языков.

Symbian OS, операционная система для мобильных телефонов и других мобильных устройств, использует SCSU для сериализации строк.

Reuters, организация, выпустившая первый проект SCSU, как полагают, использует SCSU для внутренних целей.

SQL Server 2008 R2 использует SCSU для сжатия значений Unicode (это означает из строк в кодировке UCS-2 ), хранящихся в столбцах nchar (n) и nvarchar (n), обеспечивая экономию места между 15% и 50% (в то время как UTF-8 уже имеет это сокращение на 50% для ASCII подмножества Unicode), в зависимости от языка данных.

Содержание
  • 1 Сравнение со схемами сжатия обычного текста общего назначения
  • 2 В HTML
  • 3 См. Также
  • 4 Ссылки
Сравнение со схемами сжатия обычного текста общего назначения

По сравнению со схемами сжатия обычного текста общего назначения компрессоры целевого назначения, использование SCSU не обязательно. Немногим приложениям нужно сжимать такой объем текста Unicode, что стоит использовать специальную схему сжатия, которая не имеет широкой поддержки. Кроме того, хотя его можно использовать в качестве кодировки текста, с ним может быть трудно справиться внутренне.

Рассматриваемый исключительно как алгоритм сжатия, SCSU уступает наиболее часто используемым алгоритмам общего назначения для текстов размером более нескольких килобайт.

У SCSU есть то преимущество, что он может с пользой сжимать тексты длиной всего несколько символов, тогда как большинству полномасштабных компрессоров требуются сотни байтов данных для безубыточности с учетом собственных накладных расходов. В Symbian OS SCSU используется даже для операций с буфером обмена, например Вырезание, копирование и вставка небольших строк текста.

В HTML

Поддержка SCSU в HTML документах запрещена стандартами HTML W3C и WHATWG, как это было бы представляют уязвимость межсайтового скриптинга.

См. также
Ссылки
  1. ^«UTS # 6: Схема сжатия для Unicode». 2005-05-06. Проверено 13 июня 2008. SCSU определяет компактную кодировку, которая иногда бывает полезной. Однако текст Unicode гораздо чаще хранится и передается в UTF-8, который менее компактен (за исключением ASCII ), намного проще и не представляет никаких проблем с безопасностью. Для более длинных текстов широко применяется сжатие общего назначения.
  2. ^«Реализация сжатия Unicode (электронная документация по SQL Server 2008 R2)». Проверено 18 августа 2008 г.
  3. ^«8.2.2.3. Кодировки символов». Стандарт HTML 5.1. W3C.
  4. ^«8.2.2.3. Кодировки символов». HTML 5 Стандарт. W3C.
  5. ^«12.2.3.3 Кодировки символов». Уровень жизни HTML. WHATWG.
  6. ^"- HTML ". MDN Web Docs. Mozilla.
Последняя правка сделана 2021-06-09 07:35:50
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте