Алгоритм сопоставления Unicode

редактировать

Алгоритм сопоставления Unicode (UCA ) - это алгоритм, определенный в техническом отчете Unicode № 10, который представляет собой настраиваемый метод для создания двоичных ключей из строк, представляющих текст в любой системе письма и язык, который может быть представлен с помощью Unicode. Затем эти ключи можно эффективно сравнивать побайтово, чтобы сопоставить или отсортировать их в соответствии с правилами языка, с опциями для игнорирования регистра, акцентов и т. Д.

Unicode Технический отчет № 10 также определяет таблицу элементов сопоставления Unicode по умолчанию (DUCET). Этот файл данных определяет порядок сортировки по умолчанию. DUCET настраивается для разных языков. Некоторые из таких настроек можно найти в репозитории данных Unicode Common Locale (CLDR).

Реализация UCA с открытым исходным кодом включена в Международные компоненты для Unicode, ICU. ICU поддерживает адаптацию, а настройки сортировки из CLDR включены в ICU. Эффекты адаптации и многие языковые адаптации отображаются в интерактивном ICU Locale Explorer .

См. Также

Внешние ссылки

Инструменты

Последняя правка сделана 2021-06-20 11:00:41
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте