Скрипт (Юникод)

редактировать
Подмножество символов в Юникоде Армянский скрипт

В Юникод, a сценарий представляет собой набор букв и других письменных знаков, используемых для представления текстовой информации в одной или нескольких системах письма. Некоторые скрипты поддерживают одну и только одну систему письма и язык, например, армянский. Другие скрипты поддерживают множество различных систем письма; например, латинский шрифт поддерживает английский, французский, немецкий, итальянский, вьетнамский, латинский и несколько других языков. Некоторые языки используют несколько альтернативных систем письма и, следовательно, также используют несколько сценариев; например, в турецком, арабский шрифт использовался до 20-го века, но перешел на латынь в начале 20-го века. Список языков, поддерживаемых каждым скриптом, см. В списке языков , написав system. Более или менее дополнительными к скриптам являются символы и управляющие символы Unicode .

Унифицированные диакритические символы и унифицированные знаки препинания часто имеют «общие» или «унаследованное» свойство скрипта. Однако отдельные шрифты часто имеют свои собственные знаки препинания и диакритические знаки, поэтому многие шрифты включают не только буквы, но также диакритические и другие знаки, знаки препинания, цифры и даже свои собственные идиосинкразические символы. и пробел символов.

Unicode 13.0 определяет 154 отдельных сценария, включая 91 современный сценарий и 63 древних или исторических сценария. Другие сценарии находятся в процессе кодирования или предварительно выделены для кодирования в дорожных картах.

Содержание
  • 1 Определение и классификация
    • 1.1 Сравнение сценария и системы письма
    • 1.2 Особые значения свойств сценария
  • 2 Символ категории в скриптах
  • 3 Список скриптов в Unicode
  • 4 См. также
  • 5 Ссылки
Определение и классификация

Когда несколько языков используют один и тот же скрипт, часто есть некоторые различия : особенно в диакритических знаках и других знаках. Например, в шведском и английском языках используется латинский алфавит. Тем не менее, шведский включает в себя символ «å» (иногда называемый «шведским O»), тогда как английский не имеет такого символа. В английском языке также не используется диакритический объединяющий круг выше для любого символа. Как правило, языки, использующие одни и те же сценарии, имеют много одинаковых символов. Несмотря на эти периферийные различия в шведской и английской системах письма, говорят, что они используют один и тот же латинский шрифт. Таким образом, абстракция сценариев Unicode - это основной метод организации. Различия между разными алфавитами или системами письма сохраняются и поддерживаются с помощью гибких сценариев Unicode, сочетающих метки и алгоритмы сопоставления.

Сценарий против системы письма

"Система письма "иногда рассматривается как синоним сценария. Однако он также может использоваться как конкретная конкретная система письма, поддерживаемая сценарием. Например, вьетнамский система письма поддерживается латинским шрифтом. Система письма может также охватывать более одного письма, например, японская система письма использует хань, хирагана и катакана шрифты.

Большинство систем письма можно условно разделить на несколько категорий: логографические, слоговые, буквенные (или segmental ), abugida, abjad и featural ; однако все особенности любого из них могут быть найдены в любой данной системе письма в различных пропорциях, часто затрудняет чисто категоризацию системы. Термин сложная система иногда используется для описания тех, в которых примесь делает классификацию проблематичной.

Unicode поддерживает все эти типы записи g через многочисленные скрипты. Unicode также добавляет дополнительные свойства к символам, чтобы помочь различать различные символы и их поведение в алгоритмах обработки текста Unicode.

Особые значения свойств скрипта

В дополнение к явным или специфическим свойствам скрипта Unicode использует три специальных значения:

Common
Unicode может назначать символ в UCS только для одного скрипта. Однако многие символы - те, которые не являются частью формальной системы письма естественного языка или унифицированы во многих системах письма, могут использоваться более чем в одном алфавите. Например, знаки валюты, символы, цифры и знаки препинания. В этих случаях Unicode определяет их как принадлежащие к "общему" сценарию (ISO 15924 код "Zyyy").
Inherited
Множество диакритических знаков и символов без пробелов может применяться к персонажам из более чем одного сценария. В этих случаях Unicode назначает их «унаследованному» сценарию (код ISO 15924 Zinh), что означает, что они имеют тот же класс сценария, что и базовый символ, с которым они сочетаются, и поэтому в разных контекстах они могут рассматриваться как принадлежащие разным скрипты. Например, U + 0308 ̈ КОМБИНИРОВАННЫЙ ДИАРЕЗ может объединяться либо с U + 0065 e СТРОЧНАЯ ЛАТИНСКАЯ БУКВА E для создания латинского «ë», либо с U + 0435 е СТРОЧНОЙ КИРИЛИЧЕСКОЙ БУКВ IE для кириллицы «ё». В первом случае он наследует латинский алфавит основного символа, тогда как во втором случае он наследует кириллический шрифт основного символа.
Неизвестно
Значение «неизвестного» скрипта (ISO 15924 code Zzzz) присваивается неназначенным, частному использованию, несимвольным и суррогатным кодовым точкам.
Категории символов в скриптах

Unicode предоставляет общее свойство категории для каждого символа. Так что, помимо принадлежности к сценарию, у каждого персонажа есть общая категория. Обычно скрипты включают буквенные символы, в том числе: прописные буквы, строчные буквы и буквы модификатора. Некоторые символы считаются заглавными буквами для некоторых предварительно составленных лигатур, таких как Dz (U + 01F2). Все такие лигатуры в заглавных буквах присутствуют в латинском и греческом шрифтах и ​​являются совместимыми символами, поэтому Unicode не рекомендует их использование авторами. Маловероятно, что в будущем будут добавлены новые заглавные буквы.

Большинство систем письма не различают прописные и строчные буквы. Для этих скриптов все буквы относятся к категории «другая буква» или «буква-модификатор». Идеографы, такие как иероглифы Unihan, также относятся к категории «других букв». Однако в некоторых скриптах различают прописные и строчные буквы: латынь, кириллица, греческий, армянский, грузинский и десеретский. Даже в этих скриптах есть буквы, которые не являются ни прописными, ни строчными.

Скрипты также могут содержать любые другие символы общей категории, такие как знаки (диакритические и другие знаки), числа (цифры), знаки препинания, разделители (разделители слов, такие как пробелы), символы и символы неграфического формата . Они включаются в конкретный сценарий, если они уникальны для этого сценария. Другие такие символы обычно унифицированы и включаются в знаки пунктуации или диакритические знаки. Однако большая часть символов в любом скрипте (кроме обычных и унаследованных скриптов) - это буквы.

Список скриптов в Unicode

Unicode определяет более сотни имен скриптов (называемых «Псевдонимом» или «псевдонимом значения свойства») на основе списка ISO 15924. Unicode использует «Common» имя сценария для ISO 15924's Zyyy (код для неопределенного сценария), «Inherited» для ISO 15924's Zinh (код для унаследованного сценария) и «Unknown» для ISO 15924's Zzzz (код для незакодированного сценария). Не используются, среди прочего, коды сценариев ISO 15924: Zsym (символы) и Zmth (математические обозначения). Они не считаются сценариями в смысле Юникода.

  • v
  • t
коды сценариев ISO 15924 и Unicode
кодИмяАлиасНаправлениеВерсия. (добавлено)ПерсонажиПримечание
Adlm166Adlam AdlamR-to-L9.088
Afak439Afaka ВарьируетсяНе в Unicode, предложение рассматривается Техническим комитетом Unicode
Aghb239Кавказский албанец Кавказский албанецL-to-R7.053Древний / исторический
Ахом338Ахом, Тай Ахом АхомL-to-R8,058Древний / исторический
Арабский160Арабский АрабскийR-to-L1.01,291
Аран161Арабский (вариант Насталик) СмешанныйТипографский вариант арабского языка
Арми124Императорский арамейский Императорский арамейскийR-to-L5.231Древний / исторический
Армн230Армянский АрмянскийL-to-R1.096
Авст134Авестийский Авестский anR-to-L5.261Древний / исторический
Бали360Балийский БалийскийСлева к правой5,0121
Баму435Бамум БамумС левой стороны5,2657
Бас259Басса Вах Басса ВахЛ-к-П7.036Древний / исторический
Батк365Батак БатакL-to-R6.056
Бенг325бенгальский (Bangla) бенгальскийL-to-R1.096
Bhks334Bhaiksuki БхайкукиL-to-R9.097Древний / исторический
Блис550Символы блаженства РазличаетсяНе в Unicode, предложение на начальной / исследовательской стадии
Bopo285Bopomofo BopomofoL-to-R1.077
Брах300Брахми БрахмиL-to-R6.0109Древние / исторические
Брай570Брайль БрайльL-to-R3.0256
Bugi367бугийский БугинскийL-to-R4.130
Buhd372Buhid BuhidL-to -R3.220
Cakm349Chakma ChakmaL-to-R6.171
Банки440Унифицированный слоговый язык канадских аборигенов Канадские аборигеныL-to-R3.0710
Кари201Карийский КарийскийL-to-R5.149Древний / исторический
Чам358Чам ЧамL-to-R5.183
Шер445Чероки ЧерокиL -to-R3.0172
Chrs109Хорезмиан ХорезмианСмешанный13.028Древний / исторический
Цирт291Цирт ВарьируетсяНе в Юникоде
Копт204Коптский КоптскийL-to-R1.0137Древний / исторический, отделился от греческого в 4.1
Cpmn402Кипро-минойский L-to-RНе в Unicode
Cprt403Кипрский слоговой Cypr iotR-to-L4.055Древний / исторический
Кирл220Кириллица КириллицаL-к-R1.0443
Cyrs221Кириллица (старославянский вариант) ВарьируетсяДревний / исторический, типографский вариант кириллицы
Deva315Devanagari (Nagari) DevanagariL-to-R1.0154
Диак342Погружает в Акуру Погружает в АкуруL-to-R13.072Древний / исторический
Догр328Догра ДограL-to-R11.060Древний / исторический
Дсрт250Дезерет (мормон) ДезеретL-to-R3,180
Дупл755стенография Дуплояна, стенография Дуплояна ДуплоянL-to-R7.0143
Египетский070Египетский демотический СмешанныйНе в Юникоде
Египетский060Египетский иератический СмешанныйНе в Юникоде
Египетский050Египетские иероглифы Египетские Иероглифы phsL-to-R5.21,080Древний / исторический
Эльба226Эльбасан ЭльбасанL-to-R7.040Древний / исторический
Элим128Элимаский ЭлимейскийR-to-L12.023Древний / исторический
Этский430Эфиопский (Геэз) ЭфиопскийL -to-R3,0495
Геок241Хуцури (Асомтаврули и Нусхури) ГрузинскийВарьируетсяUnicode группирует Геок и Геор вместе как «грузинский»
Геор240грузинский (Мхедрули и Мтаврули) грузинскийL-to-R1.0173Для Unicode см. Также Geok
Glag225Glagolitic GlagoliticL- to-R4,1132Древний / исторический
Гонг312Гунджала Гонди Гунджала ГондиL-to-R11.063
Gonm313Masaram Gondi Masaram GondiL-to-R10.075
Гот206Готика Гот icL-to-R3.127Древний / исторический
Гран343Гранта ГрантаL-к-R7.085Древний / исторический
Grek200Греческий ГреческийL-to-R1.0518Иногда выражается как бустрофедон (зеркальное отображение альтернативных линий, а не только слева направо)
Gujr320Гуджарати ГуджаратиL-to-R1.091
Гуру310Гурмукхи ГурмукхиСлева направо1.080
Ханб503Хан с Бопомофо (псевдоним Хан + Бопомофо) ВарьируетсяСм. Хани, Бопо
Ханг286Хангыль (Хангыль, Хангыль) ХангыльL-to-R1.011,739слоги хангыля перемещены в 2.0
хани500хань (ханзи, кандзи, ханджа) ханьL-to-R1.094204
Хано371Хануноо (Хануноо) ХанунооЛ-к-П3,221
Ханс501Хан (упрощенный вариант) РазличаетсяПодмножество Хани
Хант502Хан (традиционный вариант) РазличаетсяПодмножество Хани
Хатр127Хатран ХатранR-to-L8,026Древний / исторический
Иврит125Иврит ИвритР-к-Л1.0134
Хира410Хирагана ХираганаЛ- to-R1.0379
Hluw080Анатолийские иероглифы (лувийские иероглифы, хеттские иероглифы) анатолийские иероглифыL-к-R8,0583Древний / исторический
Hmng450Pahawh Hmong Pahawh HmongL-to-R7.0127
Hmnp451Nyiakeng Puachue Hmong Nyiakeng Puachue HmongL-to-R12.071
Hrkt412Японские слоговые алфавиты (псевдоним для Hiragana + Katakana) Катакана или HiraganaВарьируетсяСм. Хира, Кана
Венгерский176Древневенгерский (Венгерский рунический) ДревневенгерскийR-to-L8.0108Древние / исторические
Инды610Инд (Хараппан) СмешанныйНе в Юникоде, предложение на начальном / исследовательском этапе
Ital210Old Italic (Etruscan, Oscan, etc.) Old ItalicL-to-R3,139Древний / исторический
Джамо284Джамо (псевдоним для подмножества Джамо в хангыль) Зависит отПодмножество Hang
Java361яванский яванскийL-to-R5.290
Jpan413японский (псевдоним для Han + Hiragana + Katakana) ВарьируетсяСм. Хани, Хира и Кана
Юрк510Чжурчжэнь Л-к-ПНе в Юникоде
Кали357Кая Ли Кая ЛиL-to-R5.147
Кана411Катакана КатаканаL-to-R1.0304
Хар305Харошти ХароштиR-to-L4.168Древний / исторический
Khmr355Кхмерский КхмерскийL-to-R3,0146
Ходж322Хойки ХойкиL-to-R7.062Древний / исторический
Китл505Большой киданьский шрифт L-to-RНе в Юникоде
Наборы288Киданьский маленький шрифт Киданьский маленький шрифтT- to-B13.0471Древний / исторический
Кнда345Каннада КаннадаL-to-R1.089
Kore287Корейский (псевдоним для Hangul + Han) L-to-RСм. Hani и Hang
Kpel436Kpelle L-to-RНе в Unicode, предложение на начальной / исследовательской стадии
Kthi317Кайти КайтиL-to-R5.267Древний / исторический
Лана351Тай Тхам (Ланна) Тай ТхамL-to-R5.2127
Лаоо356Лао ЛаоL-to-R1.082
Latf217Латинский (вариант Fraktur) РазличныйТипографский вариант латинского
Латг216Латинский (гэльский вариант) L-to-RTypographi c вариант латинского
Latn215Latin LatinL-to-R1.01,374См. Латинский шрифт в Unicode
Leke364Leke L-to-RНе в Unicode
Lepc335Лепча (Ронг) ЛепчаL-to-R5.174
Лимб336Лимбу ЛимбуL-to-R4.068
Lina400Linear A Linear AL-to-R7.0341Древний / исторический
Линб401Линейный B Линейный BL-к-R4.0211Древний / исторический
Лису399Лису (Фрейзер) ЛисуL-to-R5.249
Loma437Loma L-to-RНе в Unicode, предложение в начальный / исследовательский этап
Ликий202Ликийский ЛикийскийL-to-R5.129Древний / исторический
Лиди116Лидийцы ЛидийцыR-to-L5.127Древние / исторические
Махдж314Махаджани М ахаджаниL-to-R7.039Древний / исторический
Мака366Макасар МакасарL-к-R11.025Древний / исторический
Манд140Мандейский, Мандиский МандейскийR-to-L6.029
Мани139Манихей МанихейR-to-L7.051Древний / исторический
Марк332Марчен МарченL-to-R9.068Древние / исторические
Майя090Иероглифы майя СмешанныеНе в Юникоде
Medf265Медефайдрин (Обери Окаиме, Обери каимо) МедефайдринСзади11.091
Менд438Менде Кикакуи Менде КикакуиПереноси7.0213
Merc101Meroitic Cursive Meroitic CursiveR-to-L6.190Древний / исторический
Меро100Мероитские иероглифы Мероитские иероглифыR-to-L6.132Древние / исторические
Млым347Малаял am малаяламL-to-R1.0118
Modi324Modi, Moḍī МодиL-to-R7.079Древний / исторический
Монг145Монгольский МонгольскийT-to-B3.0167Включает Clear, маньчжурские скрипты
Moon218Луна (код Луны, шрифт Луны, тип Луны) СмешанныйНе в Юникоде, предложение на начальной / исследовательской стадии
Mroo264Mro, Mru MroL-to-R7.043
Mtei337Мейтей Майек (Мейтей, Митей) Митей МайекL-to-R5.279
Mult323Multani MultaniL-to-R8,038Древний / исторический
Мимр350Мьянма (бирманский) МьянмаL-to-R3,0223
Нанд311Нандинагари НандинагариL-to-R12.065Древний / исторический
Нарб106Древний Северный Арабский (Древний Северный Арабский) Древний Северный Арабский ianR-to-L7.032Древний / исторический
Нбат159Набатейский НабатейскийR-to-L7.040Древний / исторический
Newa333Newa, Newar, Newari, Nepāla lipi NewaL-to-R9.097
Nkdb085Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) L-to-RНе в Unicode
Nkgb420Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) L-to-RНе в Unicode, предложение в начальном / исследовательский этап
Nkoo165N'Ko NKoR-to-L5.062
Nshu499Нушу НушуL-to-R10.0397
Огам212Огам ОгамСмешанный3,029Древний / исторический
Ольк261Ол Чики (Оль Семет, Ол, Сантали) Ол ЧикиL-to-R5.148
Орх175древнетюркский, орхонский рунический древнетюркскийR-to-L5.273Древний / исторический
Оря327Ория (Одиа) ОрияL-to-R1.091
Осдж219Осейдж ОсейджСзади9.072
Осма260Османья ОсманьяСзади4.040
Пальма126Пальмирин ПальмиринR-to-L7.032Древний / исторический
Паук263Пау Цин Хау Пау Цин ХауL-to-R7,057
Пермь227Старопермия СтаропермияL-to-R7.043Древняя / историческая
Фаг331Фаг-па Phags-paT-to-B5.056Древний / исторический
Phli131Пехлеви с надписью Пехлеви с надписьюR-to-L5.227Древний / исторический
Phlp132Псалтырь Пехлевий Псалтырь ПехлевийR-to-L7.029Древний / исторический
Phlv133Книга Пехлеви СмешанныйНе в Юникоде
Phnx115Финикийский ФиникийскийR-to-L5.029Древний / исторический
Piqd293Klingon (KLI pIqaD) L-to-RОтклонено для включения в стандарт Unicode
Plrd282Мяо (Поллард) МяоL-to-R6.1149
Прти130Парфянская надпись Парфянская надписьR-to-L5.230Древний / исторический
Кааа900Зарезервировано для частного использования (начало) Не в Unicode
Qaai908(Частное использование)Не в Unicode (до версии 5.2 это использовалось вместо Zinh)
Qabx949Зарезервировано для частного использования (конец) Не в Юникоде
Rjng363Rejang (Redjang, Kaganga) RejangСлева направо5,137
Рог167Ханифи Рохинья Ханифи РохинджаПраво человека11.050
Роро620Ронгоронго СмешанныйНе в Юникоде, предложение на начальной / исследовательской стадии
Рунр211Рунический РуническийL-to-R3.086Древний / исторический
Самр123Самаритянин СамаритянинR-to-L5.261
Сара292Сарати СмешанныйНе в Юникоде
Сарб105Древний южноаравийский Древний южноаравийскийR-to-L5.232Древний / исторический
Саур344Саураштра СаураштраL-to-R5.182
Sgnw095SignWriting SignWritingT-to-B8.0672
Шоу281Шавиан (Шоу) ШавианL-to-R4.048
Шрд319Шарада, Шарада ШарадаL- to-R6.196
Shui530Shuishu L-to-RНе в Unicode
Sidd302Сиддхам, Сиддхах, Сиддхаматука СиддхамL-to-R7.092Древний / исторический
Синд318Худавади, синдхи ХудавадиL-to-R7.069
Синх348сингальский сингальскийL-к-R3,0111
Согд141Согдийский СогдийскийR-к-L11.042Древний / исторический
Сого142Древнесогдийский Старый согдийскийR-to -L11.040Древний / исторический
Сора398Сора Сомпенг Сора СомпенгL-к-R6,135
Соё329Соёмбо СоёмбоL-to-R10,083Древний / исторический
Сунд362Сунданский СунданскийL-to-R5.172
Сило316Силоти Нагри Силоти НагриL-to-R4.145Древний / исторический
Сыркский135сирийский сирийскийR-to-L3,088
Syre138Сирийский (вариант Эстранджело) СмешанныйТипографский вариант сирийского
Syrj137Сирийский (западный вариант) СмешанныйТипографский вариант сирийского
Сырнский136Сирийский (Восточный вариант) СмешанныйТипографский вариант сирийского
Tagb373Tagbanwa TagbanwaL-to-R3,218
Takr321Такри, Шак rī, ākrī TakriL-to-R6.167
Tale353Тай Ле Тай ЛеL-к-R4.035
Talu354New Tai Lue New Tai LueL-to-R4.183
Тамл346Тамил ТамилL-to-R1.0123
Тан520Тангут ТангутL-to-R9.06,914Древний / исторический
Тавт359Тайвьет ТайвьетL-to-R5.272
Телу340телугу телугуL-to-R1.098
Teng290Tengwar L-to- RНе в Unicode
Tfng120Tifinagh (берберский) TifinaghL-to-R4.159
Tglg370Тагальский (Байбайин, Алибата) ТагальскийL-to-R3,220
Thaa170Тхана ТханаR-to-L3.050
Тайский352Тайский ТайскийL-к-R1.086
Tibt330Тибетский ТибетскийL-to -R2.0207Добавлено в 1.0, удалено в 1.1 и повторно введено в 2.0
Тирх326Тирхута TirhutaL-to-R7.082
Toto294Toto L-to-RНе в Unicode
Угар040Угарит УгаритL-to-R4,031Древний / исторический
Вайи470Вай ВайL-to-R5.1300
Visp280Видимая речь L-к-RНе в Юникоде
Wara262Warang Citi (Варанг Кшити) Warang CitiL-to -R7.084
Wcho283Wancho WanchoL-to-R12.059
Wole480Woleai СмешанныйНе в Юникоде, предложение на начальной / исследовательской стадии
Xpeo030Староперсидское Староперсидскоеслева направо4.150Древний / исторический
Xsux020Шумеро-аккадская клинопись клинописьL-к-R5.01,234Древний / исторический
Y ezi192Езиды ЕзидыR-to-L13.047Древние / исторические
Yiii460Yi ИL-to-R3.01,220
Занб339Площадь Занабазар (Занабазарин Дёрбёльджин Усег, Xewtee Dörböljin Bicig, Horizontal Square Script) Площадь ЗанабазарL-to-R10,072Древний / исторический
Зинь994Код унаследованного скрипта УнаследованоУнаследовано573
Zmth995Математическая нотация L-to-RНе «сценарий» в Юникоде
Zsym996Символы Не «сценарий» в Юникоде
Zsye993Символы (вариант эмодзи) Не скрипт в Юникоде
Zxxx997Код для незаписанных документов Не скрипт в Юникоде
Zyyy998Код неопределенного сценария ОбычныйСмешанный8,087
Zzzz999Код для незакодированного сценария Неизвестно970,188Все остальные кодовые точки
Примечания
  1. ^ISO 15924 публикации По состоянию на 16 апреля 2020 г.
  2. ^Нормативный текстовый файл ISO 15924 По состоянию на 16 апреля 2020 г.
  3. ^Изменения в ISO 15924 (включая псевдонимы для Unicode; по состоянию на 16 апреля 2020 г.)
  4. ^Unicode версии 13.0
  5. ^Диаграммы Unicode
  6. ^Unicode использует «Псевдоним значения свойства» (Псевдоним) в качестве имени сценария. Эти псевдонимы являются частью Unicode и информативно публикуются рядом с ISO 15924. Имя сценария псевдонима может использоваться в имени персонажа: Palm, Palmyrene → U + 10860 𐡠 ПАЛМИРЕНОВАЯ БУКВА ALEPH.
См. Также
Ссылки
Последняя правка сделана 2021-06-07 06:57:19
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте