Тай Тхам (блок Unicode)

редактировать
Блок символов Unicode
Тай Тхам
ДиапазонU + 1A20.. U + 1AAF. (144 кодовых точки)
ПлоскостьBMP
СкриптыТай Тхам
Основные алфавитыТай Тхам
Назначено127 кодовых точек
Не используются17 зарезервированных кодовых точек
История версий Unicode
5.2127 (+127)
Примечание :

Tai Tham - это блок Unicode, содержащий символы скрипта Ланна, используемого для написания языков северного тайского (Кам Муанг), Тай Лю и Кхюн.

Содержание
  • 1 История
  • 2 Кодирование подстрочных согласных
  • 3 Надстрочные согласные
  • 4 Специальные согласные
  • 5 Независимых гласных
  • 6 Порядок символов в тексте
  • 7 Внешние ссылки
  • 8 источников
Tai Tham. Таблица кодов официального консорциума Unicode (PDF)
0123456789ABCDEF
U + 1A2x
U + 1A3xᨿ
U + 1A4x
U + 1A5x
U + 1A6x
U + 1A7x᩿
U + 1A8x
U + 1A9x
U + 1AAx
Примечания
1.^Начиная с версии Unicode 13.0
2.^Серые области обозначают неназначенные кодовые точки
История

123 из 127 кодовых точек, изначально закодированных, были предложены в L2 / 07-007R, еще две (U + 1A5C и U + 1A7C) в L2 / 08-037R2 и последняя пара (U + 1A5D и U + 1A5E) в L2 / 08-073. Последний из этих трех документов изменил определения U + 1A37 и U + 1A38, данные в первом из трех.

Следующие документы, связанные с Unicode, описывают цель и процесс определения конкретных символов в блоке Tai Tham:

Версия Конечные кодовые точкиCountL2 IDWG2 IDДокумент
5.2U + 1A20..1A5E, 1A60..1A7C, 1A7F..1A89, 1A90..1A99, 1AA0..1AAD127L2 / 99-245 N2042 Эверсон, Майкл ; Макгоуэн, Рик (1999-07-20), Технический отчет Unicode № 3: Ранний арамейский, балтийский, кират (лимбу), манипури (мэйтей) и тай Люй скрипты
X3L2 / 94-088N1013 Движение по кодированию старого письма Сишуан Банна Дай, вступление в BMP стандарта ISO / IEC 10646, 1994-04-18
N1099 (pdf, doc )Движение по кодированию Старый Xishuang Banna Dai Writing Вхождение в BMP ISO / IEC 10646, 1994-10-10
L2 / 04-351 Хоскен, Мартин (2004-06-28), Lanna Unicode: черновик предложения
L2 / 05-095R Хоскен, Мартин (2005-04-25), Lanna Unicode: A Proposal
L2 / 05-166 Курильский, Г.; Бермент, В. (2005-07-15), На пути к компьютеризации системы письма Лао Тхама
L2 / 05-188 Мартин Хоскен (2005-08-02), Лао Тхам в терминах Ланна: ответ на L2 / 05-166 от L2 / 05-095
L2 / 06-258R N3121R Эверсон, Майкл; Хоскен, Мартин (09.09.2006), Предложение по кодированию сценария Ланна в BMP UCS
L2 / 06-311 N3159 Тун, Нгве (20 сентября 2006 г.), Ответ на N3121R: Предложение по кодированию сценария Lanna в BMP UCS
L2 / 06-319 N3161 Мнения по сценарию N3121-Lanna, 22.09.2006
L2 / 06-320 N3169R Чен, Чжуан; Эверсон, Майкл; Хоскен, Мартин; Вэй, Лин-Мей (2006-09-26), специальный отчет Ланна
N3153 (pdf, doc )Умамахесваран, ВС (2007-02-16), "M49.17 ", Неподтвержденный протокол собрания WG 2 49 AIST, Акихабара, Токио, Япония; 2006-09-25 / 29
L2 / 07-015 Мур, Лиза (2007-02-08)," Ланна (C.17) ", UTC # 110 Минут
L2 / 07-007R N3207 Эверсон, Майкл; Хоскен, Мартин; Констебль, Питер (2007-03-21), Пересмотренное предложение по кодированию сценария Ланна в BMP UCS
L2 / 07-101 N3238 Предложение по кодированию старого Tai Lue, 2007-04-03
L2 / 07-098 N3239 Ответ на Вклад Китая N3238, «Предложение по кодированию старого тайлуэ», 2007-04-11
N3353 (pdf, doc )Умамахесваран, ВС (2007-10-10), «M51.2 ", Неподтвержденный протокол собрания РГ 2, 51 Ханчжоу, Китай; 2007-04-24 / 27
L2 / 07-118R2 Мур, Лиза (2007-05-23)," 111-C17 ", UTC # 111 минут
L2 / 07-268 N3253 (pdf, doc )Умамахесваран, Вирджиния (2007-07-26), «M50.10», неподтвержденный протокол собрания WG 2 50, Франкфу РТ-ам-Майн, Германия; 2007-04-24 / 27
L2 / 07-307 N3313 Комментарии к кодировке Lanna в FPDAM4, 2007-09-06
L2 / 07-316 N3342 Hosken, Мартин (10 сентября 2007 г.), ответ на N3313
L2 / 07-319 N3346 Специальный отчет по Ланне, 19 сентября 2007 г.
L2 / 07-322 N3349R Эверсон, Майкл (2007-09-28), "Tai Tham", Краткое изложение репертуара для FPDAM 5 стандарта ISO / IEC 10646: 2003 и будущих поправок
L2 / 07-345 Мур, Лиза (2007-10-25), "Consensus 113-C10", UTC # 113 Минуты
L2 / 07-353 Уистлер, Кен (2007-10-10), "А. Ланна (FDAM 4 и FPDAM 5) ", Документ о согласии WG2
L2 / 08-037R2 N3379R2 Констебль, Питер (2008-04-18), Отчет о специальной встрече Тай Тхам
L2 / 08-073 N3384 Хоскен, Мартин (2008-01-28), Тай Тхам Присоединенные варианты
L2 / 08-003 Мур, Лиза (2008-02-14), "Тай Тхам", UTC # 114 Протокол
L2 / 08-318 N3453 (pdf, doc )Umamaheswaran, VS (2008-08-13), «M52.2a», неподтвержденный протокол заседания WG 2 52
L2 / 14-126 + приложения Pournader, Roozbeh (2014-05-02), Запрошены улучшения для свойств Индийского Unicode (два приложения к текстовым файлам ЗДЕСЬ). [затронуты U + 1A55, 1A60, 1A80-1A89, 1A90-1A99]
L2 / 14-177 Мур, Лиза (2014-08-21), "B.14.5", UTC # 140 минут. [затронутый U + 1A56-1A5E, 1A75-1A7C, 1A7F]
L2 / 17-120 Уордингем, Ричард (2017-05-01), Исправления в индийской слоговой категории для скрипта Тай Тхам. [затронуты U + 1A57, 1A5A-1A5E, 1A74, 1A7A]
L2 / 17-169 Pournader, Roozbeh (2017-05-12), Предлагаемые изменения индийской слоговой категории для Tai Tham для Unicode 10. [затронуты U + 1A57, 1A5A-1A5E, 1A74, 1A7A]
L2 / 17-103 Мур, Лиза (2017-05-18), "B.14.9", UTC # 151 Минуты. [затронутые U + 1A57, 1A5A-1A5E, 1A74, 1A7A]
L2 / 18-053 Pournader, Roozbeh (2018-01-24), Новая индийская слоговая категория Consonant_Initial_Postfixed. [затронутый U + 1A5A]
L2 / 18-007 Мур, Лиза (2018-03-19), "B.14.7 ", UTC # 154 Минут. [затронутый U + 1A5A]
L2 / 18-171 Уордингем, Ричард (2018-04-29), определение местоположения гласных ниже Тай Тхам. [задокументировано U + 1A69 и U + 1A6A]
L2 / 18-241 Андерсон, Дебора; и другие. (2018-07-25), «15. Тай Тхам», Рекомендации к UTC № 156 июля 2018 по предложениям сценариев. [задокументировано U + 1A69 и U + 1A6A]
L2 / 18-183 Мур, Лиза (2018-11-20), «D.12 Расположение гласных Тай Тхам ниже», UTC # 156 Минут. [задокументировано U + 1A69 и U + 1A6A]
Кодирование нижних согласных

Базовые и подстрочные согласные имеют разные кодировки, потому что такие слова, как ᨲᩥ᩠ᨠ и ᨲᩥᨠ, различаются как по внешнему виду, так и по звучанию. Подстрочные согласные кодируются как последовательность из 2 символов. Второй - основной символ, а первый - специальный символ U + 1A60 TAI THAM SIGN SAKOT.

Если согласная имеет две формы нижнего индекса и выбор влияет на значение, форма обычно используется для согласных в конце слога будет закодирован с помощью SAKOT, а другая форма будет иметь свой собственный код. Таким образом, есть 7 согласных с разными формами нижнего индекса, а именно RA, ᩃ LA, ᨷ BA, ᩈ HIGH SA, ᨾ MA, ᨳ HIGH RATA и ᨻ LOW PA.

ᨣᩕᩪ (Северное тайское произношение: ) кодируется как , но ᨠᩣ᩠ᩁ (IPA: ) кодируется как

ᩆᩦ᩠ᩃ (IPA: ) кодируется как , но ᨸᩖᩦ (IPA: ) - кодируется как . (Чтобы использовать LA в качестве последней буквы слога, сравните ᩁᨭᩛᨷᩣ᩠ᩃ (Северное тайское произношение: ).

U + 1A57 SIGN LA TANG LAI выглядит как , но по своему происхождению является лигатурой этого слова с . Tai Lue использует его, чтобы написать слово ᨴᩢ᩵ᩗᩣ (IPA: ).

ᨣᩝᩴ (IPA: ) кодируется как , но ᨠᩢ᩠ᨷ (IPA: ) кодируется как и ᨠᩢᨷ᩠ᨷ᩺ (IPA : ) кодируется как

В окончательном предложении, которое Консорциум Unicode принял, что то, что сейчас называется SIGN BA (как в), будет закодировано как , а то, что сейчас (как в ᨠᩢ᩠ᨷ) следует закодировать как , но во время процесса ISO значение изменилось и был добавлен SIGN BA. Однако исходное значение остается для слов из тайского языка tha t иметь ป как согласную в конце слога. (Это предложение ошибочно называет .)

Пали использует HIGH PA вместо BA в Лаосе и на северо-востоке Таиланда. Поэтому следует быть готовым найти , закодированный как на пали.

Тай Кхуен имеет два пути написания нижнего индекса HIGH SA. Они не взаимозаменяемы. В Tai Khuen писать ᩃᩮᩞ правильно, а писать ᩃᩮ᩠ᩈ неправильно, но писать ᩈᨶ᩠ᨶᩥᩅᩤ᩠ᩈ правильно, а писать ᩈᨶ᩠ᨶᩥᩅᩤᩞ неправильно! ᩃᩮᩞ кодируется как , а неправильный incorrect кодируется как .

У Tai Khuen есть дополнительный способ записи нижнего индекса MA. специальный код для этого дополнительного метода Слово, которое северные тайцы записывают как ᨵᨾ᩠ᨾ᩺, записывается на языке Tai Khuen как ᨵᨾ᩠ᨾ᩼, закодированное как , так и как закодированное ᨵᨾᩜ᩼ как .

Существует два способа записи нижнего индекса для HIGH RATHA и LOW PA. ᨶᩥᨣᨱᩛ кодируется как : [[Раджа bhat Университетская система | ᩁᩣᨩᨽᩢ᩠ᨮ]] кодируется . ᨶᩥᨻᩛᩣᨶ кодируется как : ᨴᩮ᩠ᨻ кодируется как . Последнее слово также пишется как ᨴᩮ᩠ᨷ. Согласный конъюнкт в лаосском стиле (кодируемый как ) выглядит так, как если бы он закодирован как . Форма U + 1A5B зависит от согласной, к которой она добавляется.

Зависимая гласная таких слов, как ᨯᩬᨠ 'цветок', кодируется специальной гласной ; не следует использовать последовательность . Также существует закодированная зависимая гласная для таких слов, как Tai Khuen, Tai Lue и лаосских слов, таких как ᨶ᩶ᩭ, а именно U + 1A6D SIGN OY. Этот гласный не кодируется как (это то, что северный тайский использует для соответствующих слов; это не последовательность

верхних согласных

надстрочных согласных кодируется независимо от основных согласных. Некоторые символы служат как согласные с надстрочными индексами, так и в других ролях, поэтому они обсуждаются далее в этом разделе.

Niggahita и кодируется как U + 1A74 MAI KANG. Надстрочный индекс WA не кодируется отдельно. Он кодируется как MAI KANG. Ибо Например, Tai Khuen ᨯ᩠ᨿᩴ (IPA: ) кодируется как . В целях упорядочения символов он обычно рассматривается как гласный.

NGA с начальным индексом кластера кодируется как U + 1A58 MAI KANG LAI. Обратите внимание, что в Лаосе обычно используется один и тот же символ для MAI KANG LAI и U + 1A59 SIGN FINAL NGA.

U + 1A62 MAI SAT обслуживает три роли - это гласная, конечная согласная и укорочитель гласных.

Выбор кодировки надстрочной формы RA и гласных убийц был затруднен ult. В 1940-х годах Тай Кхуэн одинаково писал согласные и убивающие гласные. Авторы кодирования навели справки, и им сказали, что глифы остались прежними, и поэтому они оба кодировали как U + 1A7A RA HAAM. Затем стало известно, что Тай Кхуэн изменил глифы убийцы гласных, и был добавлен новый символ U + 1A7C KARAN для стиля Тай Кхуен убийцы гласных. Некоторые северные тайские писатели предпочитают использовать U + 1A7C в качестве убийцы гласных, и, действительно, использование этого символа не является неизвестным в почерке северного Таиланда.

Специальные согласные

Специальные формы ᩓ и ᩕ кодируются кодовыми точками U + 1A53 и U + 1A55 соответственно.

Если символы U + 1A36 NA и U + 1A63 SIGN AA будут рядом, они записываются как лигатура ᨶᩣ, а не как два отдельных символа ᨶ‌ᩣ. Они записываются как лигатура, даже если к NA прикреплен нижний согласный или неследующий знак. Примеры: ᨾᨶ᩠ᨲᩣ (IPA:, кодировка ) и ᨶᩮᩢᩣ (IPA:, кодировка ). Нижний индекс NA и SIGN AA не лигируются одинаково, например ᩉ᩠ᨶᩣ ((IPA: ), закодировано )

Близнецовый согласный ᩔ кодируется отдельно, потому что слово ᩅᩥᩈᩮ᩠ᩈ (северное тайское произношение:, кодировка ) имеет внешний вид, сильно отличающийся от ᩅᩥᩔᩮ, но, возможно, придется сложить последний слог до . Действительно, в 2019–2020 годах проводилась кампания по установлению последнего как его стандартное написание.

Напротив, близнец согласный ᨬ᩠ᨬ кодируется как конъюнкт , хотя некоторые из его глифов могут напоминать гипотетический конъюнкт ᨱ᩠ᨬ .

Независимые гласные

Независимая гласная ᩋ и согласная ᩋ - это один и тот же символ, U + 1A4B.

Независимая гласная ᩋᩣ и последовательность согласной ᩋ и зависимой гласной ᩣ имеют одинаковый внешний вид ᩋᩣ и поэтому оба кодируются .

В северном Таиланде используется 5 независимых гласных с собственными кодовыми точками, а именно ᩍ, ᩎ, ᩏ, ᩐ и ᩑ.

В северном Таиланде 8-я независимая гласная не отличается от последовательности согласного ᩋ и зависимого гласного ᩰ, то есть ᩋᩰ, поэтому оба они закодированы . В других языках используется отдельный символ ᩒ U + 1A52 БУКВА OO для независимой гласной.

Порядок символов в тексте

Предложение по кодировке определило порядок символов Unicode.

Подобно способу написания бирманского, кхмерского и индийского языков, символы Unicode упорядочены в соответствии с порядком звуков, за исключением особых случаев, или если 2 звука объединяются в один звук, а затем используется старый порядок. Этот порядок обычно такой же, как на сиамском. Если звук не имеет порядка, используется визуальный порядок или особый альтернативный порядок.

Существуют особые правила для:

(a) Порядок гласных
(b) Написание майкиа во всех его вариантах
(c) Th Написание mai kua во всех его вариантах
(d) Написание mai kam
(e) Написание тональных знаков

Порядок символов Unicode для согласных и гласных таков: начальные буквы, истинные гласные, согласные коды, начальные буквы, истинные гласные, согласные коды. Для удобства считается, что символы, убивающие гласные, являются гласными.

«Начальные буквы» - это согласные, независимые гласные или специальные символы. Согласные в группе упорядочены в соответствии с порядком, в котором они звучали или использовались для произнесения.

Пример: ᨻᩩᨴ᩠ᨵ (Северное тайское произношение: )

начальная буква: ᨻ
чистый гласный: ᩩ
конечный согласный: ᨴ
начальная буква: ᨵ
чистый гласный: без символа
конечный согласный: нет

Кодировка:

Пример: ᨻᩕ имеет один согласный звук Северное тайское произношение:, но раньше было 2 звука, а именно ᨻ, а затем ᩁ, как в центральном тайском языке. Это слово кодируется как .

За исключением MEDIAL RA, порядок глифов согласных такой же, как и порядок звуков. В большинстве случаев MEDIAL RA является последним согласным, но WA / ua / и LOW YA / ia / следуют за MEDIAL RA.

Примеры:

ᩆᩣᩈ᩠ᨲᩕ᩺ закодировано .
ᨠᩕᩈᩢ᩠ᨲ закодировано
ᩈᩕ᩠ᩅᨾ закодировано .
Но ᨲᩕ᩠ᨶᩬᨾ (Северное тайское произношение: ) кодируется

Для таких слов, как ᨧᩮᩢ᩶ᩣ, существует правило, согласно которому символы для гласных и тонов имеют следующий порядок:

(1) ведущие гласные
(2) гласные снизу (сверху вниз) б ottom)
(3) гласные вверху (снизу вверх)
(4) тональные знаки (слева направо)
(5) завершающие гласные (слева направо)

При применении этих правил МАЙ КАНГ считается гласным, хотя он действует как ниггахита или как согласный. Символ Юникода MAI SAT считается гласным, даже если он функционирует как согласный, то есть как mai kak, то есть как последний согласный, или как сокращающий гласный звук, как в ᨸᩮᩢ᩠ᨯ.

Относительный порядок знаков вверху и внизу должен соответствовать тайскому и лаосскому, как в เจ้า เกี่ ว ชุํ и ບິ່.

Примеры:

ᨧᩮᩢ᩶ᩣ кодируется как
ᨾᩢᩣ (IPA: ) кодируется как
ᩃᩪᩢ (IPA : ) кодируется как
ᨶᩮᩢᩣ кодируется как
ᩋᩫᨶ᩠ᨲᩕᩣ᩠ᨿ (Северное тайское произношение: ) кодируется как

Для / ia / и / ua / во всех их формах нижний индекс LOW YA и WA считается начальным согласным.

Примеры:

ᩈ᩠ᨿᩮ фактически кодируется
ᨸ᩠ᩃ᩠ᨿ᩵ᩁ фактически закодировано
ᨲ᩠ᩅᩫ фактически закодировано
ᩈ᩠ᩅ᩵ᩁ фактически закодировано
ᨠᩖ᩠ᩅ᩠᩶ᨿ фактически закодировано, поскольку
(канонически эквивалентно )

. За пределами Северного Таиланда MAI KANG в символе для / am / написано на компоненте SIGN AA. В Северном Таиланде его позиционируют по-разному - на согласную, на ЗНАК АА и между ними. Консорциум Unicode отказался от специального символа для комбинации. Слово ᨷᩴ᩠᩵ᨾᩣ ({{IPA-nod | bɔːmaː | IPA) не должно иметь ту же гласную, что и ᨲ᩵ᩣᩴ (IPA: ). Поэтому комбинация для / am / кодируется как . Слово ᨷᩴ᩠᩵ᨾᩣ кодируется как . Слово ᨲ᩵ᩣᩴ кодируется как . Комбинация для / am / с SIGN TALL AA кодируется как .

U + 1A5A SIGN LOW PA - это особый случай; слово Tai Lue ᨣᨽᩚ (IPA: ) кодируется как .

Примеры, показывающие mai kang lai и la tang lai:

палийское слово ᩈᩘᨥᩮᩣ (saṅgho) кодируется .
«ᨴᩘ᩠ᩃᩣ᩠ᨿ» (северное тайское произношение: ) кодируется
слово Tai Lue ᨴᩢᩗᩣ (произношение Tai Lue: ) закодировано .
Внешние ссылки
Ссылки
Последняя правка сделана 2021-06-09 07:39:27
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru