Тай Тхам (блок Unicode)

редактировать

Блок символов Unicode

Тай Тхам
Диапазон	U + 1A20.. U + 1AAF. (144 кодовых точки)
Плоскость	BMP
Скрипты	Тай Тхам
Основные алфавиты	Тай Тхам
Назначено	127 кодовых точек
Не используются	17 зарезервированных кодовых точек
История версий Unicode

5.2	127 (+127)

Примечание :

Tai Tham - это блок Unicode, содержащий символы скрипта Ланна, используемого для написания языков северного тайского (Кам Муанг), Тай Лю и Кхюн.

Содержание

1 История
2 Кодирование подстрочных согласных
3 Надстрочные согласные
4 Специальные согласные
5 Независимых гласных
6 Порядок символов в тексте
7 Внешние ссылки
8 источников

Tai Tham. Таблица кодов официального консорциума Unicode (PDF)
	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
U + 1A2x	ᨠ	ᨡ	ᨢ	ᨣ	ᨤ	ᨥ	ᨦ	ᨧ	ᨨ	ᨩ	ᨪ	ᨫ	ᨬ	ᨭ	ᨮ	ᨯ
U + 1A3x	ᨰ	ᨱ	ᨲ	ᨳ	ᨴ	ᨵ	ᨶ	ᨷ	ᨸ	ᨹ	ᨺ	ᨻ	ᨼ	ᨽ	ᨾ	ᨿ
U + 1A4x	ᩀ	ᩁ	ᩂ	ᩃ	ᩄ	ᩅ	ᩆ	ᩇ	ᩈ	ᩉ	ᩊ	ᩋ	ᩌ	ᩍ	ᩎ	ᩏ
U + 1A5x	ᩐ	ᩑ	ᩒ	ᩓ	ᩔ	ᩕ	ᩖ	ᩗ	ᩘ	ᩙ	ᩚ	ᩛ	ᩜ	ᩝ	ᩞ
U + 1A6x	᩠	ᩡ	ᩢ	ᩣ	ᩤ	ᩥ	ᩦ	ᩧ	ᩨ	ᩩ	ᩪ	ᩫ	ᩬ	ᩭ	ᩮ	ᩯ
U + 1A7x	ᩰ	ᩱ	ᩲ	ᩳ	ᩴ	᩵	᩶	᩷	᩸	᩹	᩺	᩻	᩼			᩿
U + 1A8x	᪀	᪁	᪂	᪃	᪄	᪅	᪆	᪇	᪈	᪉
U + 1A9x	᪐	᪑	᪒	᪓	᪔	᪕	᪖	᪗	᪘	᪙
U + 1AAx	᪠	᪡	᪢	᪣	᪤	᪥	᪦	ᪧ	᪨	᪩	᪪	᪫	᪬	᪭
Примечания 1.^Начиная с версии Unicode 13.0 2.^Серые области обозначают неназначенные кодовые точки

История

123 из 127 кодовых точек, изначально закодированных, были предложены в L2 / 07-007R, еще две (U + 1A5C и U + 1A7C) в L2 / 08-037R2 и последняя пара (U + 1A5D и U + 1A5E) в L2 / 08-073. Последний из этих трех документов изменил определения U + 1A37 и U + 1A38, данные в первом из трех.

Следующие документы, связанные с Unicode, описывают цель и процесс определения конкретных символов в блоке Tai Tham:

Версия	Конечные кодовые точки	Count	L2 ID	WG2 ID	Документ
5.2	U + 1A20..1A5E, 1A60..1A7C, 1A7F..1A89, 1A90..1A99, 1AA0..1AAD	127	L2 / 99-245	N2042	Эверсон, Майкл ; Макгоуэн, Рик (1999-07-20), Технический отчет Unicode № 3: Ранний арамейский, балтийский, кират (лимбу), манипури (мэйтей) и тай Люй скрипты
			X3L2 / 94-088	N1013	Движение по кодированию старого письма Сишуан Банна Дай, вступление в BMP стандарта ISO / IEC 10646, 1994-04-18
				N1099 (pdf, doc )	Движение по кодированию Старый Xishuang Banna Dai Writing Вхождение в BMP ISO / IEC 10646, 1994-10-10
			L2 / 04-351		Хоскен, Мартин (2004-06-28), Lanna Unicode: черновик предложения
			L2 / 05-095R		Хоскен, Мартин (2005-04-25), Lanna Unicode: A Proposal
			L2 / 05-166		Курильский, Г.; Бермент, В. (2005-07-15), На пути к компьютеризации системы письма Лао Тхама
			L2 / 05-188		Мартин Хоскен (2005-08-02), Лао Тхам в терминах Ланна: ответ на L2 / 05-166 от L2 / 05-095
			L2 / 06-258R	N3121R	Эверсон, Майкл; Хоскен, Мартин (09.09.2006), Предложение по кодированию сценария Ланна в BMP UCS
			L2 / 06-311	N3159	Тун, Нгве (20 сентября 2006 г.), Ответ на N3121R: Предложение по кодированию сценария Lanna в BMP UCS
			L2 / 06-319	N3161	Мнения по сценарию N3121-Lanna, 22.09.2006
			L2 / 06-320	N3169R	Чен, Чжуан; Эверсон, Майкл; Хоскен, Мартин; Вэй, Лин-Мей (2006-09-26), специальный отчет Ланна
				N3153 (pdf, doc )	Умамахесваран, ВС (2007-02-16), "M49.17 ", Неподтвержденный протокол собрания WG 2 49 AIST, Акихабара, Токио, Япония; 2006-09-25 / 29
			L2 / 07-015		Мур, Лиза (2007-02-08)," Ланна (C.17) ", UTC # 110 Минут
			L2 / 07-007R	N3207	Эверсон, Майкл; Хоскен, Мартин; Констебль, Питер (2007-03-21), Пересмотренное предложение по кодированию сценария Ланна в BMP UCS
			L2 / 07-101	N3238	Предложение по кодированию старого Tai Lue, 2007-04-03
			L2 / 07-098	N3239	Ответ на Вклад Китая N3238, «Предложение по кодированию старого тайлуэ», 2007-04-11
				N3353 (pdf, doc )	Умамахесваран, ВС (2007-10-10), «M51.2 ", Неподтвержденный протокол собрания РГ 2, 51 Ханчжоу, Китай; 2007-04-24 / 27
			L2 / 07-118R2		Мур, Лиза (2007-05-23)," 111-C17 ", UTC # 111 минут
			L2 / 07-268	N3253 (pdf, doc )	Умамахесваран, Вирджиния (2007-07-26), «M50.10», неподтвержденный протокол собрания WG 2 50, Франкфу РТ-ам-Майн, Германия; 2007-04-24 / 27
			L2 / 07-307	N3313	Комментарии к кодировке Lanna в FPDAM4, 2007-09-06
			L2 / 07-316	N3342	Hosken, Мартин (10 сентября 2007 г.), ответ на N3313
			L2 / 07-319	N3346	Специальный отчет по Ланне, 19 сентября 2007 г.
			L2 / 07-322	N3349R	Эверсон, Майкл (2007-09-28), "Tai Tham", Краткое изложение репертуара для FPDAM 5 стандарта ISO / IEC 10646: 2003 и будущих поправок
			L2 / 07-345		Мур, Лиза (2007-10-25), "Consensus 113-C10", UTC # 113 Минуты
			L2 / 07-353		Уистлер, Кен (2007-10-10), "А. Ланна (FDAM 4 и FPDAM 5) ", Документ о согласии WG2
			L2 / 08-037R2	N3379R2	Констебль, Питер (2008-04-18), Отчет о специальной встрече Тай Тхам
			L2 / 08-073	N3384	Хоскен, Мартин (2008-01-28), Тай Тхам Присоединенные варианты
			L2 / 08-003		Мур, Лиза (2008-02-14), "Тай Тхам", UTC # 114 Протокол
			L2 / 08-318	N3453 (pdf, doc )	Umamaheswaran, VS (2008-08-13), «M52.2a», неподтвержденный протокол заседания WG 2 52
			L2 / 14-126 + приложения		Pournader, Roozbeh (2014-05-02), Запрошены улучшения для свойств Индийского Unicode (два приложения к текстовым файлам ЗДЕСЬ). [затронуты U + 1A55, 1A60, 1A80-1A89, 1A90-1A99]
			L2 / 14-177		Мур, Лиза (2014-08-21), "B.14.5", UTC # 140 минут. [затронутый U + 1A56-1A5E, 1A75-1A7C, 1A7F]
			L2 / 17-120		Уордингем, Ричард (2017-05-01), Исправления в индийской слоговой категории для скрипта Тай Тхам. [затронуты U + 1A57, 1A5A-1A5E, 1A74, 1A7A]
			L2 / 17-169		Pournader, Roozbeh (2017-05-12), Предлагаемые изменения индийской слоговой категории для Tai Tham для Unicode 10. [затронуты U + 1A57, 1A5A-1A5E, 1A74, 1A7A]
			L2 / 17-103		Мур, Лиза (2017-05-18), "B.14.9", UTC # 151 Минуты. [затронутые U + 1A57, 1A5A-1A5E, 1A74, 1A7A]
			L2 / 18-053		Pournader, Roozbeh (2018-01-24), Новая индийская слоговая категория Consonant_Initial_Postfixed. [затронутый U + 1A5A]
			L2 / 18-007		Мур, Лиза (2018-03-19), "B.14.7 ", UTC # 154 Минут. [затронутый U + 1A5A]
			L2 / 18-171		Уордингем, Ричард (2018-04-29), определение местоположения гласных ниже Тай Тхам. [задокументировано U + 1A69 и U + 1A6A]
			L2 / 18-241		Андерсон, Дебора; и другие. (2018-07-25), «15. Тай Тхам», Рекомендации к UTC № 156 июля 2018 по предложениям сценариев. [задокументировано U + 1A69 и U + 1A6A]
			L2 / 18-183		Мур, Лиза (2018-11-20), «D.12 Расположение гласных Тай Тхам ниже», UTC # 156 Минут. [задокументировано U + 1A69 и U + 1A6A]

Кодирование нижних согласных

Базовые и подстрочные согласные имеют разные кодировки, потому что такие слова, как ᨲᩥ᩠ᨠ и ᨲᩥᨠ, различаются как по внешнему виду, так и по звучанию. Подстрочные согласные кодируются как последовательность из 2 символов. Второй - основной символ, а первый - специальный символ U + 1A60 TAI THAM SIGN SAKOT.

Если согласная имеет две формы нижнего индекса и выбор влияет на значение, форма обычно используется для согласных в конце слога будет закодирован с помощью SAKOT, а другая форма будет иметь свой собственный код. Таким образом, есть 7 согласных с разными формами нижнего индекса, а именно RA, ᩃ LA, ᨷ BA, ᩈ HIGH SA, ᨾ MA, ᨳ HIGH RATA и ᨻ LOW PA.

ᨣᩕᩪ (Северное тайское произношение: ) кодируется как , но ᨠᩣ᩠ᩁ (IPA: ) кодируется как

ᩆᩦ᩠ᩃ (IPA: ) кодируется как , но ᨸᩖᩦ (IPA: ) - кодируется как . (Чтобы использовать LA в качестве последней буквы слога, сравните ᩁᨭᩛᨷᩣ᩠ᩃ (Северное тайское произношение: ).

U + 1A57 SIGN LA TANG LAI выглядит как , но по своему происхождению является лигатурой этого слова с . Tai Lue использует его, чтобы написать слово ᨴᩢ᩵ᩗᩣ (IPA: ).

ᨣᩝᩴ (IPA: ) кодируется как , но ᨠᩢ᩠ᨷ (IPA: ) кодируется как и ᨠᩢᨷ᩠ᨷ᩺ (IPA : ) кодируется как

В окончательном предложении, которое Консорциум Unicode принял, что то, что сейчас называется SIGN BA (как в), будет закодировано как , а то, что сейчас (как в ᨠᩢ᩠ᨷ) следует закодировать как , но во время процесса ISO значение изменилось и был добавлен SIGN BA. Однако исходное значение остается для слов из тайского языка tha t иметь ป как согласную в конце слога. (Это предложение ошибочно называет .)

Пали использует HIGH PA вместо BA в Лаосе и на северо-востоке Таиланда. Поэтому следует быть готовым найти , закодированный как на пали.

Тай Кхуен имеет два пути написания нижнего индекса HIGH SA. Они не взаимозаменяемы. В Tai Khuen писать ᩃᩮᩞ правильно, а писать ᩃᩮ᩠ᩈ неправильно, но писать ᩈᨶ᩠ᨶᩥᩅᩤ᩠ᩈ правильно, а писать ᩈᨶ᩠ᨶᩥᩅᩤᩞ неправильно! ᩃᩮᩞ кодируется как , а неправильный incorrect кодируется как .

У Tai Khuen есть дополнительный способ записи нижнего индекса MA. специальный код для этого дополнительного метода Слово, которое северные тайцы записывают как ᨵᨾ᩠ᨾ᩺, записывается на языке Tai Khuen как ᨵᨾ᩠ᨾ᩼, закодированное как , так и как закодированное ᨵᨾᩜ᩼ как .

Существует два способа записи нижнего индекса для HIGH RATHA и LOW PA. ᨶᩥᨣᨱᩛ кодируется как : [[Раджа bhat Университетская система | ᩁᩣᨩᨽᩢ᩠ᨮ]] кодируется . ᨶᩥᨻᩛᩣᨶ кодируется как : ᨴᩮ᩠ᨻ кодируется как . Последнее слово также пишется как ᨴᩮ᩠ᨷ. Согласный конъюнкт в лаосском стиле (кодируемый как ) выглядит так, как если бы он закодирован как . Форма U + 1A5B зависит от согласной, к которой она добавляется.

Зависимая гласная таких слов, как ᨯᩬᨠ 'цветок', кодируется специальной гласной ; не следует использовать последовательность . Также существует закодированная зависимая гласная для таких слов, как Tai Khuen, Tai Lue и лаосских слов, таких как ᨶ᩶ᩭ, а именно U + 1A6D SIGN OY. Этот гласный не кодируется как (это то, что северный тайский использует для соответствующих слов; это не последовательность ⁠

верхних согласных

надстрочных согласных кодируется независимо от основных согласных. Некоторые символы служат как согласные с надстрочными индексами, так и в других ролях, поэтому они обсуждаются далее в этом разделе.

Niggahita и кодируется как U + 1A74 MAI KANG. Надстрочный индекс WA не кодируется отдельно. Он кодируется как MAI KANG. Ибо Например, Tai Khuen ᨯ᩠ᨿᩴ (IPA: ) кодируется как . В целях упорядочения символов он обычно рассматривается как гласный.

NGA с начальным индексом кластера кодируется как U + 1A58 MAI KANG LAI. Обратите внимание, что в Лаосе обычно используется один и тот же символ для MAI KANG LAI и U + 1A59 SIGN FINAL NGA.

U + 1A62 MAI SAT обслуживает три роли - это гласная, конечная согласная и укорочитель гласных.

Выбор кодировки надстрочной формы RA и гласных убийц был затруднен ult. В 1940-х годах Тай Кхуэн одинаково писал согласные и убивающие гласные. Авторы кодирования навели справки, и им сказали, что глифы остались прежними, и поэтому они оба кодировали как U + 1A7A RA HAAM. Затем стало известно, что Тай Кхуэн изменил глифы убийцы гласных, и был добавлен новый символ U + 1A7C KARAN для стиля Тай Кхуен убийцы гласных. Некоторые северные тайские писатели предпочитают использовать U + 1A7C в качестве убийцы гласных, и, действительно, использование этого символа не является неизвестным в почерке северного Таиланда.

Специальные согласные

Специальные формы ᩓ и ᩕ кодируются кодовыми точками U + 1A53 и U + 1A55 соответственно.

Если символы U + 1A36 NA и U + 1A63 SIGN AA будут рядом, они записываются как лигатура ᨶᩣ, а не как два отдельных символа ᨶ‌ᩣ. Они записываются как лигатура, даже если к NA прикреплен нижний согласный или неследующий знак. Примеры: ᨾᨶ᩠ᨲᩣ (IPA:, кодировка ) и ᨶᩮᩢᩣ (IPA:, кодировка ). Нижний индекс NA и SIGN AA не лигируются одинаково, например ᩉ᩠ᨶᩣ ((IPA: ), закодировано )

Близнецовый согласный ᩔ кодируется отдельно, потому что слово ᩅᩥᩈᩮ᩠ᩈ (северное тайское произношение:, кодировка ) имеет внешний вид, сильно отличающийся от ᩅᩥᩔᩮ, но, возможно, придется сложить последний слог до . Действительно, в 2019–2020 годах проводилась кампания по установлению последнего как его стандартное написание.

Напротив, близнец согласный ᨬ᩠ᨬ кодируется как конъюнкт , хотя некоторые из его глифов могут напоминать гипотетический конъюнкт ᨱ᩠ᨬ .

Независимые гласные

Независимая гласная ᩋ и согласная ᩋ - это один и тот же символ, U + 1A4B.

Независимая гласная ᩋᩣ и последовательность согласной ᩋ и зависимой гласной ᩣ имеют одинаковый внешний вид ᩋᩣ и поэтому оба кодируются .

В северном Таиланде используется 5 независимых гласных с собственными кодовыми точками, а именно ᩍ, ᩎ, ᩏ, ᩐ и ᩑ.

В северном Таиланде 8-я независимая гласная не отличается от последовательности согласного ᩋ и зависимого гласного ᩰ, то есть ᩋᩰ, поэтому оба они закодированы . В других языках используется отдельный символ ᩒ U + 1A52 БУКВА OO для независимой гласной.

Порядок символов в тексте

Предложение по кодировке определило порядок символов Unicode.

Подобно способу написания бирманского, кхмерского и индийского языков, символы Unicode упорядочены в соответствии с порядком звуков, за исключением особых случаев, или если 2 звука объединяются в один звук, а затем используется старый порядок. Этот порядок обычно такой же, как на сиамском. Если звук не имеет порядка, используется визуальный порядок или особый альтернативный порядок.

Существуют особые правила для:

(a) Порядок гласных

(b) Написание майкиа во всех его вариантах

(d) Написание mai kam

(e) Написание тональных знаков

Порядок символов Unicode для согласных и гласных таков: начальные буквы, истинные гласные, согласные коды, начальные буквы, истинные гласные, согласные коды. Для удобства считается, что символы, убивающие гласные, являются гласными.

«Начальные буквы» - это согласные, независимые гласные или специальные символы. Согласные в группе упорядочены в соответствии с порядком, в котором они звучали или использовались для произнесения.

Пример: ᨻᩩᨴ᩠ᨵ (Северное тайское произношение: )

начальная буква: ᨻ

чистый гласный: ᩩ

конечный согласный: ᨴ

начальная буква: ᨵ

чистый гласный: без символа

конечный согласный: нет

Кодировка:

Пример: ᨻᩕ имеет один согласный звук Северное тайское произношение:, но раньше было 2 звука, а именно ᨻ, а затем ᩁ, как в центральном тайском языке. Это слово кодируется как .

За исключением MEDIAL RA, порядок глифов согласных такой же, как и порядок звуков. В большинстве случаев MEDIAL RA является последним согласным, но WA / ua / и LOW YA / ia / следуют за MEDIAL RA.

Примеры:

ᩆᩣᩈ᩠ᨲᩕ᩺ закодировано .

ᨠᩕᩈᩢ᩠ᨲ закодировано

ᩈᩕ᩠ᩅᨾ закодировано .

Но ᨲᩕ᩠ᨶᩬᨾ (Северное тайское произношение: ) кодируется

Для таких слов, как ᨧᩮᩢ᩶ᩣ, существует правило, согласно которому символы для гласных и тонов имеют следующий порядок:

(1) ведущие гласные

(2) гласные снизу (сверху вниз) б ottom)

(3) гласные вверху (снизу вверх)

(4) тональные знаки (слева направо)

(5) завершающие гласные (слева направо)

При применении этих правил МАЙ КАНГ считается гласным, хотя он действует как ниггахита или как согласный. Символ Юникода MAI SAT считается гласным, даже если он функционирует как согласный, то есть как mai kak, то есть как последний согласный, или как сокращающий гласный звук, как в ᨸᩮᩢ᩠ᨯ.

Относительный порядок знаков вверху и внизу должен соответствовать тайскому и лаосскому, как в เจ้า เกี่ ว ชุํ и ບິ່.

Примеры:

ᨧᩮᩢ᩶ᩣ кодируется как

ᨾᩢᩣ (IPA: ) кодируется как

ᩃᩪᩢ (IPA : ) кодируется как

ᨶᩮᩢᩣ кодируется как

ᩋᩫᨶ᩠ᨲᩕᩣ᩠ᨿ (Северное тайское произношение: ) кодируется как

Для / ia / и / ua / во всех их формах нижний индекс LOW YA и WA считается начальным согласным.

Примеры:

ᩈ᩠ᨿᩮ фактически кодируется

ᨸ᩠ᩃ᩠ᨿ᩵ᩁ фактически закодировано

ᨲ᩠ᩅᩫ фактически закодировано

ᩈ᩠ᩅ᩵ᩁ фактически закодировано

ᨠᩖ᩠ᩅ᩠᩶ᨿ фактически закодировано, поскольку

(канонически эквивалентно )

. За пределами Северного Таиланда MAI KANG в символе для / am / написано на компоненте SIGN AA. В Северном Таиланде его позиционируют по-разному - на согласную, на ЗНАК АА и между ними. Консорциум Unicode отказался от специального символа для комбинации. Слово ᨷᩴ᩠᩵ᨾᩣ ({{IPA-nod | bɔːmaː | IPA) не должно иметь ту же гласную, что и ᨲ᩵ᩣᩴ (IPA: ). Поэтому комбинация для / am / кодируется как . Слово ᨷᩴ᩠᩵ᨾᩣ кодируется как . Слово ᨲ᩵ᩣᩴ кодируется как . Комбинация для / am / с SIGN TALL AA кодируется как .

U + 1A5A SIGN LOW PA - это особый случай; слово Tai Lue ᨣᨽᩚ (IPA: ) кодируется как .

Примеры, показывающие mai kang lai и la tang lai:

палийское слово ᩈᩘᨥᩮᩣ (saṅgho) кодируется .

«ᨴᩘ᩠ᩃᩣ᩠ᨿ» (северное тайское произношение: ) кодируется

слово Tai Lue ᨴᩢᩗᩣ (произношение Tai Lue: ) закодировано .

Внешние ссылки

Chew, P., Saengboon, P., Wordingham, R. (2015). «Тай Тхам: гибридный сценарий, бросающий вызов текущим моделям кодирования». Представлено на конференции по интернационализации и Unicode (IUC 39).

Ссылки