Алфавитный порядок

редактировать
Система упорядочивания слов, имен и фраз

Алфавитный порядок - это система, в которой символьные строки размещаются по порядку, основанному на позиции символов в обычном порядке алфавита. Это один из методов сопоставления. В математике лексикографический порядок - это обобщение алфавитного порядка на другие типы данных, такие как последовательности цифр или чисел.

При применении к строкам или последовательностям, которые, помимо буквенных символов, могут содержать также цифры, числа или более сложные типы элементов, алфавитный порядок обычно называется лексикографическим порядком.

Чтобы определить, какая из двух строк символов идет первой при расположении в алфавитном порядке, сравниваются их первые буквы. Если они различаются, то строка, первая буква которой идет раньше в алфавите, идет раньше другой строки. Если первые буквы совпадают, то сравниваются вторые буквы и так далее. Если достигается позиция, в которой в одной строке больше нет букв для сравнения, а в другой - нет, то считается, что первая (более короткая) строка идет первой в алфавитном порядке.

Заглавные буквы (верхний регистр) обычно считаются идентичными соответствующим строчным буквам для целей алфавитного упорядочивания, хотя могут быть приняты соглашения для обработки ситуаций, когда две строки отличаются только заглавными буквами. Также существуют различные соглашения для обработки строк, содержащих пробелы, модифицированные буквы (например, с диакритическими знаками ) и небуквенные символы, такие как знаки пунктуации.

В результате размещения набора слов или строк в алфавитном порядке все строки, начинающиеся с одной и той же буквы, группируются вместе; и внутри этой группы все слова, начинающиеся с одной и той же двухбуквенной последовательности, сгруппированы вместе; и так далее. Таким образом, система стремится максимизировать количество общих начальных букв между соседними словами.

Содержание

  • 1 История
  • 2 Упорядочивание латинскими буквами
    • 2.1 Основной порядок и пример
    • 2.2 Обработка многословных строк
    • 2.3 Особые случаи
      • 2.3.1 Измененные буквы
      • 2.3.2 Упорядочивание по фамилии
      • 2.3.3 И другие общеупотребительные слова
      • 2.3.4 Префиксы Mac
      • 2.3.5 Лигатуры
    • 2.4 Обработка цифр
    • 2.5 Соглашения, связанные с языком
  • 3 Автоматизация
  • 4 Подобные порядки
  • 5 См. Также
  • 6 Ссылки
  • 7 Дополнительная литература
  • 8 Внешние ссылки

История

Алфавитный порядок был впервые использован в 1-м тысячелетие до н.э. писцами Северо-Запада, использующими систему Абджад. Однако ряд других методов классификации и упорядочивания материалов, включая географический, хронологический, иерархический и по категориям, на протяжении веков предпочитался алфавитному порядку. 124>

Библия датируется VI – VII веками до нашей эры. В Книге Иеремии пророк использует замещающий шифр Atbash , основанный на алфавитном порядке. Точно так же библейские авторы использовали акростих на основе (упорядоченного) еврейского алфавита.

. Первое эффективное использование алфавитного порядка в качестве инструмента каталогизации среди ученых, возможно, было в древней Александрии, в Великая Александрийская библиотека, основанная около 300 г. до н. Э. Считается, что поэт и ученый Каллимах, который там работал, создал первый в мире библиотечный каталог, известный как Pinakes, со свитками, расположенными на полках в алфавитном порядке. первой буквы имен авторов.

В I веке до нашей эры римский писатель Варрон составил алфавитные списки авторов и названий. Во II веке н. Э. Секст Помпей Фест написал энциклопедический краткий труд Верриуса Флакка, De verborum Signy с записями в алфавитном порядке. В III веке н. Э. Гарпократ написал гомеровский лексикон, алфавитный по всем буквам. В X веке автор Суда использовал алфавитный порядок с фонетическими вариациями.

Алфавитный порядок для помощи в консультациях начал входить в основное русло западноевропейской интеллектуальной жизни во второй половине XII века, когда были разработаны алфавитные инструменты для помощи проповедникам проанализировать библейскую лексику. Это привело к составлению алфавитных соответствий Библии доминиканскими монахами в Париже в 13 веке, при Гуго Сен-Шер. Старые справочные работы, такие как St. Толкования еврейских имен Иеронимом были упорядочены по алфавиту для облегчения консультации. Ученые изначально сопротивлялись использованию алфавитного порядка, ожидая, что их ученики овладеют своей областью обучения в соответствии с его собственными рациональными структурами; его успех был обусловлен такими инструментами, как указатель Роберта Килвардби к трудам St. Августина, что помогло читателям получить доступ к полному оригинальному тексту вместо того, чтобы полагаться на компиляции отрывков, которые стали заметными в схоластике 12 века. Принятие алфавитного порядка было частью перехода от первенства памяти к первенству письменных произведений. Идея упорядочения информации по алфавиту также встретила сопротивление составителей энциклопедий в XII и XIII веках, которые все были набожными церковниками. Они предпочли организовать свой материал теологически - в порядке творения Бога, начиная с Деуса (то есть Бога).

В 1604 году Роберт Кэудри должен был объяснить в Table Alphabeticall, первый одноязычный английский словарь, «Теперь, если слово, которое вы хотите найти, начинается с (a), то посмотрите в начале эту таблицу, но если с (v) посмотрите в конец ». Хотя еще в 1803 году Сэмюэл Тейлор Кольридж осуждал энциклопедии за «расположение, обусловленное случайностью начальных букв», сегодня многие списки основаны на этом принципе.

Упорядочение в алфавитном порядке можно рассматривать как фактор демократизации доступа к информации, так как не требуется обширных предварительных знаний, чтобы найти то, что было необходимо.

Упорядочивание латинским шрифтом

Основной порядок и пример

Стандартный порядок современного основного латинского алфавита ISO :

ABCDEFGHIJKLMNOPQRSTU-VWXYZ

Ниже приведен пример прямого алфавитного упорядочения:

  • Как; Астра; Астролябия; Астрономия; Астрофизика; В; Атаман; Атака; Baa

Другой пример:

  • Barnacle; Быть; Был; Выгода; Bent

Вышеупомянутые слова расположены в алфавитном порядке. Как идет до Астера, потому что они начинаются с тех же двух букв, а у А больше нет букв после этого, в то время как Астер делает. Следующие три слова идут после астры, потому что их четвертая буква (первая, которая отличается) - это r, которая идет после е (четвертая буква астры) в алфавите. Сами слова упорядочены по их шестым буквам (l, n и p соответственно). Затем идет Ат, который отличается от предыдущих слов второй буквой (t идет после s). Атаман идет после Ат по той же причине, по которой Астер пришел после Ас. Атака следует за атаманом на основе сравнения их третьих букв, а Баа следует за всеми остальными, потому что у него другая первая буква.

Обработка многословных строк

Когда некоторые из упорядочиваемых строк состоят из более чем одного слова, т. Е. Содержат пробелы или другие разделители, такие как дефисы, тогда можно использовать два основных подхода. В первом подходе все строки сначала упорядочиваются в соответствии с их первым словом, как в последовательности:

  • Дуб; Дубовый холм; Oak Ridge; Окли Парк; Oakley River
    , где все строки, начинающиеся с отдельного слова Oak, предшествуют всем строкам, начинающимся с Oakley, потому что Oak предшествует Oakley в алфавитном порядке.

Во втором подходе строки располагаются в алфавитном порядке, как если бы в них не было пробелов, что дает последовательность:

  • Дуб; Дубовый холм; Окли Парк; Река Окли; Oak Ridge
    где Oak Ridge теперь следует после строк Oakley, как если бы он был написан «Oakridge».

Второй подход обычно используется в словарях, и поэтому его часто называют заказ словаря от издателей. Первый подход часто использовался в книжных указателях, хотя каждый издатель традиционно устанавливал свои собственные стандарты для того, какой подход использовать в них; до 1975 г. не существовало стандарта ISO для указателей книг (ISO 999 ).

Особые случаи

Измененные буквы

Во французском языке измененные буквы (например, так как буквы с диакритическими знаками ) обрабатываются так же, как базовая буква для целей алфавитного порядка. Например, между роком и розой идет роль, как если бы это была написанная роль. Однако языки, которые используют такие буквы систематически, обычно имеют свои собственные правила упорядочивания. См. Соглашения для конкретных языков ниже.

Сортировка по фамилии

В большинстве культур, где фамилии пишутся после заданных имен, по-прежнему желательно сортировать списки имен (как в телефонных справочниках) сначала по фамилии. В этом случае необходимо изменить порядок имен для правильной сортировки. Например, Хуана Эрнандеса и Брайана О'Лири следует отсортировать как «Эрнандес, Хуан» и «О'Лири, Брайан», даже если они написаны иначе. Уловить это правило в компьютерном алгоритме сопоставления сложно, и простые попытки обязательно потерпят неудачу. Например, если в распоряжении алгоритма нет обширного списка фамилий, невозможно определить, является ли «Джиллиан Люсиль ван дер Ваал» «Ван дер Ваал, Джиллиан Люсиль», «Ваал, Джиллиан Люсиль ван дер», или даже «Люсиль ван дер Ваал, Джиллиан».

Упорядочивание по фамилии часто встречается в академическом контексте. В рамках одной статьи с несколькими авторами упорядочивание авторов в алфавитном порядке по фамилии, а не с помощью других методов, таких как обратный стаж или субъективная степень вклада в статью, рассматривается как способ «признательности за аналогичный вклад» или «избежать [ing] дисгармония в сотрудничающих группах ». Было обнаружено, что практика в некоторых областях упорядочивания цитат в библиографиях по фамилиям их авторов создает предвзятость в пользу авторов с фамилиями, которые появляются в начале алфавита, в то время как этот эффект не проявляется в полях в какие библиографии упорядочены в хронологическом порядке.

И другие общеупотребительные слова

Если фраза начинается с очень распространенного слова (например, "the", "a" или "an" в грамматике, называемых статьями), это слово иногда игнорируется или перемещается в конец фразы, но это не всегда так. Например, книга «Сияние » может рассматриваться как «Сияние» или «Сияние, Сияние» и, следовательно, перед названием книги «Лето Сэма », хотя может также можно трактовать просто как «Сияние» и после «Лето Сэма». Аналогично, «Морщинка во времени » может рассматриваться как «Морщинка во времени», «Морщинка во времени, A» или «Морщинка во времени». Все три метода алфавита довольно легко создать с помощью алгоритма, но многие программы вместо этого полагаются на простой лексикографический порядок. Статьи обычно игнорируются при расположении по алфавиту.

Префиксы Mac

Префиксы M 'и Mc в ирландских и шотландских фамилиях являются аббревиатурами для Mac и иногда располагаются в алфавитном порядке, как будто написано Mac полностью. Таким образом, Мак-Кинли мог быть указан перед Макинтошем (как если бы он был написан как «Мак-Кинли»). С появлением компьютерно-сортированных списков этот тип алфавита встречается реже, хотя он все еще используется в британских телефонных справочниках.

Лигатуры

Лигатуры (две или более буквы, объединенные в один символ), которые не считаются отдельными буквами, например Æ и Œ на английском языке, обычно сопоставляются так, как если бы буквы были отдельными - «эфир» и «эфир» были бы упорядочены одинаково по отношению ко всем другим словам. Это верно даже в том случае, если лигатура не является чисто стилистической, например, в заимствованных словах и фирменных наименованиях.

Может потребоваться принятие специальных правил для сортировки строк, которые различаются только тем, соединены ли две буквы лигатурой.

Обработка цифр

Когда некоторые из строк содержат цифры (или другие небуквенные символы), возможны различные подходы. Иногда такие символы обрабатываются так, как если бы они стояли до или после всех букв алфавита. Другой метод заключается в сортировке чисел в алфавитном порядке, как если бы они были написаны: например, 1776 будет отсортировано, как если бы было написано «семнадцать семьдесят шесть», а 24 heures du Mans как если написано «vingt-quatre...» (по-французски «двадцать четыре»). Когда цифры или другие символы используются в качестве специальных графических форм букв, например, 1337 для leet или фильма Seven (который был стилизован под Se7en), они могут быть отсортированы, как если бы они были эти буквы. Естественный порядок сортировки упорядочивает строки в алфавитном порядке, за исключением того, что многозначные числа обрабатываются как один символ и упорядочиваются по значению числа, закодированного цифрами.

Соглашения, специфичные для языка

Языки, в которых используется расширенный латинский алфавит, обычно имеют свои собственные соглашения для обработки дополнительных букв. Также в некоторых языках определенные орграфы обрабатываются как отдельные буквы для целей сопоставления. Например, 29-буквенный алфавит испанского рассматривает ñ как базовую букву, следующую за n, и ранее рассматривал орграфы ch и ll как базовые буквы, следующие за c и l, соответственно. Ch и ll по-прежнему считаются буквами, но теперь они расположены по алфавиту как двухбуквенные комбинации. (Новое правило алфавитизации было выпущено Королевской испанской академией в 1994 году.) С другой стороны, орграф rr следует за rqu, как и ожидалось, и сделал это даже до правила алфавита 1994 года.

В некоторых случаях, например, Kiowa, алфавит был полностью переупорядочен.

Правила алфавита, применяемые к различным языкам, перечислены ниже.

  • В азербайджанском есть восемь дополнительных букв к стандартному латинскому алфавиту. Пять из них - гласные: i, ı, ö, ü, ə и три - согласные: ç, ş, ğ. Алфавит такой же, как турецкий алфавит, с теми же звуками, записанными теми же буквами, за исключением трех дополнительных букв: q, x и ə для звуков, которых нет в турецком языке. Хотя все «турецкие буквы» упорядочены в их «нормальном» алфавитном порядке, как в турецком, три дополнительных буквы сопоставляются произвольно после букв, звуки которых близки к их. Итак, q сравнивается сразу после k, x (произносится как немецкое ch) сравнивается сразу после h, а ə (произносится примерно как английское сокращение a) сравнивается сразу после e.
  • В бретонском, нет "c", "q", "x", но есть орграфы "ch" и "c'h", которые сравниваются между "b" и "d". Например: «buzhugenn, chug, c'hoar, daeraouenn» (дождевой червь, сок, сестра, слеза).
  • на боснийском, хорватском и Сербский и другие родственные южнославянские языки, пять акцентированных знаков и три соединенных символа отсортированы после оригиналов:..., C, Č, Ć, D, DŽ, Đ, E,..., L, LJ, M, N, NJ, O,..., S, Š, T,..., Z, Ž.
  • на чешском и словацком, Гласные с ударением имеют вторичный вес при сопоставлении - по сравнению с другими буквами, они рассматриваются как их формы без ударения (A-Á, E-É-Ě, I-Í, O-Ó-Ô, U-Ú-Ů, Y-Ý), но затем они сортируются после букв без ударения (например, правильный лексикографический порядок: baa, baá, báa, bab, báb, bac, bác, bač, báč). Согласные с ударением (те, что с caron ) имеют первичный упорядочивающий вес и размещаются сразу после их безударных аналогов, за исключением Ď, Ň и Ť, которые снова имеют вторичный вес. CH считается отдельной буквой и находится между H и I. На словацком языке DZ и также считаются отдельными буквами и располагаются между Ď и E (A-Á-Ä-BC -Č-D-Ď-DZ-DŽ-E-É...).
  • В датском и норвежском алфавитах те же дополнительные гласные, что и в шведском (см. Ниже) также присутствует, но в другом порядке и с разными символами (..., X, Y, Z, Æ, Ø, Å ). Кроме того, «Aa» сравнивается как эквивалент «Å». В датском алфавите "W" традиционно рассматривается как вариант "V", но сегодня "W" считается отдельной буквой.
  • В голландском комбинация IJ (представляющая IJ ) раньше было сопоставлено как Y (или иногда как отдельная буква Y < IJ < Z), but is currently mostly collated as 2 letters (II < IJ < IK). Exceptions are phone directories; IJ is always collated as Y here because in many Dutch family names Y is used where modern spelling would require IJ. Note that a word starting with ij that is written with a capital I is also written with a capital J, for example, the town IJmuiden, река IJssel и страна IJsland (Исландия ).
  • В эсперанто согласные с циркумфлексом акценты (ĉ, ĝ, ĥ, ĵ, ŝ ), а также ŭ (u с breve ) считаются отдельными буквами и сопоставляются отдельно (c, ĉ, d, e, f, g, ĝ, h, ĥ, i, j, ĵ... s, ŝ, t, u, ŭ, v, z).
  • In Эстонский õ, ä, ö и ü считаются отдельными буквами и сопоставляются после w. Буквы š, z и ž появляются только в заимствованных словах и иностранных именах собственных и следовать за буквой s в эстонском алфавите, который в остальном не отличается от основного латинского алфавита.
  • Фарерский алфавит также имеет некоторые дополнительные буквы датского, норвежского и шведского языков, а именно Æ и Ø. Кроме того, фарерский алфавит использует исландский eth, который следует за D. Пять из шести гласных A, I, O, U и Y могут иметь ударения и после этого считаются отдельными буквами. Согласные C, Q, X, W и Z не найдены. Таким образом, первые пять букв - это A, Á, B, D и Ð, а последние пять - V, Y, Ý, Æ, Ø
  • . В филиппинском (тагальском) и других филиппинских языках буква Ng рассматривается как отдельное письмо. Оно произносится как пинг, пинг-понг и т. Д. Само по себе оно произносится как нанг, но в целом филиппинская орфография пишется так, как если бы это были две отдельные буквы ( п и ж). Кроме того, производные от букв (например, Ñ ) сразу же следуют за базовой буквой. Филиппинский также пишется с диакритическими знаками, но они используются очень редко (кроме тильды ). (Филиппинская орфография также включает орфографию.)
  • Финский алфавит и правила сопоставления такие же, как и для шведского.
  • Для французского последний акцент в данном слове определяет порядок. Например, во французском языке следующие четыре слова будут отсортированы таким образом: cote < côte < coté < côté.
  • В немецком буквы с умлаутом (Ä, Ö, Ü ) обычно обрабатываются так же, как и их версии без умлаута; ß всегда сортируется как ss. Это составляет алфавитный порядок Ärgerlich, Arg, Arm, Assistant, Aßlar, Assoziation. Для телефонных справочников и аналогичных списков имен умлауты должны быть сопоставлены как буквенные комбинации «ae», «oe», «ue», потому что ряд немецких фамилий появляется как с умлаутом, так и в неавторизованной форме с «e». "(Мюллер / Мюллер). Таким образом, в алфавитном порядке Udet, Übelacker, Uell, Ülle, Ueve, Üxküll, Uffenbach.
  • венгерские гласные имеют ударение, умляуты и двойные ударения, а согласные пишутся с одинарными, двойные (орграфы) или тройные (триграф) символы. При сопоставлении гласные с акцентом эквивалентны своим аналогам без ударения, а двойные и тройные символы следуют за их одиночными оригиналами. Венгерский алфавитный порядок: A = Á, B, C, Cs, D, Dz, Dzs, E = É, F, G., Gy, H, I = Í, J, K, L, Ly, M, N, Ny, O = Ó, Ö = Ő, P, Q, R, S, Sz, T, Ty, U = Ú, Ü = Ű, V, W, X, Y, Z, Zs . (До 1984 года dz и dzs не считались отдельными буквами для сопоставления, но вместо этого считались двумя буквами, d + z и d + zs.) Это означает, что, например, nádcukor должен предшествовать nádcsomó (даже если s обычно предшествует u), поскольку c предшествует cs в сопоставлении. Разницу в длине гласных следует учитывать только в том случае, если два слова идентичны в остальном (например, egér, éger). Пробелы и дефисы внутри фраз при сопоставлении игнорируются. Ch также встречается в некоторых словах как орграф, но не рассматривается как графема сама по себе с точки зрения сопоставления.
    Особенностью венгерского сопоставления является то, что сжатые формы двойных ди- и триграфов (например, ggy от gy + gy или ddzs от dzs + dzs) должны быть сопоставлены, как если бы они были написаны полностью (независимо от факт сокращения и элементы ди- или триграфов). Например, kaszinó должно предшествовать kassza (даже если четвертый символ z обычно идет после s в алфавите), потому что четвертый «символ» (графема ) слова kassza считается вторым sz (разложение ssz в sz + sz), который следует за i (в kaszinó).
  • В исландский добавляется, Þ, а за D следует Ð. За каждой гласной (A, E, I, O, U, Y) следует соответствующий ей с акутом : Á, É, Í, Ó, Ú, Ý. Z нет, поэтому алфавит заканчивается:... X, Y, Ý, Þ, Æ, Ö.
    • Обе буквы также использовались англосаксонскими писцами, которые также использовали руническую букву Винн для обозначения /w/.
    • Þ ( называемый шипом; нижний регистр þ) также является рунической буквой.
    • Ð (называется eth; нижний регистр ð) - это буква D с добавленным штрихом.
  • Kiowa упорядочивается по фонетическим принципам, как и Брахманское письмо, а не в историческом латинском порядке. Сначала идут гласные, затем прекращаются согласные, идущие от передней части к задней части рта, и от отрицательного к положительному время начала голоса, затем аффрикаты, щелочные, жидкие и назальные:
A, AU, E, I, O, U, B, F, P, V, D, J, T, TH, G, C, K, Q, CH, X, S, Z, L, Y, W, H, M, N
  • В литовском, конкретно литовские буквы идут после своих латинских оригиналов. Другое изменение: Y идет непосредственно перед J :... G, H, I, Į, Y, J, K...
  • In Польский, в частности, польские буквы, полученные из латинского алфавита, сравниваются после их оригиналов: A, Ą, B, C, Ć, D, E, Ę,..., L, Ł, M, N, Ń, O, Ó, P,..., S, Ś, T,..., Z, Ź, Ż. Орграфы для целей сопоставления обрабатываются так, как если бы они были двумя отдельными буквами.
  • В португальском порядок сортировки такой же, как в английском: A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z. Диграфы и буквы с диакритическими знаками не включаются алфавит.
  • В румынском специальные символы, полученные из латинского алфавита, сортируются после их оригиналов: A, Ă, Â,..., I, Î,..., S, Ș, T, Ț,..., Z.
  • Испанский трактовал (до 1994) "CH" и "LL" как отдельные буквы, давая порядок cinco, credo, chispa и lomo, luz, лама. Это уже не так, поскольку в 1994 г. RAE перешло на более традиционное использование, и теперь LL сопоставляется между LK и LM, а CH - между CG и CI. Шесть символов с диакритическими знаками Á, É, Í, Ó, Ú, Ü рассматриваются как исходные буквы A, E, I, O, U, например: radio, ráfaga, rana, rápido, rastrillo. Единственный вопрос сопоставления, относящийся к испанскому языку, - это Ñ (eñe ) как другая буква, сопоставленная после N.
  • В шведском алфавите есть три дополнительных гласных, помещенный в его конец (..., X, Y, Z, Å, Ä, Ö ), аналогично датскому и норвежскому алфавиту, но с другими глифами и другим порядком сортировки. Буква «W» рассматривалась как вариант «V», но в 13-м издании Svenska Akademiens ordlista (2006) «W» считалась отдельной буквой.
  • В В турецком алфавите есть 6 дополнительных букв: ç, ğ, ı, ö, ş и ü (но не q, w и x). Они сопоставляются с ç после c, ğ после g, ı до i, ö после o, ş после s и ü после u. Первоначально, когда в 1928 году был введен алфавит, ı был сопоставлен после i, но порядок был изменен позже, так что буквы, имеющие форму, содержащую точки, седили или другие украшения, всегда следовали за буквами с соответствующими голыми формами. Обратите внимание, что в турецкой орфографии буква I - это маджускула без точки ı, тогда как İ - это маджускула с точкой i.
  • Во многих тюркских языках (таких как азербайджанский или орфография Jaꞑalif для татарского ), раньше была буква Gha (Ƣƣ), которая находилась между G и Н. В настоящее время он не используется.
  • В вьетнамском есть 7 дополнительных букв: ă, â, đ, ê, ô, ơ, ư, а f, j, w, z отсутствуют, хотя они все еще используются (например, адрес в Интернете, иностранный заемный язык). «f» заменяется комбинацией «ph». То же, что и для "w", равно "qu".
  • В Volapük ä, ö и ü считаются отдельными буквами и сопоставляются отдельно (a, ä, b...o, ö, p... u, ü, v), а q и w отсутствуют.
  • В валлийском орграфы CH, DD, FF, NG, LL, PH, RH и TH обрабатываются как отдельные буквы, и каждая из них указывается после первого символа пары (за исключением NG, который указан после G), в результате получается порядок A, B, C, CH, D, DD, E, F, FF, G, NG, H и т. Д. Однако иногда случается, что сложение слов приводит к сопоставлению двух букв, которые не образуют орграф. Примером может служить слово LLONGYFARCH (составленное из LLON + GYFARCH). Это приводит к такому упорядочению, как, например, LAWR, LWCUS, LLONG, LLOM, LLONGYFARCH (NG - это орграф в LLONG, но не в LLONGYFARCH). Комбинация букв R + H (в отличие от орграфа RH) может аналогичным образом возникать при сопоставлении в составных словах, хотя это, как правило, не приводит к появлению пар, в которых неправильная идентификация может повлиять на упорядочение. Для других потенциально сбивающих с толку сочетаний букв, которые могут возникнуть, а именно D + D и L + L, в написании используется дефис (например, AD-DAL, CHWIL-LYS).

Автоматизация

Алгоритмы сопоставления (в сочетании с алгоритмами сортировки ) используются в компьютерном программировании для размещения строк в алфавитном порядке. Стандартным примером является алгоритм сортировки Unicode, который можно использовать для помещения строк, содержащих любые символы Unicode, в алфавитный порядок (расширение). Его можно сделать так, чтобы он соответствовал большинству языковых соглашений, описанных выше, настроив его таблицу сопоставления по умолчанию. Несколько таких приспособлений собраны в Common Locale Data Repository.

Подобные упорядочения

Принцип, лежащий в основе алфавитного упорядочения, все еще может применяться к языкам, которые, строго говоря, не используют алфавит - например, они могут быть написаны с использованием слогового письма или abugida - при условии, что используемые символы имеют установленный порядок.

Для логографических систем письма, таких как китайский hanzi или японский кандзи, метод сортировки по радикалам и штрихам часто используется как способ определения порядка символов. В японском языке иногда используется порядок произношения, чаще всего в порядке Годзюон, но иногда и в более старом порядке Ироха.

В математике лексикографический порядок - это средство упорядочивания последовательностей способом, аналогичным тому, который используется для создания алфавитного порядка.

Некоторые компьютерные приложения используют версию алфавитного порядка это может быть достигнуто с помощью очень простого алгоритма, основанного исключительно на кодах ASCII или Unicode для символов. Это может иметь нестандартные эффекты, например размещение всех заглавных букв перед строчными. См. ASCIIбетальный порядок.

A Словарь рифм основан на сортировке слов в алфавитном порядке, начиная с последней буквы слова.

См. Также

Ссылки

Дополнительная литература

  • Chauvin, Yvonne. Pratique du classement alphabétique. 4e éd. Paris: Bordas, 1977. ISBN 2-04-010155-1

Внешние ссылки

Последняя правка сделана 2021-06-11 02:07:24
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте