Алфавитный порядок - это система, в которой символьные строки размещаются по порядку, основанному на позиции символов в обычном порядке алфавита. Это один из методов сопоставления. В математике лексикографический порядок - это обобщение алфавитного порядка на другие типы данных, такие как последовательности цифр или чисел.
При применении к строкам или последовательностям, которые, помимо буквенных символов, могут содержать также цифры, числа или более сложные типы элементов, алфавитный порядок обычно называется лексикографическим порядком.
Чтобы определить, какая из двух строк символов идет первой при расположении в алфавитном порядке, сравниваются их первые буквы. Если они различаются, то строка, первая буква которой идет раньше в алфавите, идет раньше другой строки. Если первые буквы совпадают, то сравниваются вторые буквы и так далее. Если достигается позиция, в которой в одной строке больше нет букв для сравнения, а в другой - нет, то считается, что первая (более короткая) строка идет первой в алфавитном порядке.
Заглавные буквы (верхний регистр) обычно считаются идентичными соответствующим строчным буквам для целей алфавитного упорядочивания, хотя могут быть приняты соглашения для обработки ситуаций, когда две строки отличаются только заглавными буквами. Также существуют различные соглашения для обработки строк, содержащих пробелы, модифицированные буквы (например, с диакритическими знаками ) и небуквенные символы, такие как знаки пунктуации.
В результате размещения набора слов или строк в алфавитном порядке все строки, начинающиеся с одной и той же буквы, группируются вместе; и внутри этой группы все слова, начинающиеся с одной и той же двухбуквенной последовательности, сгруппированы вместе; и так далее. Таким образом, система стремится максимизировать количество общих начальных букв между соседними словами.
Алфавитный порядок был впервые использован в 1-м тысячелетие до н.э. писцами Северо-Запада, использующими систему Абджад. Однако ряд других методов классификации и упорядочивания материалов, включая географический, хронологический, иерархический и по категориям, на протяжении веков предпочитался алфавитному порядку. 124>
Библия датируется VI – VII веками до нашей эры. В Книге Иеремии пророк использует замещающий шифр Atbash , основанный на алфавитном порядке. Точно так же библейские авторы использовали акростих на основе (упорядоченного) еврейского алфавита.
. Первое эффективное использование алфавитного порядка в качестве инструмента каталогизации среди ученых, возможно, было в древней Александрии, в Великая Александрийская библиотека, основанная около 300 г. до н. Э. Считается, что поэт и ученый Каллимах, который там работал, создал первый в мире библиотечный каталог, известный как Pinakes, со свитками, расположенными на полках в алфавитном порядке. первой буквы имен авторов.
В I веке до нашей эры римский писатель Варрон составил алфавитные списки авторов и названий. Во II веке н. Э. Секст Помпей Фест написал энциклопедический краткий труд Верриуса Флакка, De verborum Signy с записями в алфавитном порядке. В III веке н. Э. Гарпократ написал гомеровский лексикон, алфавитный по всем буквам. В X веке автор Суда использовал алфавитный порядок с фонетическими вариациями.
Алфавитный порядок для помощи в консультациях начал входить в основное русло западноевропейской интеллектуальной жизни во второй половине XII века, когда были разработаны алфавитные инструменты для помощи проповедникам проанализировать библейскую лексику. Это привело к составлению алфавитных соответствий Библии доминиканскими монахами в Париже в 13 веке, при Гуго Сен-Шер. Старые справочные работы, такие как St. Толкования еврейских имен Иеронимом были упорядочены по алфавиту для облегчения консультации. Ученые изначально сопротивлялись использованию алфавитного порядка, ожидая, что их ученики овладеют своей областью обучения в соответствии с его собственными рациональными структурами; его успех был обусловлен такими инструментами, как указатель Роберта Килвардби к трудам St. Августина, что помогло читателям получить доступ к полному оригинальному тексту вместо того, чтобы полагаться на компиляции отрывков, которые стали заметными в схоластике 12 века. Принятие алфавитного порядка было частью перехода от первенства памяти к первенству письменных произведений. Идея упорядочения информации по алфавиту также встретила сопротивление составителей энциклопедий в XII и XIII веках, которые все были набожными церковниками. Они предпочли организовать свой материал теологически - в порядке творения Бога, начиная с Деуса (то есть Бога).
В 1604 году Роберт Кэудри должен был объяснить в Table Alphabeticall, первый одноязычный английский словарь, «Теперь, если слово, которое вы хотите найти, начинается с (a), то посмотрите в начале эту таблицу, но если с (v) посмотрите в конец ». Хотя еще в 1803 году Сэмюэл Тейлор Кольридж осуждал энциклопедии за «расположение, обусловленное случайностью начальных букв», сегодня многие списки основаны на этом принципе.
Упорядочение в алфавитном порядке можно рассматривать как фактор демократизации доступа к информации, так как не требуется обширных предварительных знаний, чтобы найти то, что было необходимо.
Стандартный порядок современного основного латинского алфавита ISO :
Ниже приведен пример прямого алфавитного упорядочения:
Другой пример:
Вышеупомянутые слова расположены в алфавитном порядке. Как идет до Астера, потому что они начинаются с тех же двух букв, а у А больше нет букв после этого, в то время как Астер делает. Следующие три слова идут после астры, потому что их четвертая буква (первая, которая отличается) - это r, которая идет после е (четвертая буква астры) в алфавите. Сами слова упорядочены по их шестым буквам (l, n и p соответственно). Затем идет Ат, который отличается от предыдущих слов второй буквой (t идет после s). Атаман идет после Ат по той же причине, по которой Астер пришел после Ас. Атака следует за атаманом на основе сравнения их третьих букв, а Баа следует за всеми остальными, потому что у него другая первая буква.
Когда некоторые из упорядочиваемых строк состоят из более чем одного слова, т. Е. Содержат пробелы или другие разделители, такие как дефисы, тогда можно использовать два основных подхода. В первом подходе все строки сначала упорядочиваются в соответствии с их первым словом, как в последовательности:
Во втором подходе строки располагаются в алфавитном порядке, как если бы в них не было пробелов, что дает последовательность:
Второй подход обычно используется в словарях, и поэтому его часто называют заказ словаря от издателей. Первый подход часто использовался в книжных указателях, хотя каждый издатель традиционно устанавливал свои собственные стандарты для того, какой подход использовать в них; до 1975 г. не существовало стандарта ISO для указателей книг (ISO 999 ).
Во французском языке измененные буквы (например, так как буквы с диакритическими знаками ) обрабатываются так же, как базовая буква для целей алфавитного порядка. Например, между роком и розой идет роль, как если бы это была написанная роль. Однако языки, которые используют такие буквы систематически, обычно имеют свои собственные правила упорядочивания. См. Соглашения для конкретных языков ниже.
В большинстве культур, где фамилии пишутся после заданных имен, по-прежнему желательно сортировать списки имен (как в телефонных справочниках) сначала по фамилии. В этом случае необходимо изменить порядок имен для правильной сортировки. Например, Хуана Эрнандеса и Брайана О'Лири следует отсортировать как «Эрнандес, Хуан» и «О'Лири, Брайан», даже если они написаны иначе. Уловить это правило в компьютерном алгоритме сопоставления сложно, и простые попытки обязательно потерпят неудачу. Например, если в распоряжении алгоритма нет обширного списка фамилий, невозможно определить, является ли «Джиллиан Люсиль ван дер Ваал» «Ван дер Ваал, Джиллиан Люсиль», «Ваал, Джиллиан Люсиль ван дер», или даже «Люсиль ван дер Ваал, Джиллиан».
Упорядочивание по фамилии часто встречается в академическом контексте. В рамках одной статьи с несколькими авторами упорядочивание авторов в алфавитном порядке по фамилии, а не с помощью других методов, таких как обратный стаж или субъективная степень вклада в статью, рассматривается как способ «признательности за аналогичный вклад» или «избежать [ing] дисгармония в сотрудничающих группах ». Было обнаружено, что практика в некоторых областях упорядочивания цитат в библиографиях по фамилиям их авторов создает предвзятость в пользу авторов с фамилиями, которые появляются в начале алфавита, в то время как этот эффект не проявляется в полях в какие библиографии упорядочены в хронологическом порядке.
Если фраза начинается с очень распространенного слова (например, "the", "a" или "an" в грамматике, называемых статьями), это слово иногда игнорируется или перемещается в конец фразы, но это не всегда так. Например, книга «Сияние » может рассматриваться как «Сияние» или «Сияние, Сияние» и, следовательно, перед названием книги «Лето Сэма », хотя может также можно трактовать просто как «Сияние» и после «Лето Сэма». Аналогично, «Морщинка во времени » может рассматриваться как «Морщинка во времени», «Морщинка во времени, A» или «Морщинка во времени». Все три метода алфавита довольно легко создать с помощью алгоритма, но многие программы вместо этого полагаются на простой лексикографический порядок. Статьи обычно игнорируются при расположении по алфавиту.
Префиксы M 'и Mc в ирландских и шотландских фамилиях являются аббревиатурами для Mac и иногда располагаются в алфавитном порядке, как будто написано Mac полностью. Таким образом, Мак-Кинли мог быть указан перед Макинтошем (как если бы он был написан как «Мак-Кинли»). С появлением компьютерно-сортированных списков этот тип алфавита встречается реже, хотя он все еще используется в британских телефонных справочниках.
Лигатуры (две или более буквы, объединенные в один символ), которые не считаются отдельными буквами, например Æ и Œ на английском языке, обычно сопоставляются так, как если бы буквы были отдельными - «эфир» и «эфир» были бы упорядочены одинаково по отношению ко всем другим словам. Это верно даже в том случае, если лигатура не является чисто стилистической, например, в заимствованных словах и фирменных наименованиях.
Может потребоваться принятие специальных правил для сортировки строк, которые различаются только тем, соединены ли две буквы лигатурой.
Когда некоторые из строк содержат цифры (или другие небуквенные символы), возможны различные подходы. Иногда такие символы обрабатываются так, как если бы они стояли до или после всех букв алфавита. Другой метод заключается в сортировке чисел в алфавитном порядке, как если бы они были написаны: например, 1776 будет отсортировано, как если бы было написано «семнадцать семьдесят шесть», а 24 heures du Mans как если написано «vingt-quatre...» (по-французски «двадцать четыре»). Когда цифры или другие символы используются в качестве специальных графических форм букв, например, 1337 для leet или фильма Seven (который был стилизован под Se7en), они могут быть отсортированы, как если бы они были эти буквы. Естественный порядок сортировки упорядочивает строки в алфавитном порядке, за исключением того, что многозначные числа обрабатываются как один символ и упорядочиваются по значению числа, закодированного цифрами.
Языки, в которых используется расширенный латинский алфавит, обычно имеют свои собственные соглашения для обработки дополнительных букв. Также в некоторых языках определенные орграфы обрабатываются как отдельные буквы для целей сопоставления. Например, 29-буквенный алфавит испанского рассматривает ñ как базовую букву, следующую за n, и ранее рассматривал орграфы ch и ll как базовые буквы, следующие за c и l, соответственно. Ch и ll по-прежнему считаются буквами, но теперь они расположены по алфавиту как двухбуквенные комбинации. (Новое правило алфавитизации было выпущено Королевской испанской академией в 1994 году.) С другой стороны, орграф rr следует за rqu, как и ожидалось, и сделал это даже до правила алфавита 1994 года.
В некоторых случаях, например, Kiowa, алфавит был полностью переупорядочен.
Правила алфавита, применяемые к различным языкам, перечислены ниже.
Алгоритмы сопоставления (в сочетании с алгоритмами сортировки ) используются в компьютерном программировании для размещения строк в алфавитном порядке. Стандартным примером является алгоритм сортировки Unicode, который можно использовать для помещения строк, содержащих любые символы Unicode, в алфавитный порядок (расширение). Его можно сделать так, чтобы он соответствовал большинству языковых соглашений, описанных выше, настроив его таблицу сопоставления по умолчанию. Несколько таких приспособлений собраны в Common Locale Data Repository.
Принцип, лежащий в основе алфавитного упорядочения, все еще может применяться к языкам, которые, строго говоря, не используют алфавит - например, они могут быть написаны с использованием слогового письма или abugida - при условии, что используемые символы имеют установленный порядок.
Для логографических систем письма, таких как китайский hanzi или японский кандзи, метод сортировки по радикалам и штрихам часто используется как способ определения порядка символов. В японском языке иногда используется порядок произношения, чаще всего в порядке Годзюон, но иногда и в более старом порядке Ироха.
В математике лексикографический порядок - это средство упорядочивания последовательностей способом, аналогичным тому, который используется для создания алфавитного порядка.
Некоторые компьютерные приложения используют версию алфавитного порядка это может быть достигнуто с помощью очень простого алгоритма, основанного исключительно на кодах ASCII или Unicode для символов. Это может иметь нестандартные эффекты, например размещение всех заглавных букв перед строчными. См. ASCIIбетальный порядок.
A Словарь рифм основан на сортировке слов в алфавитном порядке, начиная с последней буквы слова.