ISO 639 - это набор стандартов по Международная организация по стандартизации, которая занимается представлением имен для языков и языковых групп.
. Это также было название исходного стандарта, утвержденного в 1967 году (как ISO 639 / R) и отозван в 2002 году. Набор ISO 639 состоит из пяти частей.
Коды языков, определенные в нескольких разделах ISO 639, используются в библиографических целях и в вычислительной среде и в Интернете как ключевой элемент данных locale. Коды также находят применение в различных приложениях, таких как Wikipedia URL для разных языковых версий.
Стандарт | Имя (Коды для представления названий языков -...) | Орган регистрации | Первое издание | Текущее | No. в списке (по состоянию на 30 января 2020 г.) |
---|---|---|---|---|---|
ISO 639-1 | Часть 1: Код Alpha-2 | Infoterm | 1967 (как ISO 639) | 2002 | 184 |
ISO 639-2 | Часть 2: Код Alpha-3 | Библиотека Конгресса | 1998 | 1998 | 482 + 20 B-only + 4 special + 520 for local используйте |
ISO 639-3 | Часть 3: Код Alpha-3 для полного охвата языков | SIL International | 2007 | 2007 | 7,868 + 4 специальных + 520 для местных используйте |
ISO 639-4 | Часть 4: Руководство по внедрению и общие принципы языкового кодирования | ISO / TC 37 / SC 2 | 2010-07-16 | 16.07.2010 | (не список) |
ISO 639-5 | Часть 5: Код Alpha-3 для языковых семейств и групп | Библиотека Конгресса | 2008-05-15 | 2013-02-11 | 115 (включая 36 остатков + 29 обычных групп из ISO 632-2) |
ISO 639 -6 | Часть 6: Представление Alpha-4 для всестороннего охвата языковых вариантов (отозвано) | Geolang | 2009-11-17 | отозвано | 21,00 0+ |
Каждая часть стандарта поддерживается агентством по техническому обслуживанию, которое добавляет коды и при необходимости изменяет их статус. Стандарт ISO 639-6 был отменен в 2014 году.
Области применения:
bh
), некоторые коллекции уже были в Части 2, а другие были добавлены только в Части 5: mis
не подходит), или код alpha-3 для коллекций, таких как стандартные коды в части 5.Типы (для отдельных языков):
chb
, chg
, cop
, lui
, sam
; ни одного нет в Часть 1)аве
, чу
, lat
, pli
и san
, также имеют код в Части 1: ae
, cu
, la
, pi
, sa
)afh
, epo
, ido
, ile
, ina
, jbo
, tlh
, vol
, zbl
; 5 из них в Par t 1: eo
, ia
, ie
, io
, vo
)Отдельные языки и макроязыки с двумя различными кодами альфа-3 в Части 2:
Различные части ISO 639 разработаны для совместной работы таким образом, что никакой код не означает одно вещь в одной части и что-то другое в другой. Однако не все языки присутствуют во всех частях, и существует множество различных способов обработки отдельных языков и других элементов в разных частях. Это зависит, например, от того, включен ли язык в Части 1 или 2, имеет ли он отдельные коды B / T в Части 2 или классифицируется как макроязык в Части 3 и т. Д.
Эти различные методы лечения подробно описаны в следующей таблице. В каждой группе строк (по одной для каждой области применения ISO 639-3) последние четыре столбца содержат коды для репрезентативного языка, который иллюстрирует конкретный тип связи между частями ISO 639, второй столбец дает объяснение взаимосвязи., а в первом столбце указано количество элементов, имеющих этот тип связи. Например, есть четыре элемента, которые имеют код в Части 1, имеют код B / T и классифицируются как макроязыки в Части 3. Одним из представителей этих четырех элементов является «персидский» fa
/на
/ fas
.
Область применения | Количество случаев | Описание | Пример соответствия кодов | |||
---|---|---|---|---|---|---|
ISO 639-1 | ISO 639-2 | ISO 639-3 | ISO 639-5 | |||
Отдельные языки. («I») | 128 | Отдельные языки не являются частью макроязыка с кодом в каждой части 1, 2 и 3 (только один код в части 2).. В Части 1 имеется 184 присвоенных кода для отдельных языков, макроязыков или групп; вычтите те, что указаны в строках ниже, это оставляет: 184 - (2 "I (бывший B / T)") - (3 + 11 "I") - (3 + 2 "I (B / T)") - (28 + 4 + 1 + 1 «M») - (1 «C») = 128 кодов. | en | eng | — | |
2 | Отдельные языки, с кодами в каждой части 1, 2 и 3, которые имели отдельные коды B / T в части 2, но чьи коды B были отозваны (с 2008-06-28), сохранив свои коды T для всех целей. Это: hr /(scr ) / hrv и sr /(ser ) / srp .. Оба являются частью одного макроязыка hbs добавлен в Часть 3 для включения также других недавно закодированных отдельных языков, но его код sh в Части 1 также был отозван, и для него не было кода, определенного в Части 2. | hr | (scr) / hrv (B / T) | hrv | ||
3 | Отдельные языки, принадлежащие к макроязыку в Части 3, с одним кодом в Части 2, а также имеющие код в Части 1. Это: bs /bos (часть макроязыка hbs ), nb /nob и nn /non (обе части макроязыка no /и ). | nb | nob | |||
11 | Отдельные языки с отдельными кодами B / T в Части 2, но не в каких-либо особых случаях в следующих строках.. Есть 20 пар отдельных B / T коды, присвоенные в Части 2 отдельным языкам или макроязыкам; вычтите указанные ниже особые случаи, это оставляет: 20 - (3 + 2 «M») - (4 «C») = 11 пар кодов. | de | ger / deu (B / T) | deu | ||
3 | Отдельные языки с отдельными кодами B / T в Части 2, но буквы из кода Части 1 не являются первыми двумя буквами Части 2 Код T. Это: cs /cze / ces , mi /mao / mri и sk /slo / slk . | cs | cze / ces. (B / T) | ces | ||
3 | Отдельные языки в Частях 2 и 3 (не принадлежат к макроязыку), но которые были охвачены в Части 1 кодом, эквивалент которого в Части 2 является коллективным. Это: bho , mai и mag . | (bh) | bho | |||
few | Любой другой человек язык в Частях 2 и 3, без кода в Части 1. | — | ast | |||
1 | Отдельные языки, добавленные в Часть 3 без кодов в Частях 1 и 2, но которые были охвачены макроязыком в Частях 2 и 3, также закодированы в Части 1. | (ar) | (ara) | arb | ||
1 | Отдельный язык в Части 3, без кода в Части 2, но был рассмотрен в Части 1 код, эквивалент которого в Части 2 - коллективная группа (см. запись для этой группы ниже). | (bh) | (bih) | sck | ||
>7,000 | Любой другой отдельный язык в Части 3 без кода в Частях 1 и 2 (возможно, охваченный в Части 2 коллективным кодом, например nic «Нигер-Кодофаниан (Прочие)», который является остаточной группой). | — | (nic) | aaa | ||
Макроязыки. ("M") | 28 | Макроязыки в Части 3, которые также имеют коды в Части 1 и 2.. В Части 3 для макроязыков присвоено 62 кода; вычтите те, у которых есть особые случаи ниже, это оставляет: 62 - (4 «B / T») - 1 - (25 + 1 + 3 «не в Части 1») = 28 кодов. | ar | ara | ||
4 | Макроязыки в Части 3 с отдельными кодами B / T в Части 2. Это: fa /на / fas , ms /may / msa , sq /alb / sqi и zh /chi / zho . | fa | per / fas (B / T) | fas | ||
1 | Макроязык в Часть 3, содержащая языки, имеющие коды в Части 1. Только: no /или (содержащие: nb /nob и nn /non ). | no | ни | |||
25 | макроязыков в частях 2 и 3, но без кода в части 1. | — | bal | |||
1 | макроязыков в части 3, без кода в части 2 и чей код в Часть 1 устарела. | (sh) | — | hbs | ||
3 | Макроязыки в Части 3, без кодов в Частях 1 и 2. Это: bnc , kln и luy . | — | — | bnc | ||
Семьи и группы (коллективные). ("C") | 1 | Бихари помечены как коллективные и имеют код ISO 639-2 и также являются единственной языковой группой имеющий код ISO 639-1 (где все остальные коды являются отдельными языками или зарезервированы). Причина в том, что три отдельных языка бихари (которые настолько различаются, что не могут образовывать один и тот же макроязык для ISO 639-3) получили отличительные коды ISO 639-2 (bho , mai , mag ), что сделало бихари остальной группой для целей ISO 639-2 (содержащей языки группы, кроме этих трех). | bh | bih | — | bih |
35 | Остальные группы в части 2, то есть тот же код, но включены разные языки. В Части 2 afa относится к афро-азиатскому языку, который не имеет идентификатора индивидуального языка в Части 2, и который не попадает в три остальные группы: ber " Берберский (Другой) ", cus " Кушитский (Другой) "или sem " Семитский (Другой) ", все из которых являются афро-азиатскими языковыми группами. | — | afa | afa | ||
29 | Обычная группа в Части 2, такая же, как языковая семья в Части 5, без кода в Части 1. Среди них обычная группа ypk в Части 2 был единственным, который был закодирован в Части 5 как часть другой новой регулярной группы в Части 5, которая не была закодирована в Части 2 (см. ниже). | aus | aus | |||
50 | Обычные группы, добавленные только в Части 5, ранее не кодированные в Частях 1, 2 и 3. Большинство этих новых регулярных групп могут ранее были представлены другим коллективным кодом в Части 2 как часть группы остатка (например, группа остатка ine для новой регулярной группы sqj ), за исключением 7 из них: aav , esx , euq , hmx , jpx , urj , а также syd (часть новой обычной группы urj ). Обычная группа ypk (часть новой регулярной группы esx ), однако, уже была закодирована в Части 2. См. Иерархию языковых групп в Список кодов ISO 639-5. | — | sqj | |||
Специальные коды. ("S") | 1 | Доступны для использования в одноязычном контексте, когда требуется индивидуальный код языка, но сам язык не имеет стандартного кода. Более точной альтернативой может быть использование остаточной группы из ISO 639-2 или кода семейства языков из ISO 639-5, если другие языки в такой группе не должны быть исключены (поскольку они разделены своим собственным кодом) или отсутствует стандартный коллективный код. подходит. Некоторые приложения могут предпочесть использовать более конкретный код из тех, что зарезервированы для локального использования. | — | mis | — | |
1 | Многоязычный контент (включает как минимум два языка в отдельных частях). Используется, когда для всего контента ожидается единый языковой код. Отдельные языки или макроязыки для каждой части контента, возможно, еще не закодированы (и могут быть представлены как mis или, точнее, с помощью коллективного кода). | mul | ||||
1 | Не определено (содержимое включает ноль, один или несколько языков в произвольной комбинации). | и | ||||
1 | Никакой лингвистической информации (добавлено 11 января 2006 г.). Контент (например, графика, фотографии или аудио / видео записи, не включающие текст на человеческом языке или технические метаданные и большая часть исходного кода программ) можно использовать как есть на любом языке и не следует переводить (за исключением его описания, возможно связанного в отдельных содержимое или для несущественных фрагментов содержимого). | zxx | ||||
Зарезервировано для локального использования. ("R") | 20 | Коды Alpha2 в Части 1, в диапазоне qa .. qt . Эти коды не рекомендуются, но оставлены неназначенными в Части 1. | qa | — | ||
520 | Коды Alpha3 в Частях 2 и 3 в диапазоне qaa ... qtz . Эти коды также могут использоваться для коллективных языков (или других особых случаев), но никакие стандартные языковые семейства и группы не будут назначены вместе с ними в Части 5. | — | qaa |
Эти различия обусловлены следующими факторами.
В ISO 639-2 22 отдельным языкам были присвоены два различных кода, а именно код библиографии и код терминологии (коды B / T). Коды B были включены по историческим причинам, поскольку в предыдущих широко используемых библиографических системах языковые коды основывались на английском названии языка. В отличие от этого, коды ISO 639-1 основывались на родном названии языка, и было также сильное желание иметь коды 639-2 (T-коды) для этих языков, которые были бы похожи на соответствующий двухсимвольный код в ISO 639-1.
de
) имеет два кода в части 2: ger
(код B) и deu
(T-код), в то время как в части 2 есть только один код, eng
, для английского языка.Отдельные языки в Части 2 всегда имеют код в Части 3 (там повторно используется только терминологический код Части 2), но могут иметь или не иметь код в Части 1, как показано в следующих примерах:
eng
соответствует части 2 eng
, а часть 1 en
ast
соответствует части 2 ast
, но в ней отсутствует код в Части 1.Некоторые коды (62) в Части 3 являются макроязыками. Это группы, состоящие из нескольких отдельных языков, которые хорошо понимают друг друга и обычно смешиваются или путаются. Некоторые макроязыки разработали стандартную форму по умолчанию на одном из своих отдельных языков (например, китайский макроязык подразумевается по умолчанию для китайского макроязыка, другие отдельные языки могут по-прежнему выделяться, если это необходимо, но конкретный код cmn
для китайского редко используется).
ни
/no
не содержит не
/nn
, nob
/nb
; илиper
/ fas
/fa
, may
/ msa
/ms
, alb
/ sqi
/sq
и chi
/ zho
/zh
;Коллективные коды в Части 2 имеют код в Части 5: например, aus
в частях 2 и 5, что означает австралийские языки.
bih
/bh
.sqj
Части 2 и 3 также имеют зарезервированный диапазон и четыре специальных кода:
qaa
по qtz
зарезервированы для локального использования.mis
для языков, которым еще не назначен код, mul
для "нескольких языков", и
для "неопределенных" и zxx
для «без лингвистического содержания, неприменимо».коды «Alpha-2» (для кодов, состоящих из 2 буквы основного латинского алфавита ISO ) используются в ISO 639-1. Когда требовались коды для более широкого диапазона языков, можно было охватить более двух буквенных комбинаций (максимум 26 = 676), ISO 639-2 был разработан с использованием кодов Alpha-3. (Однако последний был официально опубликован первым.)
Коды «Alpha-3» (для кодов, состоящих из 3 букв основного латинского алфавита ISO ) используются в ISO 639-2, ISO 639-3 и ISO 639-5. Количество языков и языковых групп, которые могут быть представлены таким образом, составляет 26 = 17 576.
Обычное использование кодов Alpha-3 в трех частях ISO 639 требует некоторой координации в рамках более крупной системы.
Часть 2 определяет четыре специальных кода mis
, mul
, und
, zxx
, зарезервированный диапазон qaa-qtz
(20 × 26 = 520 кодов) и имеет 20 двойных записей (коды B / T) плюс 2 записи с устаревшими B-кодами. В сумме получается 520 + 22 + 4 = 546 кодов, которые нельзя использовать в части 3 для представления языков или в части 5 для представления языковых семей или групп. Остаток 17 576 - 546 = 17 030.
Сегодня на Земле около шести или семи тысяч языков. Таким образом, этих 17 030 кодов достаточно для присвоения уникального кода каждому языку, хотя некоторые языки могут иметь произвольные коды, которые не похожи на традиционные названия этого языка.
Коды «Alpha-4» (для кодов, состоящих из 4 букв основного латинского алфавита ISO ) были предложены используется в ISO 639-6, который был отменен. Верхний предел количества языков и диалектов, которые могут быть представлены, составляет 26 = 456 976.