ISO 639-3 - ISO 639-3

От Уикипедия, Свободната Енциклопедия

Pin
Send
Share
Send

ISO 639-3: 2007, Кодове за представяне на имена на езици - Част 3: Алфа-3 код за цялостно покритие на езиците, е международен стандарт за езикови кодове в ISO 639 серия. Той определя трибуквени кодове за идентифициране на езици. Стандартът е публикуван от Международна Организация по Стандартизация (ISO) на 1 февруари 2007 г.[1]

ISO 639-3 разширява ISO 639-2 алфа-3 кодове с цел да обхване всички известни естествени езици. Разширеното езиково покритие се основава главно на езиковите кодове, използвани в Етнолог (томове 10-14), публикувано от SIL International, което сега е регистрационен орган за ISO 639-3.[2] Предоставя възможно най-пълно изброяване на езици, включително живи и изчезнали, древни и конструирани, главни и незначителни, писмени и неписани.[1] Той обаче не включва реконструирани езици като Протоиндоевропейски.[3]

ISO 639-3 е предназначен за употреба като метаданни кодове в широк спектър от приложения. Той се използва широко в компютърни и информационни системи, като Интернет, в които трябва да се поддържат много езици. В архивите и другото хранилище на информация се използва в системите за каталогизиране, като се посочва на какъв език е ресурсът или за него. Кодовете също се използват често в лингвистичната литература и другаде, за да компенсират факта, че имената на езиците могат да бъдат неясни или двусмислени.

Намерете език
Въведете ISO 639-3 код, за да намерите съответната езикова статия.

Езикови кодове

ISO 639-3 включва всички езици на ISO 639-1 и всички отделни езици в ISO 639-2. ISO 639-1 и ISO 639-2 се фокусираха върху основните езици, най-често представени в цялото тяло на световната литература. Тъй като ISO 639-2 включва и езикови колекции, а Част 3 не, ISO 639-3 не е надмножество на ISO 639-2. Където В и Т кодове съществуват в ISO 639-2, ISO 639-3 използва Т-кодовете.

Примерни кодове за език на ISO
Език639-1639-2 (B / T)639-3 тип639-3 код
Английскибринжиндивидуаленинж
Немскидеger / deuиндивидуаленDeu
Арабскиарарамакросара
индивидуаленarb + други
Китайскиzhчи / жо[4][5]макросzho
мандаринаиндивидуаленcmn
Кантонскииндивидуаленюе
Минаниндивидуаленнан

Към 30 януари 2020 г., стандартът съдържа 7 868 записа.[6] Списъкът на езиците се базира на редица източници, включително: отделните езици, съдържащи се в 639-2, съвременни езици от Етнолог, исторически сортове, древни езици и изкуствени езици от Лингвистичен списък,[7] както и езици, препоръчани в рамките на годишния период на публично коментиране.

Машиночитаеми данни файловете се предоставят от регистриращия орган.[6] Съпоставянето от ISO 639-1 или ISO 639-2 към ISO 639-3 може да се извърши с помощта на тези файлове с данни.

ISO 639-3 има за цел да приема разграничения въз основа на критерии, които не са изцяло субективни.[8] Не е предназначен за документиране или предоставяне на идентификатори за диалекти или други подезикови вариации.[9] Независимо от това, преценките относно различията между езиците могат да бъдат субективни, особено в случай на езикови разновидности без установени литературни традиции, използване в образованието или медиите или други фактори, които допринасят за конвенционализацията на езика. Следователно стандартът не трябва да се разглежда като авторитетно изявление за това какви отделни езици съществуват в света (относно които в някои случаи може да има значителни разногласия), а просто като един полезен начин за точно идентифициране на различни езикови разновидности.

Кодово пространство

Тъй като кодът е трибуквен по азбучен ред, една горна граница за броя на езиците, които могат да бъдат представени, е 26 × 26 × 26 = 17 576. Тъй като ISO 639-2 дефинира специални кодове (4), запазен диапазон (520) и кодове само за В (22), 546 кодове не могат да се използват в част 3. Следователно по-строга горна граница е 17 576 - 546 = 17 030.

Горната граница става още по-строга, ако се извадят езиковите колекции, дефинирани в 639-2, и тези, които предстои да бъдат дефинирани в ISO 639-5.

Макролазици

В ISO 639-2 има 58 езика, които за целите на стандарта се считат за „макроезици“ в ISO 639-3.[10]

Някои от тези макроезици не е имал индивидуален език, както е дефиниран от ISO 639-3 в кодовия набор от ISO 639-2, напр. „ара“ (родов арабски). Други като „нито“ (норвежки) имаха своите две отделни части („nno“ (Нинорск), „nob“ (Bokmål)) вече в ISO 639-2.

Това означава, че някои езици (напр. „Arb“, стандартен арабски), които се считат от ISO 639-2 за диалекти на един език („ара“), сега са в ISO 639-3 в определени контексти, считани за отделни езици.

Това е опит за справяне със сортове, които могат да се различават езиково един от друг, но се разглеждат от техните говорители като две форми на един и същ език, напр. в случаите на диглосия.

Например:

Вижте[11] за пълния списък.

Колективни езици

„Елементът на колективен език е идентификатор, който представлява група от отделни езици, които не се считат за един език в контекста на използване.“[12] Тези кодове не представляват точно определен език или макроезик.

Докато ISO 639-2 включва трибуквени идентификатори за колективни езици, тези кодове са изключени от ISO 639-3. Следователно ISO 639-3 не е надмножество на ISO 639-2.

ISO 639-5 дефинира 3-буквени колективни кодове за езикови семейства и групи, включително колективните езикови кодове от ISO 639-2.

Специални кодове

Четири кода са заделени в ISO 639-2 и ISO 639-3 за случаите, когато нито един от специфичните кодове не е подходящ. Те са предназначени предимно за приложения като бази данни, където се изисква ISO код, независимо дали съществува.

  • мис (некодирани езици, първоначално съкращение за „разни“) е предназначен за езици, които (все още) не са включени в стандарта ISO.
  • mul (няколко езика) е предназначен за случаи, когато данните включват повече от един език и (например) базата данни изисква един ISO код.
  • унд (неопределен) е предназначен за случаи, в които езикът в данните не е идентифициран, например когато е с неправилно етикетиране или никога не е бил етикетиран. Не е предназначен за случаи като Троянски където непроверен език е получил име.
  • zxx (без лингвистично съдържание / не е приложимо) е предназначен за данни, които изобщо не са език, като повиквания на животни.[13]

В допълнение, 520 кода в обхвата каааqtz са „запазени за местна употреба“. Например Лингвистичен списък използва ги за изчезнали езици. Списъкът на лингвистите е присвоил на един от тях обща стойност: qnp, неназован протоезик. Това се използва за предложени междинни възли в родословно дърво, които нямат име.

Процеси на поддръжка

Кодовата таблица за ISO 639-3 е отворена за промени. За да се защити стабилността на съществуващата употреба, разрешените промени са ограничени до:[14]

  • модификации на справочната информация за запис (включително имена или категоризации за тип и обхват),
  • добавяне на нови записи,
  • оттегляне на записи, които са дублирани или фалшиви,
  • обединяване на един или повече записи в друг запис и
  • разделяне на съществуващ езиков запис на множество нови езикови записи.

Кодът, присвоен на даден език, не се променя, освен ако няма промяна в обозначението.[15]

Промените се правят на годишен цикъл. На всяка молба се дава минимален период от три месеца за обществено разглеждане.

Уеб сайтът ISO 639-3 има страници, които описват "обхвата на обозначението"[16] (вял видове) и видове езици,[17] които обясняват какви понятия са в обхвата за кодиране и определени критерии, които трябва да бъдат изпълнени. Например конструираните езици могат да бъдат кодирани, но само ако са предназначени за човешка комуникация и имат сборник от литература, предотвратяващ исканията за идиосинкратични изобретения.

Органът за регистрация документира на своя уебсайт инструкции, направени в текста на стандарта ISO 639-3 относно това как трябва да се поддържат кодовите таблици.[18] Той също така документира процесите, използвани за получаване и обработка на заявки за промяна.[19]

Предоставя се формуляр за заявка за промяна и има втори формуляр за събиране на информация относно предложените допълнения. Всяка страна може да подаде искания за промяна. Когато бъдат подадени, заявките първоначално се преглеждат от органа по регистрация за пълнота.

Когато бъде получена напълно документирана заявка, тя се добавя към публикуван индекс на заявка за промяна. Също така, съобщенията се изпращат до общия дискусионен списък на LINGUIST в Linguist List и други списъци, които регистрационният орган може да счита за подходящи, като приканва публичен преглед и въвеждане на исканата промяна. Всеки собственик на списък или физическо лице може да поиска известия за заявки за промяна за определени региони или езикови семейства. Получените коментари се публикуват за преглед от други страни. Въз основа на консенсус в получените коментари, искането за промяна може да бъде оттеглено или повишено до „статут на кандидат“.

Три месеца преди края на годишния цикъл на преглед (обикновено през септември) се задава съобщение към дискусионния списък на LINGUIST и други списъци относно заявките за промяна на статуса на кандидата. Всички искания остават отворени за преглед и коментар до края на годишния цикъл на преглед.

Решенията се обявяват в края на годишния цикъл на преглед (обикновено през януари). По това време исканията могат да бъдат приети изцяло или частично, изменени и пренесени в следващия цикъл на преглед или отхвърлени. Отхвърлянията често включват предложения за това как да се модифицират предложенията за повторно подаване. Публичен архив на всяка молба за промяна се поддържа заедно с взетите решения и обосновката на решенията.[20]

Критика

Лингвистите Морей, Пост и Фридман отправят различни критики към ISO 639, и по-специално ISO 639-3:[15]

  • Самите трибуквени кодове са проблематични, тъй като макар официално произволни технически етикети, те често се извличат от мнемонични съкращения за имена на езици, някои от които са унищожителни. Например, Йемса беше присвоен кодът jnj, от пейоратив "Janejero". По този начин тези кодове могат да се считат за обидни за местните говорители, но кодовете в стандарта, след като бъдат присвоени, не могат да бъдат променяни.
  • Администрирането на стандарта е проблематично, тъй като SIL е мисионерска организация с неадекватна прозрачност и отчетност. Решенията относно това, което заслужава да бъде кодирано като език, се вземат вътрешно. Докато въвеждането отвън може или не може да бъде приветствано, самите решения са непрозрачни и много лингвисти са се отказали да се опитват да подобрят стандарта.
  • Постоянното идентифициране на даден език е несъвместимо с промяната на езика.
  • Езиците и диалектите често не могат да бъдат строго разграничени и диалектни континууми може да се подраздели по много начини, докато стандартните привилегии са един избор. Такива разграничения често се основават вместо това на социални и политически фактори.
  • ISO 639-3 може да бъде погрешно разбран и злоупотребен от властите, които взимат решения относно идентичността и езика на хората, премахвайки правото на говорещите да се идентифицират или да се идентифицират с речта си. Въпреки че SIL е чувствителен към такива проблеми, този проблем е присъщ на естеството на установен стандарт, който може да бъде използван (или неправилно използван) по начини, които ISO и SIL не възнамеряват.

Мартин Хаспелмат се съгласява с четири от тези точки, но не и относно езиковата промяна.[21] Той не е съгласен, защото всеки разказ за даден език изисква идентифицирането му и ние лесно можем да идентифицираме различни етапи на даден език. Той предполага, че лингвистите могат да предпочетат да използват кодификация, направена в вял ниво, тъй като „за лингвистите рядко има значение дали това, за което говорят, е език, диалект или сплотено семейство езици“. Той също така се съмнява дали ISO стандартът за идентификация на езика е подходящ, тъй като ISO е индустриална организация, докато той разглежда езиковата документация и номенклатурата като научно начинание. Той цитира първоначалната необходимост от стандартизирани езикови идентификатори като "икономическото значение на превода и локализация на софтуера, "за които са установени стандартите ISO 639-1 и 639-2. Но той поражда съмнения относно необходимостта от индустрията за всеобхватно покритие, осигурено от ISO 639-3, включително, както го прави", малко известни езици на малки общности, които са никога или почти не се използва в писмена форма и които често са застрашени от изчезване ".

Употреба

  • Етнолог
  • Лингвистичен списък
  • OLAC: Архив на общността за отворени езици[22]
  • Microsoft Windows 8:[23] Поддържа всички кодове в ISO 639-3 по време на пускането.
  • Фондация Wikimedia: Новите езикови проекти (напр. Уикипедии на нови езици) трябва да имат идентификатор от ISO 639-1, -2 или -3.[24]
  • Други стандарти, които разчитат на ISO 639-3:

Препратки

  1. ^ а б „Състояние и резюме на ISO 639-3“. iso.org. 20.07.2010. Изтеглено 2012-06-14.
  2. ^ "Агенции за поддръжка и регистриращи органи". ISO.
  3. ^ „Видове отделни езици - древни езици“. sil.org. Изтеглено 2018-06-11.
  4. ^ Етнологичен доклад за ISO 639 код: zho Архивиран 2014-09-12 в Wayback машина на ethnologue.com
  5. ^ ISO639-3 на SIL.org
  6. ^ а б „Набор от кодове по ISO 639-3“. Sil.org. 2007-10-18. Изтеглено 2012-06-14.
  7. ^ "ISO 639-3". sil.org.
  8. ^ "Обхват на обозначението: индивидуални езици". sil.org.
  9. ^ "Обхват на обозначението: диалекти". sil.org.
  10. ^ „Обхват на обозначението: Macrolanguages“. sil.org. Изтеглено 2012-06-14.
  11. ^ "Macrolanguage Mappings". sil.org. Изтеглено 2012-06-14.
  12. ^ „Обхват на обозначението: Колективни езици“. sil.org. Изтеглено 2012-06-14.
  13. ^ Теренни записи на разговори с маймуни Vervet. Вписване в каталога на Консорциум за лингвистични данни. Посетен на 04.09.2012.
  14. ^ „Подаване на заявки за промяна по ISO 639-3: Видове промени“. sil.org.
  15. ^ а б Морей, Стивън; Пост, Марк У .; Фридман, Виктор А. (2013). Езиковите кодове на ISO 639: Преждевременна, в крайна сметка недостижима и вероятно увреждаща стандартизация. Конференция PRADISEC RRR. Архивирано от оригинала на 23.02.2016г. Изтеглено 2015-11-03.
  16. ^ "Обхват на обозначението за езикови идентификатори". sil.org.
  17. ^ „Видове езици“. sil.org.
  18. ^ "ISO 639-3 Управление на промените". sil.org.
  19. ^ „Подаване на заявки за промяна по ISO 639-3“. sil.org.
  20. ^ "ISO 639-3 Индекс на искане за промяна". sil.org.
  21. ^ Мартин Хаспелмат, "Може ли езиковата идентичност да бъде стандартизирана? Относно критиката на Морей и др. Към ISO 639-3", Коментар за лингвистика на многообразието, 2013/12/04
  22. ^ „Разширение на езика OLAC“. language-archives.org. Изтеглено 3 август 2015.
  23. ^ „Над 7000 езика, само 1 Windows“. Microsoft. 05.02.2014.
  24. ^ „Политика за езиково предложение“. wikimedia.org. Изтеглено 3 август 2015.
  25. ^ „BCP 47 - Етикети за идентифициране на езици“. ietf.org. Изтеглено 3 август 2015.
  26. ^ а б „Публикации на EPUB 3.0“. idpf.org. Изтеглено 3 август 2015.
  27. ^ "Условия за метаданни DCMI". purl.org. Изтеглено 3 август 2015.
  28. ^ „Двубуквени или трибуквени езикови кодове ISO“. w3.org. Изтеглено 3 август 2015.
  29. ^ „Езиков регистър“. Iana.org. Изтеглено 2015-08-12.
  30. ^ „3 семантика, структура и API на HTML документи - HTML5“. w3.org. Изтеглено 3 август 2015.
  31. ^ „Елементи - Насоки за потребителя на MODS: Схема за описание на обект на метаданни: MODS (Библиотека на Конгреса)“. loc.gov. Изтеглено 3 август 2015.
  32. ^ „Език на TEI елемент“. tei-c.org. Изтеглено 3 август 2015.

Допълнителна информация

външни връзки

Pin
Send
Share
Send