Značka jazyka IETF - IETF language tag

IETF BCP 47 jazyková tag je standardizovaný kód nebo značka, která se používá k identifikaci lidských jazyků v oblasti internetového programování, jak je používán výpočetní standardy jako HTTP , HTML , XML a PNG . Struktura tagů byla standardizována pracovní skupinou Internet Engineering Task Force (IETF) v Best Current Practice (BCP) 47 ; Tagy podřazené tagu jsou udržovány IANA jazykové podzáložky registru . K rozlišení jazykových variant pro země , regiony nebo systémy psaní kombinují jazykové značky IETF dílčí značky z jiných norem, jako jsou ISO 639 , ISO 15924 , ISO 3166-1 a UN M.49 .

Je pozoruhodné, že tag en znamená anglicky ; es-419 pro latinskoamerickou španělštinu ; rm-sursilv pro Sursilvan ; gsw-u-sd-chzh pro curyšskou němčinu ; nan-Hant-TW pro Min Nan čínštinu, jak se mluví na Tchaj-wanu pomocí tradičních znaků Han .

Dějiny

Jazykové tagy IETF byly poprvé definovány v RFC 1766, editoval Harald Tveit Alvestrand , publikováno v březnu 1995. Štítky používaly dvoupísmenné jazykové kódy ISO 639 a dvoupísmenné kódy zemí ISO 3166 a umožňovaly registraci celých tagů, které zahrnovaly variantní nebo skriptové štítky se třemi až osmi písmeny.

V lednu 2001 to aktualizoval RFC 3066, který přidal použití třípísmenných kódů ISO 639-2 , povolené podznačky s číslicemi a přijal koncept jazykových rozsahů od HTTP/1.1, aby pomohl s párováním jazykových značek.

Další revize specifikace proběhla v září 2006 vydáním RFC 4646 (hlavní část specifikace), kterou upravili Addison Philips a Mark Davis a RFC 4647 (která se zabývá shodným chováním). RFC 4646 zavedl strukturovanější formát pro jazykové tagy, přidal použití čtyřpísmenných skriptových kódů ISO 15924 a třímístných geografických kódů UN M.49 a nahradil starý registr tagů novým registrem podznaček. Malý počet dříve definovaných tagů, které neodpovídaly nové struktuře, byl dělán, aby byla zachována kompatibilita s RFC 3066.

Aktuální verze specifikace, RFC 5646, byla zveřejněna v září 2009. Hlavním účelem této revize bylo začlenit třípísmenné kódy z ISO 639-3 a 639-5 do registru jazykových podznaček za účelem zvýšení interoperability mezi ISO 639 a BCP 47.

Syntaxe jazykových značek

Každá značka jazyka se skládá z jednoho nebo více „podznaček“ oddělených pomlčkami (-). Každý dílčí tag se skládá pouze ze základních latinských písmen nebo číslic.

S výjimkou soukromého používání jazyka značky začínající s x- předpony a grandfathered jazykových značek (včetně těch, které začínají s i- předponou a ty dříve registrována ve starém jazyku značek Registry), vyskytují Tagy podřazené tagu v následujícím pořadí:

  • Podznačka jednoho primárního jazyka na základě dvoupísmenného jazykového kódu z ISO 639-1 (2002) nebo třípísmenného kódu z ISO 639-2 (1998), ISO 639-3 (2007) nebo ISO 639-5 (2008 ), nebo registrované prostřednictvím procesu BCP 47 a skládající se z pěti až osmi písmen;
  • Až tři volitelné tagy rozšířeného jazyka složené ze tří písmen, oddělené spojovníky; (V současné době není v rejstříku jazykových podzáznamů registrován žádný rozšířený jazykový podtag bez ekvivalentního a upřednostňovaného hlavního tagu primárního jazyka. Tato složka jazykových značek je zachována pro zpětnou kompatibilitu a umožňuje budoucí části ISO 639.)
  • Volitelný podtitul skriptu , založený na čtyřpísmenném skriptovém kódu z ISO 15924 (obvykle napsaný v Case Case );
  • Nepovinný dílčí tag regionu založený na dvoupísmenném kódu země podle ISO 3166-1 alpha-2 (obvykle psaném velkými písmeny) nebo třímístném kódu z UN M.49 pro geografické oblasti;
  • Volitelné variantní tagy oddělené pomlčkami, každý složený z pěti až osmi písmen nebo čtyř znaků začínajících číslicí; (Značky variant jsou registrovány u IANA a nejsou spojeny s žádným externím standardem.)
  • Volitelné doplňkové tagy oddělené pomlčkami, každý složený z jednoho znaku, s výjimkou písmene x , a spojovník následovaný jedním nebo více štítky se dvěma až osmi znaky oddělenými spojovníky;
  • Volitelný dílčí tag pro soukromé použití , složený z písmene x a spojovníku, za nímž následují štítky po jednom až osmi znacích, oddělené spojovníky.

V tagech se nerozlišují malá a velká písmena , ale specifikace doporučuje použít stejný případ jako v registru jazykových subtagů, kde tagy regionů jsou UPPERCASE , tagy skriptů jsou Case Case a všechny ostatní tagy jsou malými písmeny . Tato kapitalizace se řídí doporučeními příslušných norem ISO.

Volitelné tagy skriptu a oblasti se upřednostňují, aby byly vynechány, pokud ke značce jazyka nepřidávají žádné rozlišující informace. Například es je upřednostňováno před es-Latn , protože se plně očekává, že španělština bude napsána latinským písmem; ja je upřednostňován před ja-JP , protože japonština používaná v Japonsku se nijak výrazně neliší od japonštiny používané jinde.

Ne všechny lingvistické oblasti mohou být zastoupeny platným regionálním tagem: subnárodní regionální dialekty primárního jazyka jsou registrovány jako variantní tagy. Například Valencia varianta podřízenou značkou značky pro Valencie dialekt Catalana je zapsána v jazyka podzáložky registru s předponou cca . Jelikož se tímto dialektem mluví téměř výlučně ve Španělsku, lze regionální tag ES běžně vynechat.

Značky jazyka IETF byly použity jako identifikátory národních prostředí v mnoha aplikacích. Může být nutné, aby tyto aplikace zavedly vlastní strategii pro definování, kódování a přizpůsobování národních prostředí, pokud strategie popsaná v RFC 4647 není adekvátní.

Použití, interpretace a párování jazykových značek IETF je aktuálně definováno v RFC 5646 a RFC 4647. Registr jazykových podznaček uvádí všechny aktuálně platné veřejné podznačky. Podznačky pro soukromé použití nejsou v registru zahrnuty, protože závisí na implementaci a podléhají soukromým dohodám mezi třetími stranami, které je používají. Tyto soukromé dohody nespadají do působnosti BCP 47.

Vztah k jiným standardům

Ačkoli některé typy podznaček jsou odvozeny od základních norem ISO nebo OSN , nedodržují tyto normy absolutně, protože by to mohlo vést k tomu, že se význam jazykových značek v průběhu času změní. Zejména podznačka odvozená z kódu přiřazeného ISO 639 , ISO 15924 , ISO 3166 nebo UN M.49 zůstává platným (i když zastaralým) podznačkou, i když je kód stažen z odpovídající základní normy. Pokud standard později přiřadí staženému kódu nový význam, odpovídající podznačka si stále zachová svůj starý význam.

Tato stabilita byla zavedena v RFC 4646.

ISO 639-3 a ISO 639-1

RFC 4646 definoval koncept „subtag rozšířeného jazyka“ (někdy označovaného jako extlang ), ačkoli v té době nebyly žádné takové subtagy registrovány.

RFC 5645 a RFC 5646 přidaly tagy primárního jazyka odpovídající kódům ISO 639-3 pro všechny jazyky, které v registru dosud neexistovaly. Kromě toho byly kódy pro jazyky obsažené v určitých makrojazycích registrovány jako rozšířené jazykové tagy. Znakové jazyky byly také zaregistrovány jako extlangy s předponou sgn . Tyto jazyky mohou být zastoupeny buď podznačkou pro samotný zahrnutý jazyk ( cmn pro mandarínštinu), nebo kombinací jazyka a rozšíření ( zh-cmn ). Pro většinu účelů je upřednostňována první možnost. Druhá možnost se nazývá „rozšiřující forma“ a je novinkou v RFC 5646.

Celé tagy, které byly zaregistrovány před RFC 4646 a nyní jsou klasifikovány jako „grandfathered“ nebo „redundant“ (v závislosti na tom, zda odpovídají nové syntaxi), jsou zastaralé ve prospěch příslušného tagu jazyka založeného na ISO 639-3, pokud existuje . Abychom uvedli několik příkladů, pro Min Nan Číňany je upřednostňováno nan před zh-min-nan ; u čínštiny Hakka je upřednostňováno hak před i-hak a zh-hakka ; a ase je upřednostňováno před sgn-US pro americký znakový jazyk .

ISO 639-5 a ISO 639-2

ISO 639-5 definuje jazykové kolekce s kódy alfa-3 jiným způsobem, než byly původně zakódovány v ISO 639-2 (včetně jednoho kódu již obsaženého v ISO 639-1). Konkrétně jazykové kolekce jsou nyní všechny definovány v ISO 639-5 jako inkluzivní, spíše než některé z nich jsou definovány výlučně. To znamená, že jazykové kolekce mají širší rozsah než dříve, v některých případech, kdy by mohly zahrnovat jazyky, které již byly kódovány samostatně v ISO 639-2.

Například kód ISO 639-2 afa byl dříve spojen s názvem „Afro-asijský (jiný)“, s vyloučením jazyků, jako je arabština, které již měly svůj vlastní kód. V ISO 639-5 má tato kolekce název „Afroasijské jazyky“ a zahrnuje všechny tyto jazyky. ISO 639-2 změnila v roce 2009 exkluzivní názvy tak, aby odpovídaly včetně jmen ISO 639-5.

Aby se zabránilo narušení implementací, které mohou stále záviset na starší (exkluzivní) definici těchto kolekcí, definuje ISO 639-5 atribut typu seskupení pro všechny kolekce, které již byly zakódovány v ISO 639-2 (takový typ seskupení není definován pro nové sbírky přidané pouze v ISO 639-5).

BCP 47 definuje vlastnost „Rozsah“ pro identifikaci podznaček pro jazykové kolekce. Nedefinuje však žádnou danou kolekci jako inkluzivní nebo exkluzivní a nepoužívá atribut typu seskupení ISO 639-5, přestože pole popisu v registru jazykových podznaček pro tyto podznačky odpovídají názvům ISO 639-5 (včetně). V důsledku toho mohou být jazykové značky BCP 47, které obsahují podznačku primárního jazyka pro kolekci, nejednoznačné, pokud jde o to, zda má být kolekce inkluzivní nebo exkluzivní.

ISO 639-5 přesně nedefinuje, které jazyky jsou členy těchto sbírek; je definována pouze hierarchická klasifikace kolekcí pomocí inkluzivní definice těchto kolekcí. Z tohoto důvodu RFC 5646 nedoporučuje používání podznaček pro jazykové kolekce pro většinu aplikací, přestože jsou stále preferovány před podznačkami, jejichž význam je ještě méně specifický, například „Více jazyků“ a „Neurčeno“.

Na rozdíl od toho je klasifikace jednotlivých jazyků v rámci jejich makrojazyka standardizována, a to jak v ISO 639-3, tak v registru jazykových podznaček.

ISO 15924, ISO/IEC 10646 a Unicode

Podznačky skriptů byly poprvé přidány do registru jazykových podznaček při publikování RFC 4646 ze seznamu kódů definovaných v ISO 15924 . Jsou kódovány v jazykové značce za tagy primárního a rozšířeného jazyka, ale před jinými typy tagů, včetně regionálních a variantních tagů.

Některé tagy primárního jazyka jsou definovány vlastností s názvem „Suppress-Script“, která označuje případy, kdy lze ve výchozím nastavení pro daný jazyk obvykle předpokládat jeden skript, i když jej lze zapsat jiným skriptem. V takovém případě je vhodnější vynechat podznačku skriptu, aby se zlepšila pravděpodobnost úspěšného párování. K rozlišení lze v případě potřeby připojit i jiný tag štítku. Například yi je ve většině kontextů upřednostňováno před yi-Hebr , protože pro jidiš jazyk se předpokládá podznačka hebrejského skriptu .

Jako další příklad může být zh-Hans-SG považován za ekvivalent zh-Hans , protože kód regionu pravděpodobně není významný; písemná forma čínštiny používaná v Singapuru používá stejné zjednodušené čínské znaky jako v jiných zemích, kde se čínština píše. Podznačka skriptu je však zachována, protože je významná.

Všimněte si, že ISO 15924 obsahuje některé kódy pro varianty skriptů (například Hans a Hant pro zjednodušené a tradiční formy čínských znaků), které jsou sjednoceny v Unicode a ISO/IEC 10646 . Tyto varianty skriptů jsou nejčastěji kódovány pro bibliografické účely, ale nejsou vždy významné z lingvistického hlediska (například kódy skriptů Latf a Latg pro frakturské a gaelské varianty latinského písma, které jsou většinou kódovány pravidelnými latinskými písmeny v Unicode a ISO/IEC 10646). Občas mohou být užitečné v jazykových značkách k odhalení ortografických nebo sémantických rozdílů s odlišnou analýzou písmen, diakritiky a digrafů/trigrafů jako výchozích klastrů grafémů nebo rozdílů v pravidlech psaní velkých písmen.

ISO 3166-1 a UN M.49

Podtitulky regionů se dvěma písmeny jsou založeny na přiřazených kódech nebo „výjimečně vyhrazených“ v ISO 3166-1 . Pokud by Údržbová agentura ISO 3166 přeřadila kód, který byl dříve přiřazen jiné zemi, stávající podznačka BCP 47 odpovídající tomuto kódu by si zachovala svůj význam a nový dílčí tag regionu založený na UN M.49 by byl zaregistrován pro nová země. UN M.49 je také zdrojem pro dílčí tagy číselné oblasti pro geografické oblasti, například 005pro Jižní Ameriku. Kódy OSN M.49 pro hospodářské oblasti nejsou povoleny.

Podznačky regionu se používají k určení rozmanitosti jazyka „jak se používá“ v konkrétní oblasti. Jsou vhodné tam, kde je odrůda regionální povahy, a lze je adekvátně zachytit identifikací zúčastněných zemí, jako při rozlišování britské angličtiny ( en-GB ) od americké angličtiny ( en-US ). Pokud je rozdílem skript nebo rozmanitost písma, jako u zjednodušených versus tradičních čínských znaků, mělo by být vyjádřeno podznačkou skriptu místo podznačkou regionu; v tomto případě by měly být použity zh-Hans a zh-Hant místo zh-CN a zh-HK .

Pokud pro jazyk, který by mohl být považován za regionální rozmanitost, existuje odlišný jazykový podtitul, je často vhodnější použít specifičtější podznačku namísto kombinace jazyková oblast. Například ar-DZ ( arabština používaná v Alžírsku ) může být lépe vyjádřena jako arq pro alžírskou mluvenou arabštinu .

Rozšíření

Podsložky rozšíření (nezaměňovat s tagy s rozšířeným jazykem ) umožňují připojit ke značce jazyka další informace, které nemusí nutně sloužit k identifikaci jazyka. Jedno použití pro rozšíření je kódování informací o národním prostředí, jako je kalendář a měna.

Podsložky rozšíření jsou složeny z více řetězců znaků oddělených pomlčkou, počínaje jedním znakem (jiným než x ), nazývaným singleton . Každé rozšíření je popsáno v jeho vlastním IETF RFC , který identifikuje registrační úřad pro správu dat pro toto rozšíření. IANA je zodpovědná za přidělování singletonů.

V lednu 2014 byla přiřazena dvě rozšíření.

Rozšíření T (transformovaný obsah)

Rozšíření T umožňuje, aby tag jazyka obsahoval informace o tom, jak byla označená data přepsána, přepsána nebo jinak transformována. Například tag en-t-jp by mohl být použit pro obsah v angličtině, který byl přeložen z původní japonštiny. Další podřetězce by mohly naznačovat, že překlad byl proveden mechanicky nebo v souladu s publikovanou normou.

Rozšíření T je popsáno v dokumentu RFC 6497, publikovaném v únoru 2012. Registrační autoritou je Unicode Consortium .

Rozšíření U (Unicode Locale)

Rozšíření U umožňuje začlenit do jazykových značek širokou škálu atributů národního prostředí, které se nacházejí v úložišti CLDR ( Common Locale Data Repository ). Mezi tyto atributy patří členění zemí, data kalendáře a časového pásma, pořadí řazení, měna, číselný systém a identifikace klávesnice.

Některé příklady zahrnují:

Rozšíření U je popsáno v dokumentu RFC 6067, publikovaném v prosinci 2010. Registrační autoritou je Unicode Consortium .

Viz také

Reference

externí odkazy

  • Jazykové tagy BCP 47 - aktuální specifikace (obsahuje dva RFC, RFC 5646 a RFC 4647 publikované samostatně v různá data, ale zřetězené v jednom dokumentu)
    • (také odkaz na související informační RFC 5645, který doplňuje předchozí informační RFC 4645, jakož i další individuální registrační formuláře publikované samostatně ostatními pro každý jazyk přidaný nebo upravený v registru mezi těmito revizemi BCP 47)
  • Registr dílčích značek jazyků - spravuje IANA
  • Hledání registru podznaček jazyka - vyhledejte štítky a zobrazte položky v registru
  • Jazykové značky v HTML a XML - z W3C
  • Jazykové tagy - z pracovní skupiny IETF Language Tag Registry Update