ISO/IEC 8859 - ISO/IEC 8859
Standard | ISO/IEC 8859 |
---|---|
Klasifikace | 8bitový rozšířený ASCII , ISO 4873 úroveň 1 |
Rozšiřuje | US-ASCII |
Předchází | ISO 646 |
Uspěl | ISO/IEC 10646 ( Unicode ) |
Jiná související kódování | ISO/IEC 10367 , Windows-125x |
ISO/IEC 8859 je společná řada norem ISO a IEC pro 8bitové kódování znaků . Série norem se skládá z očíslovaných částí, jako jsou ISO/IEC 8859-1 , ISO/IEC 8859-2 atd. Existuje 15 částí, vyjma opuštěné ISO/IEC 8859-12 . Pracovní skupina ISO udržující tuto řadu norem byla rozpuštěna.
ISO/IEC 8859 části 1, 2, 3 a 4 byly původně Ecma International standard ECMA-94 .
Úvod
Zatímco bitové vzory 95 tisknutelných znaků ASCII jsou dostatečné k výměně informací v moderní angličtině , většina ostatních jazyků, které používají latinské abecedy, potřebuje další symboly, které nejsou pokryty ASCII. ISO/IEC 8859 se snažila tento problém napravit využitím osmého bitu v 8bitovém bajtu, aby bylo možné pozice pro dalších 96 tisknutelných znaků. Dřívější kódování bylo omezeno na 7 bitů kvůli omezením některých protokolů pro přenos dat a částečně z historických důvodů. Bylo však zapotřebí více znaků, než se vešlo do jednoho 8bitového kódování znaků, takže bylo vyvinuto několik mapování, včetně nejméně deseti vhodných pro různé latinské abecedy.
Standardní části ISO/IEC 8859 definují pouze tisknutelné znaky, přestože výslovně oddělují rozsahy bajtů 0x00–1F a 0x7F – 9F jako „kombinace, které nepředstavují grafické znaky“ (tj. Které jsou vyhrazeny pro použití jako řídicí znaky ) podle s ISO/IEC 4873 ; byly navrženy tak, aby byly použity ve spojení se samostatnou normou definující řídicí funkce spojené s těmito bajty, jako je ISO 6429 nebo ISO 6630 . Za tímto účelem řada kódování registrovaných u IANA přidá kontrolní sadu C0 (řídicí znaky mapované na bajty 0 až 31) z ISO 646 a řídicí sadu C1 (řídicí znaky mapované na bajty 128 až 159) z ISO 6429, což má za následek plné 8bitové mapy znaků s většinou, ne-li všemi, přiřazenými bajty. Tyto sady mají jako preferovaný název MIME ISO-8859- n , nebo v případech, kdy preferovaný název MIME není uveden, jejich kanonický název. Mnoho lidí používá termíny ISO/IEC 8859- n a ISO-8859- n zaměnitelně. ISO/IEC 8859-11 nedostala takovou znakovou sadu přidělenou, pravděpodobně proto, že byla téměř identická s TIS 620 .
Znaky
Norma ISO/IEC 8859 je navržena pro spolehlivou výměnu informací, nikoli pro typografii ; standard vynechává symboly potřebné pro vysoce kvalitní typografii, jako jsou volitelné ligatury, kudrnaté uvozovky, pomlčky atd. V důsledku toho vysoce kvalitní systémy sazby často používají standardy ASCII a ISO/IEC 8859 jako vlastní nebo výstřední rozšíření , nebo místo toho použijte Unicode .
Nepřesné pravidlo založené na praktických zkušenostech uvádí, že pokud znak nebo symbol již nebyl součástí široce používané znakové sady pro zpracování dat a také nebyl obvykle poskytován na klávesnicích psacího stroje pro národní jazyk, nedostal se dovnitř. Proto směrové byly zahrnuty dvojité uvozovky « a » používané pro některé evropské jazyky, nikoli však směrové dvojité uvozovky „ a “ používané pro angličtinu a některé další jazyky.
Francouzština nezískala své œ a Œ ligatury, protože je bylo možné zadat jako „oe“. Stejně tak bylo upuštěno také Ÿ , potřebné pro text s velkými písmeny. Ačkoli pod různými kódovými body, tyto tři znaky byly později znovu zavedeny ISO/IEC 8859-15 v roce 1999, která také představila nový znak eura znak €. Stejně tak holandština nedostala písmena ij a IJ , protože nizozemští mluvčí si místo toho zvykli psát je jako dvě písmena.
Rumunský nebyl původně dostat své Þ / ş a Ţ / þ ( s čárkou ) písmeny, protože tyto dopisy byly zpočátku sjednoceny s Ş / ş a Ţ / þ ( s cedilla ) pomocí Unicode Consortium , vzhledem k tvary s čárkou pod být glyfové varianty tvarů s cedilla. Písmena s explicitní čárkou níže byla později přidána do standardu Unicode a jsou také v ISO/IEC 8859-16 .
Většina kódování ISO/IEC 8859 poskytuje znaky latinky požadované pro různé evropské jazyky pomocí latinského písma. Jiné poskytují nelatinské abecedy: řečtinu , azbuku , hebrejštinu , arabštinu a thajštinu . Většina kódování obsahuje pouze mezerové znaky , ačkoli thajské, hebrejské a arabské obsahují také kombinující znaky .
Norma neposkytuje žádné ustanovení pro skripty východoasijských jazyků ( CJK ), protože jejich systémy ideografického psaní vyžadují mnoho tisíc kódových bodů. Přestože používá znaky založené na latince, vietnamština se nevejde do 96 pozic (bez použití diakritiky, jako je tomu ve Windows-1258 ). Každá japonská slabičná abeceda (hiragana nebo katakana, viz Kana ) by se hodila, jako v JIS X 0201 , ale jako několik dalších světových abeced nejsou kódována v systému ISO/IEC 8859.
Části ISO/IEC 8859
ISO/IEC 8859 je rozdělena do následujících částí:
Část | název | Revize | Jiné standardy | Popis |
---|---|---|---|---|
Část 1 |
Latin-1 západní Evropa |
1987 , 1998 | ECMA-94 ( 1985 , 1986) | Snad nejpoužívanější část ISO/IEC 8859 pokrývající většinu západoevropských jazyků: dánština (částečná), holandská (částečná), angličtina , faerština , finština (částečná), francouzština (částečná), němčina , islandština , irština , italština , Norština , portugalština , rétorománština , skotská gaelština , španělština , katalánština a švédština . Zahrnuty jsou také jazyky z jiných částí světa, včetně: východoevropského albánštiny , jihovýchodní Asie, indonéštiny a afrických jazyků afrikánštiny a svahilštiny .
Modifikace DEC MCS ; v první (1985) standardní verzi na úrovni ECMA chyběl časový znak a divizní obelus , které byly přidány příští rok. Chybějící znak eura a kapitál Ÿ jsou v revidované verzi ISO/IEC 8859-15 (viz níže). Odpovídající znaková sada IANA je ISO-8859-1. |
Část 2 |
Latin-2 střední Evropa |
1987 , 1999 | ECMA-94 (1986) | Podporuje jazyky střední a východní Evropy, které používají latinku, včetně bosenské , polské , chorvatské , české , slovenské , slovinské , srbské a maďarské . Chybějící znak eura najdete ve verzi ISO/IEC 8859-16. |
Část 3 |
Latin-3 jihoevropský |
1988 , 1999 | Turečtina , maltština a esperanto . Převážně nahrazeno ISO/IEC 8859-9 pro turečtinu. | |
Část 4 |
Latin-4 severoevropský |
1988 , 1998 | Estonský , Lotyšský , Litevský , Grónský a Sami . | |
Část 5 | Latina/azbuka | 1988 , 1999 | ECMA-113 (1988, 1999) | Pokrývá převážně slovanské jazyky používající azbuku , včetně běloruštiny , bulharštiny , makedonštiny , ruštiny , srbštiny a ukrajinštiny (částečné). |
Část 6 | Latina/arabština | 1987 , 1999 | ASMO 708 (1986) / ECMA-114 (1986, 2000) | Pokrývá nejběžnější znaky arabského jazyka . Nepodporuje jiné jazyky používající arabské písmo . Pro zobrazení musí být zpracováno BiDi a cursive joining . |
Část 7 | Latina/řečtina | 1987 , 2003 | ELOT 928 (1986) / ECMA-118 (1986) | Pokrývá moderní řecký jazyk ( monotónní pravopis ). Může být také použit pro starověkou řečtinu psanou bez přízvuků nebo v monotónním pravopisu, ale chybí diakritika pro polytonický pravopis . Ty byly představeny s Unicode. Aktualizováno 2003 přidat znak pro euro , drachmy znak a řádkování ypogegrammeni . |
Část 8 | Latina/hebrejština | 1988 , 1999 | ECMA-121 (1987, 2000) / SI 1311 ( 2002 ) | Pokrývá moderní hebrejskou abecedu používanou v Izraeli. V praxi existují dvě různá kódování, logické pořadí (pro zobrazení je třeba zpracovat BiDi ) a vizuální (zleva doprava) pořadí (ve skutečnosti po zpracování bidi a zalomení řádku). Aktualizováno 1999 o přidání LRM a RLM . Aktualizováno na národní standardní úrovni v roce 2002, aby přidalo znaky eura a šekelu a více obousměrných efektů formátu; dodatky z roku 2002 nebyly nikdy začleněny zpět do standardní verze ISO. |
Část 9 |
Latinsky-5 turecký |
1989 , 1999 | ECMA-128 (1988, 1999) | Z velké části stejné jako ISO/IEC 8859-1, nahrazující zřídka používaná islandská písmena tureckými . |
Část 10 |
Latin-6 severské |
1992 , 1998 | ECMA-144 (1990, 1992, 2000) | Přeskupení latiny-4. Považováno za užitečnější pro severské jazyky. Baltské jazyky používají latinu-4 více. |
Část 11 | Latina/thajština | 2001 | TIS-620 (1986, 1990) | Obsahuje znaky potřebné pro thajský jazyk . První revize zavedena v roce 1986 na národní standardní úrovni jako TIS 620 . V roce 2001 povýšen na standard ISO jako součást ISO 8859 s přidáním neporušeného prostoru . |
|
Latina/devanagari | N/A | - | Práce na vytvoření části 8859 pro Devanagari byla oficiálně opuštěna v roce 1997. ISCII a Unicode/ISO/IEC 10646 pokrývají Devanagari. |
Část 13 |
Latin-7 Baltic Rim |
1998 | - | Přidáno několik znaků pro baltské jazyky, které chyběly v latině-4 a latině-6. Souvisí s dříve publikovaným Windows-1257 . |
Část 14 |
Latinsky-8 keltský |
1998 | - | Pokrývá keltské jazyky, jako je gaelština a bretonština . Velšská písmena odpovídají dřívější (1994) ISO-IR-182 . |
Část 15 | Latina-9 | 1999 | - | Revize 8859-1, která odstraňuje některé málo používané symboly a nahrazuje je znakem eura € a písmeny Š , š , Ž , ž , Œ , œ a Ÿ , čímž se doplňuje pokrytí francouzštiny , finštiny a estonštiny . |
Část 16 |
Latin-10 jihovýchodní Evropy |
2001 | SR 14111 (1998) | Určeno pro albánštinu , chorvatštinu , maďarštinu , italštinu , polštinu , rumunštinu a slovinštinu , ale také finskou, francouzskou, německou a irskou gaelštinu (nový pravopis). Důraz je kladen více na písmena než na symboly. Znak měny je nahrazen znakem eura . |
Každá část ISO/IEC 8859 je navržena tak, aby podporovala jazyky, které si často navzájem půjčují, takže znaky potřebné pro každý jazyk jsou obvykle umístěny v jedné části. Existují však některé znaky a jazykové kombinace, které se bez přepisů neobejdou. Bylo vyvinuto úsilí, aby byly převody co nejplynulejší. Například němčina má všech svých sedm speciálních znaků na stejných pozicích ve všech latinských variantách (1–4, 9, 10, 13–16) a na mnoha pozicích se znaky liší pouze diakritikou mezi sadami. Zejména varianty 1–4 byly navrženy společně a mají tu vlastnost, že každý kódovaný znak se objeví buď na dané pozici, nebo vůbec.
Stůl
Binární | Října | Prosince | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | Nepřerušovaný prostor (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | ¡ | A | Ħ | A | Ё | ' | ¡ | A | ก | ” | Ḃ | ¡ | A | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ĸ | • | ' | ¢ | ¢ | E | ข | ¢ | ḃ | ¢ | A | |||
1010 0011 | 243 | 163 | A3 | £ | Ł | £ | Ŗ | Ѓ | £ | G | ฃ | £ | Ł | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | Ī | ค | ¤ | C | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | Ľ | Ĩ | Ѕ | ₯ | ¥ | Ĩ | ฅ | „ | C | ¥ | „ | ||||
1010 0110 | 246 | 166 | A6 | ¦ | Ś | Ĥ | Ļ | І | ¦ | Ķ | ฆ | ¦ | Ḋ | Š | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | Ļ | จ | Ó | Ẁ | š | ||||||||
1010 1001 | 251 | 169 | A9 | © | Š | İ | Š | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | AA | ª | Ş | E | Њ | ͺ | × | ª | Š | ช | Ŗ | Ẃ | ª | Ș | |||
1010 1011 | 253 | 171 | AB | « | Ť | G | G | Ћ | « | Ŧ | ซ | « | ḋ | « | |||||
1010 1100 | 254 | 172 | AC | ¬ | Ź | Ĵ | Ŧ | Ќ | ، | ¬ | Ž | ฌ | ¬ | Ỳ | ¬ | Ź | |||
1010 1101 | 255 | 173 | INZERÁT | Měkká pomlčka (SHY) | ญ | PLACHÝ | |||||||||||||
1010 1110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | Ū | ฎ | ® | ź | |||||||
1010 1111 | 257 | 175 | AF | ¯ | Ż | ¯ | Џ | - | ¯ | Ŋ | ฏ | Æ | Ÿ | ¯ | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | F | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | A | ħ | A | Б | ± | A | ฑ | ± | F | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | E | ฒ | ² | G | ² | C | ||||
1011 0011 | 263 | 179 | B3 | ³ | ł | ³ | ŗ | Г | ³ | G | ณ | ³ | G | ³ | ł | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | já | ด | " | Ṁ | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | ľ | µ | ĩ | Е | ΅ | µ | ĩ | ต | µ | ṁ | µ | ” | |||
1011 0110 | 266 | 182 | B6 | ¶ | ś | ĥ | ļ | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | Ṗ | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | ļ | ธ | Ó | ẁ | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | š | já | š | Й | Ή | ¹ | đ | น | ¹ | ṗ | ¹ | C | |||
1011 1010 | 272 | 186 | BA | º | ş | E | К | Ί | ÷ | º | š | บ | ŗ | ẃ | º | ș | |||
1011 1011 | 273 | 187 | BB | » | ť | G | G | Л | ؛ | » | „ | ป | » | Ṡ | » | ||||
1011 1100 | 274 | 188 | před naším letopočtem | ¼ | ź | ĵ | „ | М | Ό | ¼ | ž | ผ | ¼ | ỳ | Œ | ||||
1011 1101 | 275 | 189 | BD | ½ | ˝ | ½ | Ŋ | Н | ½ | - | ฝ | ½ | Ẅ | œ | |||||
1011 1110 | 276 | 190 | BÝT | ¾ | ž | ž | О | Ύ | ¾ | ū | พ | ¾ | ẅ | Ÿ | |||||
1011 1111 | 277 | 191 | BF | ¿ | ż | ŋ | П | ؟ | Ώ | ¿ | ŋ | ฟ | ano | ṡ | ¿ | ż | |||
1100 0000 | 300 | 192 | C0 | A | Ŕ | A | A | Р | ΐ | A | A | ภ | A | A | |||||
1100 0001 | 301 | 193 | C1 | A | С | ء | Α | A | ม | Į | A | ||||||||
1100 0010 | 302 | 194 | C2 | A | Т | آ | Β | A | ย | A | A | ||||||||
1100 0011 | 303 | 195 | C3 | A | A | A | У | أ | Γ | A | ร | C | A | A | |||||
1100 0100 | 304 | 196 | C4 | A | Ф | ؤ | Δ | A | ฤ | A | |||||||||
1100 0101 | 305 | 197 | C5 | A | Ĺ | C | A | Х | إ | Ε | A | ล | A | C | |||||
1100 0110 | 306 | 198 | C6 | Æ | C | C | Æ | Ц | ئ | Ζ | Æ | ฦ | E | Æ | |||||
1100 0111 | 307 | 199 | C7 | C | Į | Ч | ا | Η | C | Į | ว | E | C | ||||||
1100 1000 | 310 | 200 | C8 | E | C | E | C | Ш | ب | Θ | E | C | ศ | C | E | ||||
1100 1001 | 311 | 201 | C9 | E | Щ | ة | Ι | E | ษ | E | |||||||||
1100 1010 | 312 | 202 | CA | E | E | E | E | Ъ | ت | Κ | E | E | ส | Ź | E | ||||
1100 1011 | 313 | 203 | CB | E | Ы | ث | Λ | E | ห | E | E | ||||||||
1100 1100 | 314 | 204 | CC | Ì | E | Ì | E | Ь | ج | Μ | Ì | E | ฬ | G | Ì | ||||
1100 1101 | 315 | 205 | CD | Í | Э | ح | Ν | Í | อ | Ķ | Í | ||||||||
1100 1110 | 316 | 206 | CE | Î | Ю | خ | Ξ | Î | ฮ | Ī | Î | ||||||||
1100 1111 | 317 | 207 | CF | Ï | Ď | Ï | Ī | Я | د | Ο | Ï | ฯ | Ļ | Ï | |||||
Binární | Října | Prosince | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
1101 0000 | 320 | 208 | D0 | Ð | Đ | Đ | а | ذ | Π | G | Ð | ะ | Š | Ŵ | Ð | ||||
1101 0001 | 321 | 209 | D1 | Ñ | Ń | Ñ | Ņ | б | ر | Ρ | Ñ | Ņ | ั | Ń | Ñ | Ń | |||
1101 0010 | 322 | 210 | D2 | Ó | Ň | Ó | Ó | в | ز | Ó | Ó | า | Ņ | Ó | |||||
1101 0011 | 323 | 211 | D3 | Ó | Ķ | г | س | Σ | Ó | ำ | Ó | ||||||||
1101 0100 | 324 | 212 | D4 | Ó | д | ش | Τ | Ó | ิ | Ó | Ó | ||||||||
1101 0101 | 325 | 213 | D5 | Ó | Ó | G | Ó | е | ص | Υ | Ó | ี | Ó | ||||||
1101 0110 | 326 | 214 | D6 | Ó | ж | ض | Φ | Ó | ึ | Ó | |||||||||
1101 0111 | 327 | 215 | D7 | × | з | ط | Χ | × | Ũ | ื | × | Ṫ | × | Ś | |||||
1101 1000 | 330 | 216 | D8 | Ó | Ř | G | Ó | č | ظ | Ψ | Ó | ุ | Ų | Ó | Ű | ||||
1101 1001 | 331 | 217 | D9 | Ù | Ů | Ù | Ų | © | ع | Ω | Ù | Ų | ู | Ł | Ù | ||||
1101 1010 | 332 | 218 | DA | Ú | к | غ | Ϊ | Ú | ฺ | Ś | Ú | ||||||||
1101 1011 | 333 | 219 | DB | Û | Ű | Û | л | Ϋ | Û | Ū | Û | ||||||||
1101 1100 | 334 | 220 | DC | Ü | м | ά | Ü | Ü | |||||||||||
1101 1101 | 335 | 221 | DD | “ | Ŭ | Ũ | н | έ | İ | “ | Ż | “ | E | ||||||
1101 1110 | 336 | 222 | DE | Þ | Ţ | Ŝ | Ū | о | ή | Ş | Þ | Ž | Ŷ | Þ | Ț | ||||
1101 1111 | 337 | 223 | DF | ß | п | ί | ‗ | ß | ฿ | ß | |||||||||
1110 0000 | 340 | 224 | E0 | A | ŕ | A | A | р | ـ | ΰ | א | A | A | เ | A | A | |||
1110 0001 | 341 | 225 | E1 | A | с | ف | α | ב | A | แ | į | A | |||||||
1110 0010 | 342 | 226 | E2 | A | т | ق | β | ג | A | โ | A | A | |||||||
1110 0011 | 343 | 227 | E3 | A | A | A | у | ك | γ | ד | A | ใ | C | A | A | ||||
1110 0100 | 344 | 228 | E4 | A | ф | ل | δ | ה | A | ไ | A | ||||||||
1110 0101 | 345 | 229 | E5 | A | ĺ | C | A | х | م | ε | ו | A | ๅ | A | C | ||||
1110 0110 | 346 | 230 | E6 | ano | C | C | ano | ц | ن | ζ | ז | ano | ๆ | E | ano | ||||
1110 0111 | 347 | 231 | E7 | C | į | ч | ه | η | ח | C | į | ็ | E | C | |||||
1110 1000 | 350 | 232 | E8 | E | C | E | C | ш | و | θ | ט | E | C | ่ | C | E | |||
1110 1001 | 351 | 233 | E9 | E | щ | ى | ι | י | E | ้ | E | ||||||||
1110 1010 | 352 | 234 | EA | E | E | E | E | ъ | ي | κ | ך | E | E | ๊ | ź | E | |||
1110 1011 | 353 | 235 | EB | E | ы | ً | λ | כ | E | ๋ | E | E | |||||||
1110 1100 | 354 | 236 | ES | ì | E | ì | E | ь | ٌ | μ | ל | ì | E | ์ | G | ì | |||
1110 1101 | 355 | 237 | ED | í | э | ٍ | ν | ם | í | ํ | ķ | í | |||||||
1110 1110 | 356 | 238 | EE | î | ю | َ | ξ | מ | î | ๎ | já | î | |||||||
1110 1111 | 357 | 239 | EF | ï | ď | ï | já | я | ُ | ο | ן | ï | ๏ | ļ | ï | ||||
1111 0000 | 360 | 240 | F0 | ð | đ | đ | Č | ِ | π | נ | G | ð | ๐ | š | ŵ | ð | đ | ||
1111 0001 | 361 | 241 | F1 | ñ | ń | ñ | ņ | ё | ّ | ρ | ס | ñ | ņ | ๑ | ń | ñ | ń | ||
1111 0010 | 362 | 242 | F2 | Ó | ň | Ó | Ó | ђ | ْ | ς | ע | Ó | Ó | ๒ | ņ | Ó | |||
1111 0011 | 363 | 243 | F3 | Ó | ķ | ѓ | σ | ף | Ó | ๓ | Ó | ||||||||
1111 0100 | 364 | 244 | F4 | Ó | є | τ | פ | Ó | ๔ | Ó | Ó | ||||||||
1111 0101 | 365 | 245 | F5 | Ó | Ó | G | Ó | ѕ | υ | ץ | Ó | ๕ | Ó | ||||||
1111 0110 | 366 | 246 | F6 | Ó | a | φ | צ | Ó | ๖ | Ó | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | ũ | ๗ | ÷ | ṫ | ÷ | ś | |||||
1111 1000 | 370 | 248 | F8 | Ó | ř | G | Ó | ј | ψ | ר | Ó | ๘ | ų | Ó | ű | ||||
1111 1001 | 371 | 249 | F9 | ù | ů | ù | ų | љ | ω | ש | ù | ų | ๙ | ł | ù | ||||
1111 1010 | 372 | 250 | FA | ú | њ | ϊ | ת | ú | ๚ | ś | ú | ||||||||
1111 1011 | 373 | 251 | FB | û | ű | û | ћ | ϋ | û | ๛ | ū | û | |||||||
1111 1100 | 374 | 252 | FC | ü | ќ | ό | ü | ü | |||||||||||
1111 1101 | 375 | 253 | FD | ý | ŭ | ũ | § | ύ | LRM | já | ý | ż | ý | E | |||||
1111 1110 | 376 | 254 | FE | þ | . | ŝ | ū | ў | ώ | RLM | ş | þ | ž | ŷ | þ | ț | |||
1111 1111 | 377 | 255 | FF | ÿ | ˙ | џ | ÿ | ĸ | ' | ÿ | |||||||||
Binární | Října | Prosince | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 |
Na pozici 0xA0 je vždy nepřerušovaný prostor a 0xAD je většinou měkká spojovník , který se zobrazuje pouze při zalomení řádku . Ostatní prázdná pole jsou buď nepřiřazené nebo použitý systém je nedokáže zobrazit.
Existují nové přírůstky jako verze ISO/IEC 8859-7: 2003 a ISO/IEC 8859-8: 1999 . LRM znamená značku zleva doprava (U+200E) a RLM znamená značku zprava doleva (U+200F).
Vztah k Unicode a UCS
Od roku 1991 spolupracuje Unicode Consortium s ISO a IEC na vývoji standardu Unicode a ISO/IEC 10646: Universal Character Set (UCS) v tandemu. Novější edice ISO/IEC 8859 vyjadřují znaky, pokud jde o jejich názvy Unicode/UCS a notaci U+nnnn , což v podstatě způsobuje, že každá část ISO/IEC 8859 je schématem kódování znaků Unicode/UCS, které mapuje velmi malou podmnožinu UCS na jeden 8bitový byt. Prvních 256 znaků v Unicode a UCS je identických s těmi v ISO/IEC-8859-1 ( Latin-1 ).
Jednobajtové znakové sady, včetně částí ISO/IEC 8859 a jejich derivátů, byly v průběhu devadesátých let upřednostňovány a měly výhody dobře zavedené a snadněji implementovatelné v softwaru: rovnice jeden byte na jeden znak je jednoduchá a adekvátní pro většinu jednojazyčných aplikací neexistují žádné kombinující znaky ani varianty variant. Vzhledem k tomu, že se operační systémy podporující Unicode rozšířily, ISO/IEC 8859 a další starší kódování se staly méně populární. Zatímco zbytky modelů ISO 8859 a jednobajtových znaků zůstávají zakořeněny v mnoha operačních systémech, programovacích jazycích, systémech pro ukládání dat, síťových aplikacích, zobrazovacím hardwaru a aplikačním softwaru koncových uživatelů, většina moderních výpočetních aplikací používá Unicode interně a spoléhá se na převod tabulky pro mapování do az jiných kódování, je -li to nutné.
Aktuální stav
Normu ISO/IEC 8859 udržovala společná technická komise ISO/IEC 1, podkomise 2, pracovní skupina 3 (ISO/IEC JTC 1/SC 2/WG 3). V červnu 2004 byla WG 3 rozpuštěna a povinnosti údržby byly převedeny na SC 2 . Norma se aktuálně neaktualizuje, protože jediná zbývající pracovní skupina podvýboru , WG 2, se soustředí na vývoj univerzální kódované znakové sady Unicode .
WHATWG kódování standard, který specifikuje kódování znaků povoleno HTML5 , které kompatibilní prohlížeč musí podporovat, zahrnuje většinu částí ISO / IEC 8859, s výjimkou dílů 1, 9 a 11, které jsou místo toho interpretovat jako Windows-1252 , Windows-1254 a Windows-874, resp. Autoři nových stránek a návrháři nových protokolů mají místo toho použít UTF-8 .
Viz také
- Seznam počítačových znakových sad
- Znaková sada RPL (nadmnožina ISO 8859-1 na kalkulačkách HP, označovaná také jako „ECMA-94“)
- DEC Multinational Character Set (MCS)
- Národní znaková sada DEC (NRCS)
Poznámky
Reference
- Publikované verze každé části ISO/IEC 8859 jsou k dispozici za poplatek na stránkách katalogu ISO a v internetovém obchodě IEC .
- Verze PDF konečných návrhů některých částí ISO/IEC 8859 předložených k revizi a publikaci ISO/IEC JTC 1/SC 2/WG 3 jsou k dispozici na webových stránkách WG 3 :
- ISO/IEC 8859-1: 1998-8bitové jednobajtové kódované grafické znakové sady, Část 1: Latinská abeceda č. 1 (návrh ze dne 12. února 1998, publikován 15. dubna 1998)
- ISO/IEC 8859-4: 1998-8bitové jednobajtové kódované grafické znakové sady, Část 4: Latinská abeceda č. 4 (návrh ze dne 12. února 1998, publikován 1. července 1998)
- ISO/IEC 8859-7: 1999-8bitové jednobajtové kódované sady grafických znaků, část 7: Latinská/řecká abeceda (návrh ze dne 10. června 1999; nahrazen ISO/IEC 8859-7: 2003, publikováno 10. října, 2003)
- ISO/IEC 8859-10: 1998-8bitové jednobajtové kódované sady grafických znaků, část 10: Latinská abeceda č. 6 (návrh ze dne 12. února 1998, publikován 15. července 1998)
- ISO/IEC 8859-11: 1999-8bitové jednobajtové kódované grafické znakové sady, Část 11: Latinská/thajská znaková sada (návrh ze dne 22. června 1999; nahrazen ISO/IEC 8859-11: 2001, publikováno 15. prosince 2001)
- ISO/IEC 8859-13: 1998-8bitové jednobajtové kódované sady grafických znaků, část 13: Latinská abeceda č. 7 (návrh ze dne 15. dubna 1998, publikován 15. října 1998)
- ISO/IEC 8859-15: 1998-8bitové jednobajtové kódované sady grafických znaků, část 15: Latinská abeceda č. 9 (návrh ze dne 1. srpna 1997; nahrazen ISO/IEC 8859-15: 1999, publikováno 15. března (1999)
- ISO/IEC 8859-16: 2000-8bitové jednobajtové kódované sady grafických znaků, část 16: Latinská abeceda č. 10 (návrh ze dne 15. listopadu 1999; nahrazen ISO/IEC 8859-16: 2001, publikováno 15. července (2001)
-
Normy ECMA , které záměrně přesně odpovídají standardům znakové sady ISO/IEC 8859, najdete na:
- Standardní sady
- Standardní sady ECMA-113 : 8bitové jednobajtové kódované sady grafických znaků-latinka/cyrilice 3. vydání (prosinec 1999)
- Standardní sady ECMA-114 : 8bitové jednobajtové kódované sady grafických znaků-latinka/arabská abeceda, 2. vydání (prosinec 2000)
- Standardní sady ECMA-118 : 8bitové jednobajtové kódované sady grafických znaků-latinská/řecká abeceda (prosinec 1986)
- Standardní sady ECMA-121 : 8bitové jednobajtové kódované sady grafických znaků-latinka/hebrejská abeceda 2. vydání (prosinec 2000)
- Standardní sady ECMA-128 : 8bitové jednobajtové kódované sady grafických znaků-latinská abeceda č. 5, 2. vydání (prosinec 1999)
- Standardní ECMA-144 : 8bitové jednobajtové kódované sady znaků-latinská abeceda č. 6, 3. vydání (prosinec 2000)