ISO/IEC 8859-1 - ISO/IEC 8859-1

ISO/IEC 8859-1: 1998
	Rozložení kódové stránky ISO 8859-1
MIME / IANA	ISO-8859-1
Přezdívky	iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819
Jazyk (y)	Angličtina , různí další
Standard	ISO/IEC 8859
Klasifikace	Rozšířený ASCII , ISO 8859
Rozšiřuje	US-ASCII
Na základě	DEC MCS
Uspěl
Jiná související kódování	BraSCII
	proti; t; E;

ISO / IEC 8859-1: 1998 , Informační technologie - 8-bit jedno byte kódované grafické znakové sady - Část 1: Latinská abeceda No. 1 , je součástí 8859 ISO / IEC řady ASCII založené standardní kódování znaků , první vydání publikované v roce 1987. ISO 8859-1 kóduje to, co označuje jako „latinská abeceda č. 1“, skládající se ze 191 znaků z latinského písma . Toto schéma kódování znaků se používá v celé Americe , západní Evropě , Oceánii a velké části Afriky . Je to základ pro některé populární 8bitové znakové sady a první dva bloky znaků v Unicode .

ISO-8859-1 bylo (alespoň podle standardu) výchozím kódováním dokumentů doručovaných přes HTTP s typem MIME začínajícím na „text/“ ( HTML5 to změnilo na Windows-1252 ). V říjnu 2021 používá 1,2% všech (ale pouze 5 z 1 000 nejlepších) webů ISO 8859-1 . Jedná se o nejvíce deklarované jednobajtové kódování znaků na světě na webu, ale jak jej webové prohlížeče interpretují jako nadmnožinu Windows-1252, dokumenty mohou obsahovat znaky z této sady.

V závislosti na zemi může být použití mnohem vyšší, než je celosvětový průměr, např. V Německu s 5,1% (včetně Windows-1252 s 5,6%).

ISO-8859-1 bylo výchozím kódováním hodnot určitých popisných záhlaví HTTP a definovalo repertoár znaků povolených v dokumentech HTML 3.2 a je specifikováno mnoha dalšími standardy. Tato a podobné sady jsou často považovány za kódování 8bitového textu v systému Unix a Microsoft Windows, pokud neexistuje žádná značka pořadí bajtů (BOM); toto se jen postupně mění na UTF-8 .

ISO-8859-1 je preferovaný název IANA pro tuto normu, když je doplněn o řídicí kódy C0 a C1 z ISO/IEC 6429 . Zaregistrovány jsou následující další aliasy: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . V systému Windows se pro něj používá kódová stránka 28591 neboli Windows-28591 . IBM tomu říká kódová stránka 819 nebo CP819 ( CCSID 819). Oracle tomu říká WE8ISO8859P1 .

Dosah

Každý znak je kódován jako jedna hodnota osmibitového kódu. Tyto hodnoty kódu lze použít v téměř jakémkoli systému pro výměnu dat ke komunikaci v následujících jazycích (i když mohou vyloučit správné uvozovky, jako například pro mnoho jazyků včetně němčiny a islandštiny):

Moderní jazyky s úplným pokrytím

Poznámky

Jazyky s neúplným pokrytím

ISO-8859-1 byla běžně používána pro určité jazyky, přestože postrádá znaky používané těmito jazyky. Ve většině případů chybí pouze několik písmen nebo se používají jen zřídka a lze je nahradit znaky uvedenými v ISO-8859-1 pomocí nějaké formy typografické aproximace . Následující tabulka uvádí takové jazyky.

Jazyk	Chybějící postavy	Typické řešení	Podporováno
Katalánština	Ŀ , ŀ (zastaralé)	L ·, l ·
dánština	Ǿ , ǿ (přízvuk je volitelný a ǿ je velmi vzácný)	Ø, ř nebo ře
holandský	Ĳ , ĳ (ale s diskutabilním statusem ); j ve zdůrazněných slovech jako „blíjf“	digrafy IJ, ij; blíjf
estonština	Š , š, Ž , ž (pouze v zápůjčních slovech)	Sh, sh, Zh, zh	ISO-8859-15 , Windows-1252
Finský	Š , š, Ž , ž (pouze v zápůjčních slovech)	Sh, sh, Zh, zh	ISO-8859-15 , Windows-1252
francouzština	Œ , œ a velmi vzácné Ÿ	digrafy OE, oe; Y nebo Ý	ISO-8859-15 , Windows-1252
Němec	ẞ (hlavní ß, používané pouze ve všech hlavních městech; zahrnuto v oficiálním pravopise v roce 2017, stále nepovinné)	digraf SS
maďarský	Ő , ő, Ű , ű	Ö, ö, Ü, ü	ISO/IEC 8859-2 , Windows-1250
Irština ( tradiční pravopis )	Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ	Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Ph, ph, Sh, sh, Th, th	ISO-8859-14
turečtina	Ş , ş
velština	Ẁ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, Ÿ	W, w, Y, y, Ý, ý	ISO-8859-14

Písmeno ÿ , které se ve francouzštině objevuje jen velmi zřídka, hlavně v názvech měst jako L'Haÿ-les-Roses a nikdy na začátku slov, je obsaženo pouze v malé formě. Slot odpovídající jeho velké formě je obsazen malým písmenem ß z německého jazyka, který v době vytvoření standardu neměl velký formát .

Uvozovky

U některých jazyků uvedených výše, správná typografické uvozovky chybí, jako jediný « », " "a ' 'jsou zahrnuty. Toto schéma také neposkytuje orientované (ve tvaru 6 nebo 9) jednoduché nebo dvojité uvozovky. Některá písma budou zobrazovat mezerový přízvuk (0x60) a apostrof (0x27) jako odpovídající dvojici orientovaných jednoduchých uvozovek, ale toto není považováno za součást moderního standardu.

Dějiny

ISO 8859-1 byla založena na Multinational Character Set (MCS) používaném společností Digital Equipment Corporation (DEC) v populárním terminálu VT220 v roce 1983. Byla vyvinuta v rámci Evropské asociace výrobců počítačů (ECMA) a publikována v březnu 1985 jako ECMA -94, pod kterým jménem je ještě někdy známý. Druhé vydání ECMA-94 (červen 1986) také zahrnovalo ISO 8859-2 , ISO 8859-3 a ISO 8859-4 jako součást specifikace.

Původní návrh ISO 8859-1 umístil francouzský Œ a œ u bodů kódu 215 (0xD7) a 247 (0xF7), jako je tomu v MCS. Delegát z Francie, který nebyl lingvistou ani typografem, však nepravdivě uvedl, že se nejedná o nezávislá francouzská písmena sama o sobě, ale o pouhé ligatury (jako fi nebo ﬂ ), podporované delegátským týmem z Bull Publishing Company , který pravidelně v té době netiskli francouzštinu s Œ/œ v jejich domácím stylu. Anglofonní delegát z Kanady trval na zachování Œ/œ ale byl odmítnut francouzským delegátem a týmem z Bullu. Tyto kódové body byly brzy naplněny × a ÷ na návrh německé delegace. Podpora francouzštiny byla dále snížena, když bylo opět falešně uvedeno, že písmeno ÿ není „francouzské“, což má za následek absenci hlavního města Ÿ . Ve skutečnosti se písmeno ÿ nachází v řadě francouzských vlastních jmen a velké písmeno bylo použito ve slovnících a encyklopediích. Tyto znaky byly přidány do ISO/IEC 8859-15: 1999 . BraSCII odpovídá původnímu návrhu.

V roce 1985 Commodore přijal ECMA-94 pro svůj nový operační systém AmigaOS . Dopadová jehličková tiskárna Seikosha MP-1300AI, používaná s Amigou 1000, obsahovala toto kódování.

V roce 1990 používala úplně první verze Unicode kódové body ISO-8859-1 jako prvních 256 kódových bodů Unicode.

V roce 1992 zaregistrovala IANA mapu znaků ISO_8859-1: 1987 , známější spíše pod jejím preferovaným názvem MIME ISO-8859-1 (všimněte si další pomlčky nad ISO 8859-1), nadmnožinou ISO 8859-1, pro použití na internetu . Tato mapa přiřazuje řídicí kódy C0 a C1 nepřiřazeným hodnotám kódu, takže poskytuje 256 znaků prostřednictvím všech možných 8bitových hodnot.

Rozložení kódové stránky

ISO/IEC 8859-1
	_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
0_ 0
1_ 16
2_ 32	SP 0020	! 0021	„ 0022	# 0023	0024 $	% 0025	& 0026	„ 0027	( 0028	) 0029	* 002A	+ 002B	, 002C	- 002D	. 002E	/ 002F
3_ 48	0 0030	1 0031	2 0032	3 0033	4 0034	5 0035	6 0036	7 0037	8 0038	9 0039	: 003A	; 003B	< 003C	= 003D	> 003E	? 003F
4_ 64	@ 0040	0041	B 0042	C 0043	D 0044	E 0045	F 0046	G 0047	H 0048	Já 0049	J 004A	K 004B	L 004C	M 004D	N 004E	O 004F
5_ 80	P 0050	Q 0051	R 0052	S 0053	T 0054	U 0055	V 0056	W 0057	X 0058	Y 0059	Z 005A	[ 005B	\ 005C	] 005D	^ 005E	_ 005F
6_ 96	` 0060	0061	b 0062	c 0063	d 0064	e 0065	f 0066	g 0067	h 0068	já 0069	j 006A	k 006B	l 006C	m 006D	n 006E	o 006F
7_ 112	p 0070	q 0071	r 0072	s 0073	t 0074	u 0075	v 0076	w 0077	x 0078	y 0079	z 007A	{ 007B	\| 007C	} 007D	~ 007E
8_ 128
9_ 144
A_ 160	NBSP 00A0	¡ 00A1	¢ 00A2	£ 00A3	A 00A4	¥ 00A5	A 00A6	§ 00A7	A 00A8	© 00A9	A 00AA	« 00AB	¬ 00AC	SHY 00AD	® 00AE	¯ 00AF
B_ 176	° 00B0	± 00B1	² 00B2	³ 00B3	" 00B4	µ 00B5	¶ 00B6	· 00B7	¸ 00B8	¹ 00B9	º 00BA	» 00BB	¼ 00 př	½ 00 BD	¾ 00 BE	¿ 00BF
C_ 192	À 00C0	Á 00C1	Â 00C2	Ã 00C3	Ä 00C4	Å 00C5	C 00C6	C 00C7	È 00C8	É 00C9	Ê 00CA	Ë 00CB	Ì 00CC	Í 00CD	Î 00 n. L	Ï 00CF
D_ 208	Ð 00D0	Ñ 00D1	Ò 00D2	Ó 00D3	Ô 00D4	Õ 00D5	Ö 00D6	× 00D7	Ř 00D8	Ù 00D9	Ú 00DA	Û 00 dB	„ 00 DC	" 00DD. "	Þ 00DE	ß 00DF
E_ 224	od 00E0	á 00E1	â 00E2	ã 00E3	ä 00E4	å 00E5	æ 00E6	ç 00E7	č 00E8	é 00E9	ê 00EA	' 00EB	ì 00EC	í 00ED	v 00EE	ï 00EF
F_ 240	ð 00F0	ñ 00F1	ò 00F2	o 00F3	ô 00F4	õ 00F5	ö 00F6	÷ 00F7	ř 00F8	ù 00F9	ú 00FA	û 00FB	ü 00FC	ý 00FD	þ 00FE	F 00FF

Dopis Číslo Interpunkce Symbol jiný Nedefinováno Nedefinováno v prvním vydání ECMA-94 (1985). V původním návrhu však Œ byl v kódovém bodě 215 (0xD7) a œ byl v kódovém bodě 247 (0xF7).

Podobné znakové sady

ISO/IEC 8859-15

ISO/IEC 8859-15 byla vyvinuta v roce 1999 jako aktualizace ISO/IEC 8859-1. Obsahuje některé znaky pro francouzský a finský text a znak eura , které v ISO/IEC 8859-1 chybí. To vyžaduje odstranění některých zřídka používané znaky z ISO / IEC 8859-1, včetně frakce symbolů a písmen bez diakritikou: ¤, ¦, ¨, ´, ¸, ¼, ½, a ¾. Paradoxně, tři z nově přidaných znaky ( Œ, œ, a Ÿ) již byla přítomna v DEC je 1983 Multinational znakové sadě (MCS), předchůdce na ISO / IEC 8859-1 (1987). Protože jejich původní kódové body byly nyní znovu použity pro jiné účely, postavy musely být znovu zavedeny pod jinými, méně logickými kódovými body.

ISO-IR-204, drobnější modifikace, byla zaregistrována v roce 1998 a změnila ISO-8859-1 nahrazením znaku univerzální měny (¤) znakem eura (stejná náhrada jako v ISO-8859-15).

Windows-1252

Populární znaková sada Windows-1252 přidává všechny chybějící znaky poskytované normou ISO/IEC 8859-15 a řadu typografických symbolů tím, že nahrazuje zřídka používané ovladače C1 v rozsahu 128 až 159 ( hexadecimální 80 až 9F). Je velmi běžné nesprávně označovat text Windows-1252 jako v ISO-8859-1. Běžným výsledkem bylo, že všechny uvozovky a apostrofy (vytvořené „inteligentními uvozovkami“ v softwaru pro zpracování textu) byly v operačních systémech jiných než Windows nahrazeny otazníky nebo rámečky, což znesnadňovalo čtení textu. Mnoho webových prohlížečů a e-mailových klientů bude interpretovat řídicí kódy ISO-8859-1 jako znaky Windows-1252 a toto chování bylo později standardizováno v HTML5 .

Mac Roman

Počítač Apple Macintosh představil kódování znaků s názvem Mac Roman v roce 1984. Měl být vhodný pro západoevropské desktopové publikování . Je to nadmnožina ASCII a má většinu znaků, které jsou v ISO-8859-1 a všechny další znaky z Windows-1252, ale ve zcela jiném uspořádání. Těch několik tisknutelných znaků, které jsou v ISO 8859-1, ale ne v této sadě, je často zdrojem potíží při úpravách textu na webech pomocí starších prohlížečů Macintosh, včetně poslední verze aplikace Internet Explorer pro Mac .

jiný

DOS měl kódovou stránku 850 , která měla všechny tisknutelné znaky, které měla ISO-8859-1 (i když v úplně jiném uspořádání), plus nejpoužívanější grafické znaky z kódové stránky 437 .

V letech 1989 až 2015 použila společnost Hewlett-Packard na mnoha svých kalkulačkách další nadmnožinu ISO-8859-1. Tato proprietární znaková sada byla někdy také jednoduše označována jako „ECMA-94“.

Viz také

Reference

externí odkazy

ISO/IEC 8859-1: 1998
ISO/IEC FDIS 8859-1: 1998-8bitové jednobajtové kódované grafické znakové sady, Část 1: Latinská abeceda č. 1 (návrh ze dne 12. února 1998, publikován 15. dubna 1998)
Standardní sady ECMA-94: 8bitové jednobajtové kódované sady grafických znaků-latinské abecedy č. 1 až č. 2, 2. vydání (červen 1986)
ISO-IR 100 pravá část latinské abecedy č. 1 (1. února 1986)
Databáze dopisů
Czyborra, Roman (01.12.1998). „Abecední polévka ISO 8859“ . Archivováno od originálu dne 2016-12-01 . Citováno 2016-12-01 . [1] [2]

Languages

In other projects