MARC -8 - MARC-8

MARC-8 charset je standardní MARC používá v Marc-21 knihovních záznamů. Formáty MARC jsou standardy pro reprezentaci a komunikaci bibliografických a souvisejících informací ve strojově čitelné formě a často se používají v databázových systémech knihoven . Kódování znaků nyní známá jako Marc-8 byl představen v roce 1968 jako součást formátu MARC. Původně vychází z latinské abecedy , v letech 1979 až 1983 iniciativa JACKPHY rozšířila repertoár o japonské, arabské, čínské a hebrejské znaky (mimo jiné) s pozdějším přidáním azbuky a řeckého písma. Pokud znak není v MARC-8 záznamu MARC-21 reprezentovatelný, musí být místo toho použit UTF-8 . UTF-8 podporuje mnohem více znaků než MARC-8, který se mimo data knihovny používá jen zřídka.

Technické údaje

MARC-8 používá variantu kódování ISO-2022 . Používá únikové znaky k reprezentaci znaků mimo 7bitový rozsah znaků ASCII .

Obecně používá stejné logické uspořádání BiDi jako Unicode .

Kombinující znaky a základní znaky jsou v jiném pořadí, než se používá v Unicode. Následuje několik příkladů. Kombinující znaky nejsou vždy uloženy v opačném pořadí jako normalizace Unicode . Standard MARC-21 popisuje problémy s převodem MARC-8 Unicode podrobněji.

Zobrazeno Charakter	Unicode NFD	MARC-8
A	a ́	'A
A	a ̣ ̂	. ̣ a

Struktura kódu

Tyto ISO / IEC 2022 kódování specifikuje mapování dvouvrstvý mezi znakovými kódy a zobrazení znaků. V MARC-8 jsou kódy znaků ze 7bitového grafického rozsahu ASCII (0x20–0x7F) označovány jako kódy „G0“, zatímco kódy z rozsahu „vysokého ASCII“ (0xA0–0xFF) jsou označovány jako „G1“. "kódy. Grafické znakové sady jsou označeny a vyvolat pomocí vícenásobného bajt posloupnosti, sestávající z řídicí znak, zprostředkující posloupností znaků, a závěrečného charakteru ve formě HSV I F .

Následující tabulka ukazuje mezibajt za bajtem ESC (hexadecimální 1B) a odpovídající znaky ASCII.

Intermediální bajty
	Sada G0				Sada G1
	SBCS		MBCS		SBCS		MBCS
Normální ISO-2022	28	(	24	$	29	)	24 29	$)
Alternativní ISO-2022 (dalších 63+16 sad)	2C	,	24 2C	$,	2D	-	24 2D	$-

Následující tabulka ukazuje konečné bajty v hexadecimálním formátu a odpovídající znaky ASCII po mezilehlých bajtech.

Konečné bajty
Bajty	Znaky	název	Typ	Komentář
31	1	Čínština, japonština, korejština ( EACC )	MBCS
32	2	Základní hebrejština	SBCS
33	3	Základní arabština	SBCS
34	4	Rozšířená arabština	SBCS
42	B	Základní latina ( ASCII )	SBCS
21 45	!E	Rozšířená latina ( ANSEL )	SBCS	21 (hex) je technicky druhý bajt přechodného segmentu této únikové sekvence.
4E	N.	Základní azbuka	SBCS
51	Otázka	Rozšířená azbuka	SBCS
53	S	Základní řečtina	SBCS

EACC je jediné vícebajtové kódování MARC-8, kóduje každý znak CJK ve třech bajtech ASCII.

Například pro kódování znaku U+4EBA CJK (人) budete potřebovat následující bajty

 \x1B\x24\x31\x21\x30\x64

\ X1B \ x24 \ x31 přepne na EACC/CJK a \ x21 \ x30 \ x64 odpovídá U+4EBA.

Rozšíření vlastní sady

Kromě znakových sad ISO-2022 jsou k dispozici také následující vlastní sady. Označení bajtu následuje po únikovém bajtu (hexadecimální 1B). Neexistuje žádný mezilehlý bajt.

Konečné bajty
Bajty	Znaky	název	Typ	Komentář
62	b	Sada dolního indexu	SBCS
67	G	Sada řeckých symbolů	SBCS	Znaky alfa, beta a gama obvykle nepřesměrují mapu na Unicode.
70	p	Sada horního indexu	SBCS
73	s	Základní latina ( ASCII )	SBCS

Reference

externí odkazy

Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange - oficiální standard MARC -8, jak jej udržuje Kongresová knihovna USA

[1] "Sady znaků: Úvod: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .

[2] "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .

[3] "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .

[4] "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .

Languages

In other projects