MARC -8 - MARC-8

MARC-8 charset je standardní MARC používá v Marc-21 knihovních záznamů. Formáty MARC jsou standardy pro reprezentaci a komunikaci bibliografických a souvisejících informací ve strojově čitelné formě a často se používají v databázových systémech knihoven . Kódování znaků nyní známá jako Marc-8 byl představen v roce 1968 jako součást formátu MARC. Původně vychází z latinské abecedy , v letech 1979 až 1983 iniciativa JACKPHY rozšířila repertoár o japonské, arabské, čínské a hebrejské znaky (mimo jiné) s pozdějším přidáním azbuky a řeckého písma. Pokud znak není v MARC-8 záznamu MARC-21 reprezentovatelný, musí být místo toho použit UTF-8 . UTF-8 podporuje mnohem více znaků než MARC-8, který se mimo data knihovny používá jen zřídka.

Technické údaje

MARC-8 používá variantu kódování ISO-2022 . Používá únikové znaky k reprezentaci znaků mimo 7bitový rozsah znaků ASCII .

Obecně používá stejné logické uspořádání BiDi jako Unicode .

Kombinující znaky a základní znaky jsou v jiném pořadí, než se používá v Unicode. Následuje několik příkladů. Kombinující znaky nejsou vždy uloženy v opačném pořadí jako normalizace Unicode . Standard MARC-21 popisuje problémy s převodem MARC-8 Unicode podrobněji.

Zobrazeno

Charakter

Unicode

NFD

MARC-8
A a ́   'A
A a ̣ ̂   . ̣ a

Struktura kódu

Tyto ISO / IEC 2022 kódování specifikuje mapování dvouvrstvý mezi znakovými kódy a zobrazení znaků. V MARC-8 jsou kódy znaků ze 7bitového grafického rozsahu ASCII (0x20–0x7F) označovány jako kódy „G0“, zatímco kódy z rozsahu „vysokého ASCII“ (0xA0–0xFF) jsou označovány jako „G1“. "kódy. Grafické znakové sady jsou označeny a vyvolat pomocí vícenásobného bajt posloupnosti, sestávající z řídicí znak, zprostředkující posloupností znaků, a závěrečného charakteru ve formě HSV I F .

Následující tabulka ukazuje mezibajt za bajtem ESC (hexadecimální 1B) a odpovídající znaky ASCII.

Intermediální bajty
Sada G0 Sada G1
SBCS MBCS SBCS MBCS
Normální ISO-2022 28 ( 24 $ 29 ) 24 29 $)
Alternativní ISO-2022 (dalších 63+16 sad) 2C , 24 2C $, 2D - 24 2D $-

Následující tabulka ukazuje konečné bajty v hexadecimálním formátu a odpovídající znaky ASCII po mezilehlých bajtech.

Konečné bajty
Bajty Znaky název Typ Komentář
31 1 Čínština, japonština, korejština ( EACC ) MBCS
32 2 Základní hebrejština SBCS
33 3 Základní arabština SBCS
34 4 Rozšířená arabština SBCS
42 B Základní latina ( ASCII ) SBCS
21 45 !E Rozšířená latina ( ANSEL ) SBCS 21 (hex) je technicky druhý bajt přechodného segmentu této únikové sekvence.
4E N. Základní azbuka SBCS
51 Otázka Rozšířená azbuka SBCS
53 S Základní řečtina SBCS

EACC je jediné vícebajtové kódování MARC-8, kóduje každý znak CJK ve třech bajtech ASCII.

Například pro kódování znaku U+4EBA CJK (人) budete potřebovat následující bajty

 \x1B\x24\x31\x21\x30\x64

\ X1B \ x24 \ x31 přepne na EACC/CJK a \ x21 \ x30 \ x64 odpovídá U+4EBA.

Rozšíření vlastní sady

Kromě znakových sad ISO-2022 jsou k dispozici také následující vlastní sady. Označení bajtu následuje po únikovém bajtu (hexadecimální 1B). Neexistuje žádný mezilehlý bajt.

Konečné bajty
Bajty Znaky název Typ Komentář
62 b Sada dolního indexu SBCS
67 G Sada řeckých symbolů SBCS Znaky alfa, beta a gama obvykle nepřesměrují mapu na Unicode.
70 p Sada horního indexu SBCS
73 s Základní latina ( ASCII ) SBCS

Reference

  1. ^ "Sady znaků: Úvod: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .
  2. ^ "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .
  3. ^ "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .
  4. ^ "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .

externí odkazy