MARC -8 - MARC-8
MARC-8 charset je standardní MARC používá v Marc-21 knihovních záznamů. Formáty MARC jsou standardy pro reprezentaci a komunikaci bibliografických a souvisejících informací ve strojově čitelné formě a často se používají v databázových systémech knihoven . Kódování znaků nyní známá jako Marc-8 byl představen v roce 1968 jako součást formátu MARC. Původně vychází z latinské abecedy , v letech 1979 až 1983 iniciativa JACKPHY rozšířila repertoár o japonské, arabské, čínské a hebrejské znaky (mimo jiné) s pozdějším přidáním azbuky a řeckého písma. Pokud znak není v MARC-8 záznamu MARC-21 reprezentovatelný, musí být místo toho použit UTF-8 . UTF-8 podporuje mnohem více znaků než MARC-8, který se mimo data knihovny používá jen zřídka.
Technické údaje
MARC-8 používá variantu kódování ISO-2022 . Používá únikové znaky k reprezentaci znaků mimo 7bitový rozsah znaků ASCII .
Obecně používá stejné logické uspořádání BiDi jako Unicode .
Kombinující znaky a základní znaky jsou v jiném pořadí, než se používá v Unicode. Následuje několik příkladů. Kombinující znaky nejsou vždy uloženy v opačném pořadí jako normalizace Unicode . Standard MARC-21 popisuje problémy s převodem MARC-8 Unicode podrobněji.
Zobrazeno
Charakter |
Unicode | MARC-8 |
---|---|---|
A | a ́ | 'A |
A | a ̣ ̂ | . ̣ a |
Struktura kódu
Tyto ISO / IEC 2022 kódování specifikuje mapování dvouvrstvý mezi znakovými kódy a zobrazení znaků. V MARC-8 jsou kódy znaků ze 7bitového grafického rozsahu ASCII (0x20–0x7F) označovány jako kódy „G0“, zatímco kódy z rozsahu „vysokého ASCII“ (0xA0–0xFF) jsou označovány jako „G1“. "kódy. Grafické znakové sady jsou označeny a vyvolat pomocí vícenásobného bajt posloupnosti, sestávající z řídicí znak, zprostředkující posloupností znaků, a závěrečného charakteru ve formě HSV I F .
Následující tabulka ukazuje mezibajt za bajtem ESC (hexadecimální 1B) a odpovídající znaky ASCII.
Sada G0 | Sada G1 | |||||||
---|---|---|---|---|---|---|---|---|
SBCS | MBCS | SBCS | MBCS | |||||
Normální ISO-2022 | 28 | ( | 24 | $ | 29 | ) | 24 29 | $) |
Alternativní ISO-2022 (dalších 63+16 sad) | 2C | , | 24 2C | $, | 2D | - | 24 2D | $- |
Následující tabulka ukazuje konečné bajty v hexadecimálním formátu a odpovídající znaky ASCII po mezilehlých bajtech.
Bajty | Znaky | název | Typ | Komentář |
---|---|---|---|---|
31 | 1 | Čínština, japonština, korejština ( EACC ) | MBCS | |
32 | 2 | Základní hebrejština | SBCS | |
33 | 3 | Základní arabština | SBCS | |
34 | 4 | Rozšířená arabština | SBCS | |
42 | B | Základní latina ( ASCII ) | SBCS | |
21 45 | !E | Rozšířená latina ( ANSEL ) | SBCS | 21 (hex) je technicky druhý bajt přechodného segmentu této únikové sekvence. |
4E | N. | Základní azbuka | SBCS | |
51 | Otázka | Rozšířená azbuka | SBCS | |
53 | S | Základní řečtina | SBCS |
EACC je jediné vícebajtové kódování MARC-8, kóduje každý znak CJK ve třech bajtech ASCII.
Například pro kódování znaku U+4EBA CJK (人) budete potřebovat následující bajty
\x1B\x24\x31\x21\x30\x64
\ X1B \ x24 \ x31 přepne na EACC/CJK a \ x21 \ x30 \ x64 odpovídá U+4EBA.
Rozšíření vlastní sady
Kromě znakových sad ISO-2022 jsou k dispozici také následující vlastní sady. Označení bajtu následuje po únikovém bajtu (hexadecimální 1B). Neexistuje žádný mezilehlý bajt.
Bajty | Znaky | název | Typ | Komentář |
---|---|---|---|---|
62 | b | Sada dolního indexu | SBCS | |
67 | G | Sada řeckých symbolů | SBCS | Znaky alfa, beta a gama obvykle nepřesměrují mapu na Unicode. |
70 | p | Sada horního indexu | SBCS | |
73 | s | Základní latina ( ASCII ) | SBCS |
Reference
- ^ "Sady znaků: Úvod: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .
- ^ "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .
- ^ "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .
- ^ "Sady znaků: Prostředí kódování MARC-8: Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange (Kongresová knihovna)" .
externí odkazy
- Specifikace MARC 21 pro strukturu záznamů, sady znaků a média Exchange - oficiální standard MARC -8, jak jej udržuje Kongresová knihovna USA