KOI8-RU - KOI8-RU

KOI8-RU
Jazyk (y) Běloruský , ukrajinský , ruský , bulharský
Klasifikace 8bitový KOI , rozšířený ASCII
Rozšiřuje KOI8-B
Na základě KOI8-U , KOI8-R
Další související kódování KOI8-E , KOI8-F

KOI8-RU je 8bitové kódování znaků určené k pokrytí ruštiny , ukrajinštiny a běloruštiny, které používají azbuku . To úzce souvisí s KOI8-R , který zahrnuje ruská a bulharská , ale nahradí deset grafické znaky s pěti ukrajinských a běloruských dopisy Ґ , ¥ , І , Ї a ÷ v obou velkých a malých písmen. Ještě více souvisí s KOI8-U , který nezahrnuje Ў, ale jinak provádí stejné náhrady. K přidělení dalších písmen odpovídá KOI8-E , kromě Ґ, který je přidán do KOI8-F .

V IBM je KOI8-RU přiřazena kódová stránka 1167.

KOI8 zůstává mnohem běžněji používaný než ISO 8859-5 , který se nikdy opravdu neuchytil. Dalším běžným kódováním znaků cyrilice je Windows-1251 . V budoucnu mohou oba nakonec ustoupit Unicode .

KOI8 znamená Kod Obmena Informatsiey, 8 bitů ( rusky : Код Обмена Информацией, 8 бит ), což znamená „Code for Information Exchange, 8 bit“.

Znakové sady KOI8 mají tu vlastnost, že ruská písmena cyrilice jsou spíše v pseudorománském pořadí než přirozená abeceda v abecedě jako v ISO 8859-5. I když se to může zdát nepřirozené, má to užitečnou vlastnost, že i když je osmý bit odstraněn, text lze stále číst (nebo alespoň dešifrovat) v případě přepisu malých a velkých písmen na běžném terminálu ASCII. Například „Русский Текст“ v KOI8-RU se stane rUSSKIJ tEKST („ruský text“), pokud je 8. bit odstraněn.

Znaková sada

Následující tabulka ukazuje kódování KOI8-RU. Každý znak je zobrazen s ekvivalentním bodem kódu Unicode a jeho desetinnou čárkou.

KOI8-RU
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
0_
0
1_
16
2_
32
SP
0020
!
0021

0022
#
0023
0024 USD
%
0025
&
0026

0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
I
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_
96
`
0060
a
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
i
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
8_
128

2500
2
2502
┌ 250
° C
10
2510
14
2514
18
2518
1
251C
24
2524
2
252C
34
2534
3
253C
80
2580
84
2584

2588

258C
90
2590
9_
144
91
2591

2592
93
2593

201C

25A0
19
2219

201D
-
2014

2116

2122
NBSP
00A0
»
00BB
®
00AE
«
00AB
·
00B7
¤
00A4
A_
160
50
2550
51
2551
52
2552
ё
0451
є
0454
54
2554
і
0456
ї
0457
57
2557
58
2558
59
2559
╚ 255
A.

255 B
91
0491
ў
045D

255E
B_
176

255F
60
2560
61
2561
Ё
0401
Є
0404
63
2563
І
0406
Ї
0407
66
2566
67
2567
68
2568
69
2569

256A
90
0490
Ў
040D
©
00A9
C_
192
ю
044E
а
0430
б
0431
ц
0446
д
0434
е
0435
ф
0444
г
0433
х
0445
č
0438
©
0439
к
043A
л
043B
м
043C
v
043D
®
043E
D_
208
п
043F
я
044F
р
0440
с
0441
т
0442
у
0443
ж
0436
в
0432
ь
044C
ы
044B
з
0437
48
0448
э
044D
щ
0449
ч
0447
ъ
044A
E_
224
Ю
042E
А
0410
11
0411
26
0426
Д
0414
15
0415
24
0424
Г
0413
25
0425
18
0418
19
0419
К
041A
1
041B
М
041C
1
041D
О
041E
F_
240
П
041F
Я
042F
Р
0420
С
0421
Т
0422
У
0423
16
0416
В
0412
Ь
042C
2
042B
17
0417
Ш
0428
2
042D
Щ
0429
27
0427
2
042A

Rozdíl oproti KOI8-R se skládá z pozic 0xA4; 0xA6; 0xA7; 0xAD; 0xAE; a 0xB4; 0xB6; 0xB7; 0xBD; 0xBE; které se skládají z písmen navíc, která v ruštině neexistují.

Ačkoli RFC 2319 říká, že znak 0x95 by měl být U + 2219 (∙), může to být také U + 2022 (•), aby odpovídal znaku odrážky ve Windows-1251 .

Některé odkazy mají překlep a nesprávně uvádějí, že znak 0xB4 je U + 0403, spíše než správný U + 0404. Tento překlep je uveden v příloze A RFC 2319 (ale tabulka v hlavním textu RFC poskytuje správné mapování).

Viz také

Reference


externí odkazy