KOI-Zeichenkodierungen – Wikipedia

before-content-x4

KOI ((КОИ) ist eine Familie von mehreren Codepages für das kyrillische Skript. Der Name steht für Kod Obmena Informatsiey (Russisch: Код Обмена Информацией), was “Code für den Informationsaustausch” bedeutet.

after-content-x4

Ein besonderes Merkmal der KOI-Codepages ist, dass der Text für Menschen lesbar bleibt, wenn das Bit ganz links entfernt wird, falls es versehentlich Geräte oder Software durchläuft, die nur mit 7 Bit breiten Zeichen umgehen können. Dies ist darauf zurückzuführen, dass Zeichen in einer speziellen Reihenfolge angeordnet sind (128 Codepunkte, abgesehen von dem lateinischen Buchstaben, dem sie am ähnlichsten klingen), der jedoch in keiner kyrillisch geschriebenen Sprache der alphabetischen Reihenfolge entspricht und die Verwendung von erfordert Nachschlagetabellen zum Sortieren.

Diese Kodierungen werden von ASCII auf der Grundlage einer Korrespondenz zwischen Latein und Kyrillisch (fast phonetisch) abgeleitet, die bereits im russischen Dialekt des Morsecodes und im MTK-2-Telegraphencode verwendet wurde. Die ersten 26 Zeichen von А (0xE1) in KOI8-R sind А, Б, Ц, Д, Е, Ф, Г, Х, И, Й, К, Л, М, Н, О, П, Я, Р, Р, С, Т, У, Ж, В, Ь, Ы, З.

Die ursprüngliche KOI-Codierung (1967) war eine 7-Bit-Codepage mit dem Namen KOI-7 (КОИ-7), die keine Kleinbuchstaben enthielten. In KOI-7 sind die Codes der 31 oder 32 russischen Buchstaben nach den lateinischen Buchstaben geordnet. Andere Codepunkte sind dieselben wie in ASCII (jedoch das Dollarzeichen $ (Codepunkt 24)verhexen) kann durch das universelle Währungszeichen ersetzt werden ¤).

KOI-8 (КОИ-8), 1974 von GOST 19768 standardisiert, ist eine 8-Bit-Erweiterung von ASCII.[1][2] Ursprünglich enthielt es nur 32 russische Kleinbuchstaben und 31 russische Großbuchstaben.

Spätere Derivate von KOI-8 bilden die Familie von Codierungen, die verschiedentlich als bekannt sind KOI8, KOI 8 und KOI-8.

Die Familienmitglieder sind:

Zusätzlich definiert GOST R 34.303-92 “KOI-8 V1” (ISO-IR-153) und “KOI-8 N1” und “KOI-8 N2” (Varianten von Codepage 866).[16] Diese folgen nicht dem KOI-8-Layout.

after-content-x4

DKOI ist eine EBCDIC-basierte Codierung, die in ES EVM-Mainframes verwendet wird. Es wurde durch mehrere Standards definiert: GOST 19768-74 / ST SEV 358-76, ST SEV 358-88 / GOST 19768-93, CSN 36 9103.[17]

Es gibt zwei Varianten:

  • DKOI K1 (ДКОИ К1) erhält jeder kyrillische Buchstabe einen eigenen Codepunkt.
  • DKOI K2 (ДКОИ К1) werden einige kyrillische Buchstaben (А, В, Е, К, М, Н, О, Р, С, Т, Х, а, е, о, р, с, у, х) mit visuell identischen Buchstaben zusammengeführt Lateinische Buchstaben.

Lateinische Varianten[edit]

Einige Codierungen werden als KOI bezeichnet, definieren jedoch lateinische Alphabete:

  • KOI8-CS[18] / KOI8-CS2[17] für Tschechisch und Slowakisch (ČSN (tschechischer technischer Standard) 369103, entwickelt von Comecon. Dieses codierte Latein mit diakritischen Zeichen, wie es in Tschechisch und Slowakisch verwendet wird, und nicht mit Kyrillisch, aber die Grundidee war dieselbe – der Text sollte mit der 8 lesbar bleiben -th Bit gelöscht, also zB Č wurde C etc.).
  • KOI8-L2 “Latin-2” (definiert in CSN 36 9103), ISO IR 139[19] (fast identisch mit ISO 8859-2 (1987), jedoch mit vertauschtem Dollar- und Währungszeichen)
  • DKOI CS2 (definiert in CSN 36 9103)[17]
  • DKOI L2 (definiert in CSN 36 9103)[17]

Verweise[edit]

  1. ^ ein b Czyborra, Roman (30.11.1998) [1998-05-25]. “Die kyrillische Zeichensatzsuppe”. Archiviert vom Original am 03.12.2016. Abgerufen 2016-12-03.
  2. ^ Flohr, Guido; Chernov, Andrey A. (2016) [2006]. “Locale :: RecodeData :: KOI_8 – Konvertierungsroutinen für KOI-8”. CPAN libintl-perl. 1.0. Archiviert vom Original am 15.01.2017. Abgerufen 2017-01-15.
  3. ^ ein b da Cruz, Frank (2010-04-02). “Kermit- und MIME-Zeichensatznamen”. Das Kermit-Projekt. Columbia University, New York, USA. Archiviert vom Original am 03.12.2016. Abgerufen 2016-12-02.
  4. ^ Juri Demchenko. Registrierung eines ukrainischen kyrillischen Zeichensatzes KOI8-RU (als Erweiterung des russischen KOI8-R und ISO-IR-111) (Internet Draft). 1997. (Abgelaufen).
  5. ^ Flohr, Guido (2016) [2006]. “Locale :: RecodeData :: KOI8_RU – Konvertierungsroutinen für KOI8-RU”. CPAN libintl-perl. Archiviert vom Original am 15.01.2017. Abgerufen 2017-01-15.
  6. ^ “Informationen zur SBCS-Codepage – CPGID: 01167 / Name: Weißrussisch / Ukrainisch KOI8-RU”. IBM Software: Globalisierung: Codierte Zeichensätze und zugehörige Ressourcen: Codepages nach CPGID: Codepage-IDs. IBM. CH 3-3220-050. Archiviert vom Original am 18.02.2017. Abgerufen 2017-02-18.[1] [2]
  7. ^ “CCSID-Informationsdokument; CCSID 1167; KOI8-RU”. IBM. Archiviert vom Original am 18.02.2017. Abgerufen 2017-02-18.
  8. ^ Leisher, Mark (2008) [1999-12-20]. “KOI8-RU Belorusian / Ukrainian Cyrillic to Unicode 2.1 Mapping-Tabelle”. Institut für Mathematische Wissenschaften, New Mexico State University. Archiviert von das Original am 19.02.2017. Abgerufen 2017-02-18.
  9. ^ Flohr, Guido; Davis, Michael (2016) [2006]. “Locale :: RecodeData :: KOI8_T – Konvertierungsroutinen für KOI8-T”. CPAN libintl-perl. Archiviert vom Original am 15.01.2017. Abgerufen 2017-01-15.
  10. ^ Diskussion
  11. ^ “IANA-Zeichensätze”.
  12. ^ ECMA-113. 8-Bit-Einzelbyte-codierte grafische Zeichensätze – lateinisches / kyrillisches Alphabet (1. Ausgabe, Juni 1986)
  13. ^ http://segfault.kiev.ua/cyrillic-encodings/
  14. ^ Leisher, Mark (2008) [1998-03-05]. “KOI8 Unified Cyrillic to Unicode 2.1-Zuordnungstabelle”. Institut für Mathematische Wissenschaften, New Mexico State University. Archiviert von das Original am 19.02.2017. Abgerufen 2017-02-18.
  15. ^ Serge Winitzki. Erweiterter kyrillischer Zeichensatz KOI8-C (Internet Draft). 2002. (Abgelaufen).
  16. ^ (auf Russisch) Р Р 34.303-92. Наборы 8-битных кодированных символов. 8-битный код обмена и обработки информации. = 8-Bit-codierte Zeichensätze. 8-Bit-Code für den Informationsaustausch.
  17. ^ ein b c d Petrlik, Lukas (1996-06-19). “Das tschechische und slowakische Zeichencodierungs-Chaos erklärt”. cs-encodings-faq. 1.10. Archiviert vom Original am 21.06.2016. Abgerufen 2016-06-21.
  18. ^ “Archivierte Kopie”. Archiviert von das Original am 21.03.2011. Abgerufen 2011-04-19.CS1-Wartung: Archivierte Kopie als Titel (Link)
  19. ^ ISO-IR-139

Weiterführende Literatur[edit]

  • Kornai, Andras; Birnbaum, David J.; da Cruz, Frank; Davis, Bur; Fowler, George; Paine, Richard B.; Paperno, Slava; Simonsen, Keld J.; Thobe, Glenn E.; Vulis, Dimitri; van Wingen, Johan W. (1993-03-13). “CYRILLIC ENCODING FAQ Version 1.3”. 1.3. Abgerufen 2017-02-18.
  • “Kodierungen und Zeichensätze” [Encodings and character sets]. Robotron Technik (Virtuelles Computermuseum) (auf Deutsch). 2016-11-29. ASCII-Code / KOI-Code. Abgerufen 2017-02-21.

Externe Links[edit]


after-content-x4