Beschreibungssprachen für chinesische Schriftzeichen – Wikipedia

before-content-x4

Versuche, Hanzi auf übliche Weise zu beschreiben

after-content-x4

Das Beschreibungssprachen für chinesische Schriftzeichen Es werden mehrere Sprachen vorgeschlagen, um chinesische (oder CJK) Zeichen und Informationen am genauesten und vollständigsten zu beschreiben, z. B. die Liste der Komponenten, die Liste der Striche (einfach und komplex), ihre Reihenfolge und die Position der einzelnen Sprachen auf einem leeren Hintergrundquadrat. Sie sollen den inhärenten Informationsmangel in einer Bitmap-Beschreibung überwinden. Diese angereicherten Informationen können verwendet werden, um Varianten von Zeichen zu identifizieren, die durch Unicode und ISO / IEC 10646 zu einem Codepunkt vereinheitlicht wurden, sowie um eine alternative Darstellungsform für seltene Zeichen bereitzustellen, die noch keine standardisierte Codierung in Unicode oder haben ISO / IEC 10646. Viele zielen darauf ab, für den Kaishu-Stil und den Song-Stil zu arbeiten sowie die interne Struktur des Charakters bereitzustellen, die zum leichteren Nachschlagen eines Charakters verwendet werden kann, indem das interne Make-up des Charakters indiziert und Querverweise zwischen ihnen erstellt werden ähnliche Zeichen.

CDL-Ansatz für kaskadierende Komponenten.

Zeichen Beschreibung Sprache ist eine auf XML basierende Schrifttechnologie, die von Tom Bishop und Richard Cook für das Wenlin Institute gemeinsam entwickelt wurde und zur Beschreibung eines beliebigen CJK-Zeichens, jedoch zur Beschreibung eines beliebigen Glyphen geeignet ist.

Diese XML-basierte deklarative Sprache definiert die Strichreihenfolge jeder Komponente (eine Untereinheit des Glyphen, die einem Radikal ähnelt, aber nicht unbedingt die semantische Bedeutung eines echten Radikals trägt) sowie die Zusammenstellung zuvor definierter Komponenten, um immer mehr aufzubauen komplexe Zeichen. Viele dieser Komponenten sind eigenständige Zeichen und dienen nicht nur als Bausteinkomponenten.

Der Hintergrund sieht aus wie ein Quadrat mit 128 Pixeln auf jeder Seite. Vor diesem Hintergrund:

  1. Jeder von ungefähr 50 Strichen kann in SVG gezeichnet werden.
  2. Eine Grundkomponente besteht aus mehreren Strichen. In dieser Komponente wird jeder Strich durch seine untere linke und obere rechte Ecke beschrieben. Transformationen sind möglich (Verkleinerung, Vergrößerung usw.). Es gibt mehr als 1.000 Grundkomponenten.
  3. Ein Zeichen besteht aus mehreren Komponenten. In diesem Zeichen wird jede Komponente durch ihre untere linke und obere rechte Ecke beschrieben. Damit eine Komponente in ihren richtigen Teil des rechteckigen Blocks des chinesischen Zeichens passt, kann eine Komponente bei ihrer Verwendung als Baustein, der in ein komplexeres Zeichen eingebettet ist, transformiert werden (z. B. horizontale oder vertikale Verkleinerung oder Vergrößerung).

Dementsprechend ein Satz von weniger als 50 Hüben[1] Erlauben Sie einem, einen Satz von ungefähr 1.000 Komponenten zu konstruieren[2] Dies kann wiederum in die Beschreibungen von Zehntausenden von Zeichen eingebettet sein.[2] Eine Änderung der Form eines der 50 Grundstriche wird implizit in jedem Zeichen angewendet, das diesen Strich einbettet. Ebenso wird eine Änderung an einer Komponente implizit auf alle Zeichen angewendet, deren Assemblage diese Komponente verwendet.[2]

T. Bishop und R. Cook erklären dies wie folgt:

after-content-x4

Die Strichzahl eines Zeichens hängt im Allgemeinen mit der Strichzahl anderer Zeichen zusammen. Die meisten Zeichen bestehen aus Komponenten, und solange die Strichzahlen dieser Komponenten definiert sind, ist es selten schwierig, sie zu addieren, um die kombinierte Strichzahl zu erhalten. Wenn ein Standard die Striche von einigen tausend Zeichen definiert, definiert er implizit die Striche von vielen tausend zusätzlichen Zeichen.[3]

Ab 2020 Fast 100.000 chinesische Schriftzeichen wurden über CDL beschrieben.[4]

HanGlyph[edit]

Eine Zeichenbeschreibungssprache, die dazu dient, fehlende seltene Zeichen in Dokumenten bereitzustellen (wobei das chinesische Äquivalent des Gaiji-Problems angesprochen wird).[5] Dokumente können Markups für fehlende Zeichen enthalten, wodurch automatisch kleine Schriftarten generiert werden, um die Zeichen bereitzustellen. Die Sprache selbst ist eine einfache Postfix-Notation, die Striche und Kombinationsmöglichkeiten beschreibt. Die Prototypsoftware verwendet Metapost, um die Zeichen zu rendern und in LaTeX-Dokumente einzubetten. Die Sprache wurde 1997 von Wai Wong vorgestellt,[6] Auf TeX-Benutzergruppenkonferenzen im Jahr 2003 wurden Artikel über die Implementierung in Metapost und LaTeX veröffentlicht.[7][8]

Ideografische Beschreibungssequenzen[edit]

Kapitel 12 der Unicode-Spezifikation[9] definiert eine Syntax für “Ideographic Description Sequences” (IDSes) zur Beschreibung von Zeichen, die nicht im Standard enthalten sind, in Form von Kombinationen von Komponenten mit Codepunkten. Zwölf Sonderzeichen im Bereich U + 2FF0 bis U + 2FFB dienen als Präfixoperatoren, um andere Zeichen oder Sequenzen zu größeren Zeichen zu kombinieren.

Ideografische Beschreibung Zeichen in Unicode
Charakter Unicode-Zeichennummer Vollständiger Unicode-Name
U + 2FF0 Ideographischer Beschreibungscharakter links nach rechts
U + 2FF1 Ideographischer Beschreibungscharakter oben nach unten
U + 2FF2 Ideographischer Beschreibungscharakter von links nach Mitte und rechts
U + 2FF3 Ideographischer Beschreibungscharakter oben nach Mitte und unten
U + 2FF4 Ideographischer Beschreibungscharakter volle Einfassung
U + 2FF5 Ideographischer Beschreibungscharakter von oben umgeben
U + 2FF6 Ideographischer Beschreibungscharakter von unten umgeben
U + 2FF7 Ideographischer Beschreibungscharakter umgeben von links
U + 2FF8 Ideographischer Beschreibungscharakter umgeben von oben links
U + 2FF9 Ideographischer Beschreibungscharakter umgeben von oben rechts
U + 2FFA Ideographischer Beschreibungscharakter umgeben von unten links
U + 2FFB Ideographischer Beschreibungscharakter überlagert

Diese Sequenzen sind nützlich, um dem Leser ein Zeichen zu beschreiben, das nicht direkt druckbar ist, entweder weil es in einer bestimmten Schriftart fehlt oder im Unicode-Standard insgesamt fehlt. Zum Beispiel das Sawndip-Zeichen “𭨡“(in CJK Unified Ideographs Extension F als U + 2DA21 21 codiert) kann als” ⿰ 書 史 “beschrieben werden. Eine andere Verwendung ist für die Suche nach Wörterbüchern als eine Art grobe Eingabemethode für Abfragen.

Diese Sequenzen können entweder gerendert werden, indem die einzelnen Zeichen getrennt gehalten werden oder indem die ideografische Beschreibungssequenz analysiert und das so beschriebene Ideogramm gezeichnet wird.[10] Sie bieten nicht für sich genommen eine eindeutige Darstellung für alle Zeichen. Zum Beispiel repräsentiert die Sequenz ⿱ both sowohl 土 als auch 士.

Die Unicode-Spezifikation für diese Sequenzen basiert auf den Zeichen und der Syntax des früheren GBK-Standards.

Das kostenlose Softwarepaket IDSgrep von Matthew Skala[11][12] erweitert die IDS-Syntax von Unicode um zusätzliche Funktionen für die Wörterbuchsuche; Es ist in der Lage, die Datenbank von KanjiVG in ein eigenes erweitertes IDS-Format zu konvertieren oder EIDS-Dateien zu durchsuchen, die von der zugehörigen Tsukurimashou-Schriftfamilie generiert wurden.

KanjiVG[edit]

KanjiVG ist eine kostenlose (CC-by-sa-3.0) japanische Zeichenbeschreibungssprache (die eventuell auch auf Chinesisch erweitert werden soll), die auf SVG und einem Wiki-Editionssystem basiert.

2007 wurde Structural Character Modeling Language als eine andere Art von XML-basierter Beschreibungssprache für chinesische Zeichen vorgeschlagen, deren Positionierung nicht auf einem numerischen Raster basiert, wie dies bei CDL und HanGlyph der Fall ist. Die bekannte Datenbank von Zeichen, deren Striche und Komponenten in SCML codiert sind, dient nur zur Demonstration des Prinzips. Es sind keine Anstrengungen bekannt, um beispielsweise alle CJK-Zeichen von Unicode in SCML zu codieren.

Siehe auch[edit]

  1. ^ Bishop & Cook 31.12.2013: p2
  2. ^ ein b c Bishop & Cook 31.12.2013: S. 9
  3. ^ Bishop, Tom, Cook, Richard & 2003-10-31, S. 8–9, Punkt Nr. 12
  4. ^ Webseite des Wenlin Institute für CDL
  5. ^ “HanGlyph”. Archiviert von das Original am 24. Januar 2013. Abgerufen 17. Februar 2012.
  6. ^ Wong, Wai (April 1997). “HanGlyph – eine chinesische Zeichensprache”. Vorträge der Siebzehnten Internationalen Konferenz über Computerverarbeitung orientalischer Sprachen, Hongkong.
  7. ^ Yiu, Candy LK; Wai Wong (Juli 2003). “Chinesische Zeichensynthese mit METAPOST”. Bericht über das 24. Jahrestreffen und die Konferenz der TeX User Group, Hawaii, USA.
  8. ^ Wong, Wai; Süßigkeit LK Yiu; Kelvin, CF Ng (Juni 2003). “Seltene chinesische Schriftzeichen in LaTeX setzen”. Tagungsband der 14. Europäischen TeX-Konferenz, Brest, Frankreich.
  9. ^ [1]
  10. ^ “Der Unicode® Standard – Version 12.0 – Kernspezifikation” (PDF). Unicode-Konsortium. März 2019. p. 26.
  11. ^ [2]
  12. ^ Skala, Matthew (2015). “Ein strukturelles Abfragesystem für Han-Zeichen” (PDF). Internationale Zeitschrift für asiatische Sprachverarbeitung. 23 (2): 127–159. arXiv:1404,5585. Archiviert von das Original (PDF) am 04.03.2016. Abgerufen 2016-01-13.

Externe Links[edit]

CDL-Sprache vom Wenlin Institute
SCML
HanGlyph

after-content-x4