OCR-A – Wikipedia

OCR-A ist eine Schrift, die 1968, in den Anfängen der optischen Computerzeichenerkennung, entwickelt wurde, als eine Schrift benötigt wurde, die nicht nur von den damaligen Computern, sondern auch von Menschen erkannt werden konnte.[2] OCR-A verwendet einfache, dicke Striche, um erkennbare Zeichen zu bilden.[3]

Die Schriftart ist monospaced (feste Breite), wobei der Drucker zum Platzieren von Glyphen erforderlich ist 0,254 cm (0.10 Zoll) auseinander, und das Lesegerät muss alle Abstände zwischen akzeptieren 0,2286 cm (0,09 Zoll) und 0,4572 cm (0,18 Zoll).

Standardisierung[edit]

Die Schriftart OCR-A wurde vom American National Standards Institute (ANSI) als ANSI X3.17-1981 standardisiert. Aus X3.4 wurde inzwischen INCITS und der OCR-A-Standard heißt jetzt ISO 1073-1: 1976. Es gibt auch eine deutsche Norm für OCR-A namens DIN 66008.[4]

Implementierungen[edit]

1968 produzierten American Type Founders OCR-A, eine der ersten Schriften zur optischen Zeichenerkennung, die die Kriterien des US Bureau of Standards erfüllte. Das Design ist einfach, so dass es von einer Maschine leicht gelesen werden kann, aber für das menschliche Auge ist es schwieriger zu lesen.[5]

Als die Metallschrift dem computerbasierten Schriftsatz wich, verwendete Tor Lillqvist Metafont, um die OCR-A-Schrift zu beschreiben.[when?] Diese Definition wurde später von Richard B. Wales verbessert. Ihre Arbeit ist über CTAN verfügbar.[6]

Um die kostenlose Version der Schriftart für Benutzer von Microsoft Windows zugänglicher zu machen, konvertierte John Sauter 2004 die Metafont-Definitionen mithilfe von Potrace und FontForge in TrueType.[7] 2007 erstellte Gürkan Sengün aus dieser Implementierung ein Debian-Paket.[8] 2008 korrigierte Luc Devroye die vertikale Positionierung in der Implementierung von John Sauter und korrigierte den Namen von Kleinbuchstaben z.[9]

Unabhängig davon, Matthew Skala[10] gebrauchte mftrace[11] die Metafont-Definitionen in das TrueType-Format im Jahr 2006 umzuwandeln. Im Jahr 2011 veröffentlichte er eine neue Version, die durch Umschreiben der Metafont-Definitionen erstellt wurde, um mit METATYPE1 zu arbeiten, um Umrisse direkt ohne Zwischenverfolgungsschritt zu erzeugen. Am 27. September 2012 aktualisierte er seine Implementierung auf Version 0.2.[12]

Zusätzlich zu diesen kostenlosen Implementierungen von OCR-A gibt es auch Implementierungen, die von mehreren Anbietern verkauft werden. Als Scherz kreierte Tobias Frere-Jones 1995 Estupido-Espezial, ein Redesign mit Schwung und langem s. Es wurde in einem “Technologie”-Themenbereich von verwendet Rollender Stein.[13][14]

Obwohl die optische Zeichenerkennungstechnologie so weit fortgeschritten ist, dass solche einfachen Schriftarten nicht mehr erforderlich sind, wurde die OCR-A-Schriftart weiterhin verwendet. Seine Verwendung bei der Codierung von Schecks auf der ganzen Welt ist nach wie vor weit verbreitet. Einige Schließfachunternehmen bestehen immer noch darauf, dass die Kontonummer und der geschuldete Betrag auf einem Rechnungsrücksendeformular in OCR-A gedruckt werden.[15] Aufgrund seines ungewöhnlichen Aussehens wird es auch manchmal in Werbe- und Displaygrafiken verwendet.

Insbesondere wird es für die Untertitel in Filmen und Fernsehserien verwendet, wie z Schwarze Liste und für die Haupttitel in Der Prätendent. Zusätzlich wird OCR-A für den Film verwendet 13 Stunden: Die geheimen Soldaten von Bengasi.

Codepunkte[edit]

Eine Schriftart ist ein Satz von Zeichenformen oder Glyphen. Damit ein Computer eine Schriftart verwenden kann, muss jeder Glyphe ein Codepunkt in einem Zeichensatz zugewiesen werden. Als OCR-A standardisiert wurde, war die übliche Zeichencodierung der American Standard Code for Information Interchange oder ASCII. Nicht alle Glyphen von OCR-A passen in ASCII, und für fünf der Zeichen gab es alternative Glyphen, was die Notwendigkeit einer zweiten Schriftart nahegelegt haben könnte. Aus Bequemlichkeits- und Effizienzgründen wurde jedoch erwartet, dass alle Glyphen in einer einzigen Schriftart unter Verwendung von ASCII-Codierung zugänglich sind, wobei die zusätzlichen Zeichen an Codierungspunkten platziert werden, die ansonsten ungenutzt gewesen wären.

Der moderne Nachkomme von ASCII ist Unicode, auch bekannt als ISO 10646. Unicode enthält ASCII und enthält spezielle Bestimmungen für OCR-Zeichen.

Prä-Unicode-Standarddarstellung[edit]

Der ISO-Standard ISO 2033:1983 und der entsprechende japanische Industriestandard JIS X 9010:1984 (ursprünglich JIS C 6229-1984) definieren Zeichenkodierungen für OCR-A, OCR-B und E-13B. Für OCR-A definieren sie einen modifizierten 7-Bit-ASCII-Satz (auch bekannt unter seiner ISO-IR-Nummer ISO-IR-91), der nur Großbuchstaben, Ziffern, eine Teilmenge der Satzzeichen und Symbole sowie einige zusätzliche Symbole enthält.[16] Codes, die relativ zu ASCII neu definiert und nicht einfach weggelassen werden, sind unten aufgeführt:

Außerdem ist die lange vertikale Markierung () ist mit 0x7C codiert, was dem vertikalen ASCII-Strich (|) entspricht.[16]

Dedizierte OCR-A-Zeichen in Unicode[edit]

Folgende Zeichen wurden zu Kontrollzwecken definiert und befinden sich nun im Unicode-Bereich “Optical Character Recognition” 2440–245F:

Dedizierte OCR-A-Codepunkte basierend auf ASCII und Unicode[18]
Name Bild Text Unicode
OCR-Hook U+2440
OCR-Stuhl U+2441
OCR-Gabel U+2442
OCR Invertierte Gabel U+2443
OCR Gürtelschnalle U+2444
OCR-Fliege U+2445

Leerzeichen, Ziffern und Buchstaben ohne Akzent[edit]

OCR-A akzentfreie Großbuchstaben
OCR-A akzentfreie Kleinbuchstaben

Alle Implementierungen von OCR-A verwenden U+0020 für Leerzeichen, U+0030 bis U+0039 für die Dezimalziffern, U+0041 bis U+005A für die akzentfreien Großbuchstaben und U+0061 bis U+007A für die akzentfreien Kleinbuchstaben.

Normale Charaktere[edit]

Zusätzlich zu den Ziffern und Buchstaben ohne Akzent haben viele der Zeichen von OCR-A offensichtliche Codepunkte in ASCII. Von denen, die dies nicht tun, haben die meisten, einschließlich aller akzentuierten Buchstaben von OCR-A, offensichtliche Codepunkte in Unicode.

Verbleibende Charaktere[edit]

Linotype[19] die restlichen Zeichen von OCR-A wie folgt codiert:

Zusätzliche OCR-A-Zeichen
Name Glyphe Unicode Unicode-Name
Lange vertikale Markierung U+007C Vertikale Linie

Zusätzliche Zeichen[edit]

Die Schriftarten, die von der Arbeit von Tor Lillqvist und Richard B. Wales abstammen, definieren vier Zeichen, die nicht in OCR-A enthalten sind, um den ASCII-Zeichensatz auszufüllen. Diese Formen verwenden denselben Stil wie die OCR-A-Zeichenformen. Sie sind:

Zusätzliche ASCII-Zeichen
Name Glyphe Unicode
Niedrige Linie U+005F
Gravis U+0060
Vertikale Linie U+007C
Tilde U+007E

Linotype definiert auch zusätzliche Zeichen.[20]

Ausnahmen[edit]

Einige Implementierungen verwenden die obigen Codepunktzuweisungen für einige Zeichen nicht.

Präzisions-ID[edit]

Die PrecisionID-Implementierung von OCR-A hat die folgenden nicht standardmäßigen Codepunkte:[21]

  • OCR-Hook bei U+007E
  • OCR-Lehrstuhl bei U+00C1
  • OCR-Gabel bei U+00C2
  • Eurozeichen bei U+0080

Barcodesoft[edit]

Die Barcodesoft-Implementierung von OCR-A hat die folgenden nicht standardmäßigen Codepunkte:[22][23]

  • OCR-Hook bei U+0060
  • OCR-Lehrstuhl bei U+007E
  • OCR-Gabel bei U+005F
  • Lange vertikale Markierung bei U+007C (stimmt mit Linotype überein)
  • Zeichenlöschung bei U+0008

Mähren[edit]

Die Morovia-Implementierung von OCR-A hat die folgenden nicht standardmäßigen Codepunkte:[24]

  • OCR-Hook bei U+007E (stimmt mit PrecisionID überein)
  • OCR-Lehrstuhl bei U+00F0
  • OCR Fork bei U+005F (stimmt mit Barcodesoft überein)
  • Lange vertikale Markierung bei U+007C (stimmt mit Linotype überein)

IDAutomation[edit]

Die IDAutomation-Implementierung von OCR-A hat die folgenden nicht standardmäßigen Codepunkte:[25]

  • OCR-Hook bei U+007E (stimmt mit PrecisionID überein)
  • OCR Chair bei U+00C1 (stimmt mit PrecisionID zu)
  • OCR-Gabel bei U+00C2 (stimmt mit PrecisionID überein)
  • OCR Gürtelschnalle bei U+00C3

Verkäufer von Schriftstandards[edit]

Siehe auch[edit]

Externe Links[edit]