Computer-Stereo-Vision – Wikipedia

before-content-x4

Extraktion von 3D-Daten aus digitalen Bildern

Computer-Stereo-Vision ist die Extraktion von 3D-Informationen aus digitalen Bildern, wie sie beispielsweise mit einer CCD-Kamera gewonnen werden. Durch Vergleichen von Informationen über eine Szene aus zwei Blickwinkeln können 3D-Informationen extrahiert werden, indem die relativen Positionen von Objekten in den beiden Panels untersucht werden. Dies ähnelt dem biologischen Prozess der Stereopsis.

Umriss[edit]

Beim herkömmlichen Stereosehen werden zwei horizontal gegeneinander versetzte Kameras verwendet, um zwei unterschiedliche Ansichten einer Szene zu erhalten, ähnlich dem menschlichen binokularen Sehen. Durch Vergleichen dieser beiden Bilder kann die relative Tiefeninformation in Form einer Disparitätskarte erhalten werden, die die Differenz der horizontalen Koordinaten entsprechender Bildpunkte kodiert. Die Werte in dieser Disparitätskarte sind umgekehrt proportional zur Szenentiefe an der entsprechenden Pixelposition.

Damit ein Mensch die beiden Bilder vergleichen kann, müssen sie in einem stereoskopischen Gerät überlagert werden, wobei das Bild der rechten Kamera dem rechten Auge des Betrachters und von der linken dem linken Auge gezeigt wird.

In einem Computer-Vision-System sind mehrere Vorverarbeitungsschritte erforderlich.[1]

  1. Das Bild muss zunächst unverzerrt sein, sodass tonnenförmige Verzerrung und tangentiale Verzerrung entfernt werden. Dadurch wird sichergestellt, dass das beobachtete Bild der Projektion einer idealen Lochkamera entspricht.
  2. Das Bild muss auf eine gemeinsame Ebene zurück projiziert werden, um einen Vergleich der Bildpaare zu ermöglichen, was als Bildentzerrung bekannt ist.
  3. Ein Informationsmaß, das die beiden Bilder vergleicht, wird minimiert. Dies gibt die beste Schätzung der Position von Features in den beiden Bildern und erstellt eine Disparitätskarte.
  4. Optional wird die empfangene Disparitätskarte in eine 3D-Punktwolke projiziert. Durch Verwendung der projektiven Parameter der Kameras kann die Punktwolke so berechnet werden, dass sie Messungen in einem bekannten Maßstab liefert.

Aktives Stereosehen[edit]

Das aktive Stereosehen ist eine Form des Stereosehens, die aktiv ein Licht wie einen Laser oder ein strukturiertes Licht verwendet, um das Problem der Stereoanpassung zu vereinfachen. Der entgegengesetzte Begriff ist passives Stereosehen.

Konventionelles strukturiertes Lichtsehen (SLV)[edit]

Das herkömmliche strukturierte Lichtsehen (SLV) verwendet ein strukturiertes Licht oder einen Laser und findet Entsprechungen zwischen Projektor und Kamera.[2][3]

Konventionelles aktives Stereosehen (ASV)[edit]

Das konventionelle aktive Stereosehen (ASV) verwendet ein strukturiertes Licht oder einen Laser, jedoch wird die Stereoanpassung nur für Kamera-Kamera-Korrespondenzen durchgeführt, genauso wie das passive Stereosehen.

Stereo mit strukturiertem Licht (SLS)[edit]

Es gibt eine Hybridtechnik, die sowohl Kamera-Kamera- als auch Projektor-Kamera-Korrespondenzen verwendet.[4]

Anwendungen[edit]

3D-Stereo-Displays finden viele Anwendungen in Unterhaltung, Informationsübertragung und automatisierten Systemen. Stereosehen ist in Bereichen wie der Robotik von großer Bedeutung, um Informationen über die relative Position von 3D-Objekten in der Nähe von autonomen Systemen zu gewinnen. Weitere Anwendungen für die Robotik sind Objekterkennung,[5] wobei Tiefeninformationen es dem System ermöglichen, verdeckende Bildkomponenten, wie beispielsweise einen Stuhl vor einem anderen, zu trennen, die der Roboter ansonsten möglicherweise nicht durch andere Kriterien als separates Objekt unterscheiden kann.

Wissenschaftliche Anwendungen für digitales Stereosehen umfassen die Extraktion von Informationen aus Luftaufnahmen, zur Berechnung von Höhenlinienkarten oder sogar Geometrieextraktion für die 3D-Gebäudekartierung, photogrammetrische Satellitenkartierung,[6] oder Berechnung von heliographischen 3D-Informationen, wie sie durch das STEREO-Projekt der NASA erhalten wurden.

Detaillierte Definition[edit]

Diagramm, das die Beziehung zwischen Bildverschiebung und Tiefe bei stereoskopischen Bildern beschreibt, unter der Annahme flacher koplanarer Bilder

Ein Pixel zeichnet Farbe an einer Position auf. Die Position wird durch die Position im Pixelraster (x, y) und die Tiefe zum Pixel identifiziert z.

Stereoskopisches Sehen liefert zwei Bilder derselben Szene aus unterschiedlichen Positionen. Im nebenstehenden Diagramm Licht vom Punkt EIN wird durch die Eintrittspunkte von Lochkameras bei . übertragen B und D, auf Bildschirme um E und h.

Im beigefügten Diagramm beträgt der Abstand zwischen den Mittelpunkten der beiden Kameraobjektive BD = BC + CD. Die Dreiecke sind ähnlich,

Daher Verschiebung D=EF+gh=BF(EFBF+ghBF)=BF(EFBF+ghDg)=BF(BC+CDEINC)=BFBDEINC=kz, wo{displaystyle {begin{aligned}{text{Deshalb Verschiebung }}d&=EF+GH\&=BF({frac {EF}{BF}}+{frac {GH}{BF}}) \&=BF({frac {EF}{BF}}+{frac {GH}{DG}})\&=BF({frac {BC+CD}{AC}})\& =BF{frac {BD}{AC}}\&={frac {k}{z}}{text{, wobei}}\end{ausgerichtet}}}

  • k = BD BF
  • z = AC ist der Abstand von der Kameraebene zum Objekt.

Unter der Annahme, dass die Kameras eben sind und die Bildebenen flach auf derselben Ebene liegen, beträgt die Verschiebung in der y-Achse zwischen demselben Pixel in den beiden Bildern

Woher k ist der Abstand zwischen den beiden Kameras mal dem Abstand vom Objektiv zum Bild.

Die Tiefenkomponente in den beiden Bildern ist

z1{displaystyle z_{1}}

und

z2{displaystyle z_{2}}

, gegeben von,

Diese Formeln ermöglichen die Okklusion von Voxeln, die in einem Bild auf der Oberfläche des Objekts zu sehen sind, durch nähere Voxel, die im anderen Bild auf der Oberfläche des Objekts zu sehen sind.

Bildkorrektur[edit]

Wenn die Bildebenen nicht koplanar sind, ist eine Bildentzerrung erforderlich, um die Bilder so einzustellen, als ob sie koplanar wären. Dies kann durch eine lineare Transformation erreicht werden.

Die Bilder müssen möglicherweise auch korrigiert werden, damit jedes Bild dem Bild entspricht, das von einer Lochkamera aufgenommen wurde, die auf eine flache Ebene projiziert wird.

Glätte[edit]

Die Glätte ist ein Maß dafür, wie ähnlich sich nahe beieinander liegende Farben sind. Es wird davon ausgegangen, dass Objekte eher mit einer kleinen Anzahl von Farben gefärbt werden. Wenn wir also zwei Pixel mit derselben Farbe erkennen, gehören sie höchstwahrscheinlich zum selben Objekt.

Das oben beschriebene Verfahren zum Bewerten der Glätte basiert auf der Informationstheorie und einer Annahme, dass der Einfluss der Farbe eines Voxels die Farbe benachbarter Voxel gemäß der Normalverteilung auf den Abstand zwischen Punkten beeinflusst. Das Modell basiert auf ungefähren Annahmen über die Welt.

Ein weiteres Verfahren, das auf früheren Annahmen der Glätte basiert, ist die Autokorrelation.

Glätte ist eine Eigenschaft der Welt. Es ist nicht von Natur aus eine Eigenschaft eines Bildes. Ein aus zufälligen Punkten aufgebautes Bild hätte beispielsweise keine Glätte, und Rückschlüsse auf benachbarte Punkte wären nutzlos.

Theoretisch sollte Glätte zusammen mit anderen Eigenschaften der Welt gelernt werden. Dies scheint das menschliche Sehsystem zu tun.

Informationsmaßnahme[edit]

Informationsmaß der kleinsten Quadrate[edit]

Die Normalverteilung ist

Die Wahrscheinlichkeit bezieht sich auf den Informationsgehalt, der durch die Nachrichtenlänge beschrieben wird L,

so,

Für den Vergleich stereoskopischer Bilder ist nur die relative Nachrichtenlänge von Bedeutung. Darauf aufbauend ist die Informationsmaßnahme ich, genannt Summe der Quadrate der Differenzen (SSD), ist,

wo,

Aufgrund der Kosten für die Verarbeitungszeit beim Quadrieren von Zahlen in SSD verwenden viele Implementierungen die Summe der absoluten Differenz (SAD) als Grundlage für die Berechnung des Informationsmaßes. Andere Methoden verwenden die normalisierte Kreuzkorrelation (NCC).

Informationsmaß für stereoskopische Bilder[edit]

Das Kleinste-Quadrate-Maß kann verwendet werden, um den Informationsgehalt der stereoskopischen Bilder zu messen,[7] gegebene Tiefen an jedem Punkt

z(x,ja){displaystyle z(x,y)}

. Zuerst werden die Informationen abgeleitet, die benötigt werden, um ein Bild in Bezug auf das andere auszudrücken. Das nennt man

ichm{displaystyle I_{m}}

.

Eine Farbdifferenzfunktion sollte verwendet werden, um den Unterschied zwischen den Farben angemessen zu messen. Die Farbdifferenzfunktion wird geschrieben CD im Folgenden. Das Maß der Informationen, die zum Aufzeichnen der Farbübereinstimmung zwischen den beiden Bildern benötigt werden, ist:

Es wird eine Annahme über die Glätte des Bildes gemacht. Angenommen, zwei Pixel haben mit größerer Wahrscheinlichkeit dieselbe Farbe, je näher die von ihnen repräsentierten Voxel sind. Diese Maßnahme soll die Gruppierung ähnlicher Farben in der gleichen Tiefe begünstigen. Wenn beispielsweise ein Objekt vorne einen Bereich des Himmels verdeckt, begünstigt das Glättungsmaß, dass die blauen Pixel alle in der gleichen Tiefe gruppiert werden.

Das Gesamtmaß der Glätte verwendet den Abstand zwischen den Voxeln als Schätzung der erwarteten Standardabweichung des Farbunterschieds,

Der gesamte Informationsgehalt ist dann die Summe,

Die z-Komponente jedes Pixels muss so gewählt werden, dass sie den Mindestwert für den Informationsinhalt ergibt. Dies ergibt die wahrscheinlichsten Tiefen bei jedem Pixel. Das minimale Gesamtinformationsmaß ist,

Die Tiefenfunktionen für das linke und rechte Bild sind das Paar,

Methoden der Implementierung[edit]

Das Minimierungsproblem ist NP-vollständig. Dies bedeutet, dass eine allgemeine Lösung dieses Problems lange dauern wird. Es gibt jedoch Verfahren für Computer, die auf Heuristiken basieren, die das Ergebnis in angemessener Zeit annähern. Es existieren auch Verfahren, die auf neuronalen Netzen basieren.[8] Die effiziente Umsetzung des stereoskopischen Sehens ist ein aktives Forschungsgebiet.

Siehe auch[edit]

Verweise[edit]

  1. ^ Bradski, Gary; Kähler, Adrian. OpenCV lernen: Computer Vision mit der OpenCV-Bibliothek. O’Reilly.
  2. ^ C. Je, SW Lee und R.-H. Park. Kontrastreiches Farbstreifenmuster für schnelle Bildgebung im strukturierten Lichtbereich. Computer Vision – ECCV 2004, LNCS 3021, S. 95–107, Springer-Verlag Berlin Heidelberg, 10. Mai 2004.
  3. ^ C. Je, SW Lee und R.-H. Park. Farbstreifen-Permutationsmuster für schnelle Bildgebung im strukturierten Lichtbereich. Optics Communications, Band 285, Ausgabe 9, S. 2320-2331, 1. Mai 2012.
  4. ^ W. Jang, C. Je, Y. Seo und SW Lee. Structured-Light-Stereo: Vergleichende Analyse und Integration von Structured-Light- und Active-Stereo zur Messung dynamischer Formen. Optics and Lasers in Engineering, Band 51, Ausgabe 11, S. 1255-1264, November 2013.
  5. ^ Sumi, Yasushi et al. “3D-Objekterkennung in unübersichtlichen Umgebungen durch segmentbasierte Stereovision.” International Journal of Computer Vision 46.1 (2002): 5-23.
  6. ^ Tatar, Nurollah et al. “Hochauflösendes Satelliten-Stereo-Matching durch objektbasiertes semiglobales Matching und iterativen Guided Edge-Preserving Filter.” IEEE Geoscience and Remote Sensing Letters (2020): 1-5.
  7. ^ Lazaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). „Überprüfung von Stereo-Vision-Algorithmen: Von der Software zur Hardware“. Internationale Zeitschrift für Optomechatronik. 2 (4): 435–462. mach:10.1080/15599610802438680. S2CID 18115413.
  8. ^ WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). „Über Disparity Matching in Stereo Vision über ein neuronales Netzwerk-Framework“. Proz. Natl. Wissenschaft Rat ROC(A). 23 (5): 665–678. CiteSeerX 10.1.1.105.9067.

Externe Links[edit]


after-content-x4