[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/wiki25\/2021\/10\/30\/computer-stereo-vision-wikipedia\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/wiki25\/2021\/10\/30\/computer-stereo-vision-wikipedia\/","headline":"Computer-Stereo-Vision \u2013 Wikipedia","name":"Computer-Stereo-Vision \u2013 Wikipedia","description":"before-content-x4 Extraktion von 3D-Daten aus digitalen Bildern Computer-Stereo-Vision ist die Extraktion von 3D-Informationen aus digitalen Bildern, wie sie beispielsweise mit","datePublished":"2021-10-30","dateModified":"2021-10-30","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/wiki25\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/wiki25\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/upload.wikimedia.org\/wikipedia\/en\/thumb\/2\/2f\/SilhouetteCones.jpg\/220px-SilhouetteCones.jpg","url":"https:\/\/upload.wikimedia.org\/wikipedia\/en\/thumb\/2\/2f\/SilhouetteCones.jpg\/220px-SilhouetteCones.jpg","height":"165","width":"220"},"url":"https:\/\/wiki.edu.vn\/wiki25\/2021\/10\/30\/computer-stereo-vision-wikipedia\/","wordCount":7370,"articleBody":" (adsbygoogle = window.adsbygoogle || []).push({});before-content-x4Extraktion von 3D-Daten aus digitalen Bildern Computer-Stereo-Vision ist die Extraktion von 3D-Informationen aus digitalen Bildern, wie sie beispielsweise mit einer CCD-Kamera gewonnen werden. Durch Vergleichen von Informationen \u00fcber eine Szene aus zwei Blickwinkeln k\u00f6nnen 3D-Informationen extrahiert werden, indem die relativen Positionen von Objekten in den beiden Panels untersucht werden. Dies \u00e4hnelt dem biologischen Prozess der Stereopsis.Table of ContentsUmriss[edit]Aktives Stereosehen[edit]Konventionelles strukturiertes Lichtsehen (SLV)[edit]Konventionelles aktives Stereosehen (ASV)[edit]Stereo mit strukturiertem Licht (SLS)[edit]Anwendungen[edit]Detaillierte Definition[edit]Bildkorrektur[edit]Gl\u00e4tte[edit]Informationsma\u00dfnahme[edit]Informationsma\u00df der kleinsten Quadrate[edit]Informationsma\u00df f\u00fcr stereoskopische Bilder[edit]Methoden der Implementierung[edit]Siehe auch[edit]Verweise[edit]Externe Links[edit]Umriss[edit] Beim herk\u00f6mmlichen Stereosehen werden zwei horizontal gegeneinander versetzte Kameras verwendet, um zwei unterschiedliche Ansichten einer Szene zu erhalten, \u00e4hnlich dem menschlichen binokularen Sehen. Durch Vergleichen dieser beiden Bilder kann die relative Tiefeninformation in Form einer Disparit\u00e4tskarte erhalten werden, die die Differenz der horizontalen Koordinaten entsprechender Bildpunkte kodiert. Die Werte in dieser Disparit\u00e4tskarte sind umgekehrt proportional zur Szenentiefe an der entsprechenden Pixelposition. Damit ein Mensch die beiden Bilder vergleichen kann, m\u00fcssen sie in einem stereoskopischen Ger\u00e4t \u00fcberlagert werden, wobei das Bild der rechten Kamera dem rechten Auge des Betrachters und von der linken dem linken Auge gezeigt wird.In einem Computer-Vision-System sind mehrere Vorverarbeitungsschritte erforderlich.[1]Das Bild muss zun\u00e4chst unverzerrt sein, sodass tonnenf\u00f6rmige Verzerrung und tangentiale Verzerrung entfernt werden. Dadurch wird sichergestellt, dass das beobachtete Bild der Projektion einer idealen Lochkamera entspricht.Das Bild muss auf eine gemeinsame Ebene zur\u00fcck projiziert werden, um einen Vergleich der Bildpaare zu erm\u00f6glichen, was als Bildentzerrung bekannt ist.Ein Informationsma\u00df, das die beiden Bilder vergleicht, wird minimiert. Dies gibt die beste Sch\u00e4tzung der Position von Features in den beiden Bildern und erstellt eine Disparit\u00e4tskarte.Optional wird die empfangene Disparit\u00e4tskarte in eine 3D-Punktwolke projiziert. Durch Verwendung der projektiven Parameter der Kameras kann die Punktwolke so berechnet werden, dass sie Messungen in einem bekannten Ma\u00dfstab liefert.Aktives Stereosehen[edit]Das aktive Stereosehen ist eine Form des Stereosehens, die aktiv ein Licht wie einen Laser oder ein strukturiertes Licht verwendet, um das Problem der Stereoanpassung zu vereinfachen. Der entgegengesetzte Begriff ist passives Stereosehen.Konventionelles strukturiertes Lichtsehen (SLV)[edit]Das herk\u00f6mmliche strukturierte Lichtsehen (SLV) verwendet ein strukturiertes Licht oder einen Laser und findet Entsprechungen zwischen Projektor und Kamera.[2][3] Konventionelles aktives Stereosehen (ASV)[edit]Das konventionelle aktive Stereosehen (ASV) verwendet ein strukturiertes Licht oder einen Laser, jedoch wird die Stereoanpassung nur f\u00fcr Kamera-Kamera-Korrespondenzen durchgef\u00fchrt, genauso wie das passive Stereosehen.Stereo mit strukturiertem Licht (SLS)[edit]Es gibt eine Hybridtechnik, die sowohl Kamera-Kamera- als auch Projektor-Kamera-Korrespondenzen verwendet.[4]Anwendungen[edit]3D-Stereo-Displays finden viele Anwendungen in Unterhaltung, Informations\u00fcbertragung und automatisierten Systemen. Stereosehen ist in Bereichen wie der Robotik von gro\u00dfer Bedeutung, um Informationen \u00fcber die relative Position von 3D-Objekten in der N\u00e4he von autonomen Systemen zu gewinnen. Weitere Anwendungen f\u00fcr die Robotik sind Objekterkennung,[5] wobei Tiefeninformationen es dem System erm\u00f6glichen, verdeckende Bildkomponenten, wie beispielsweise einen Stuhl vor einem anderen, zu trennen, die der Roboter ansonsten m\u00f6glicherweise nicht durch andere Kriterien als separates Objekt unterscheiden kann.Wissenschaftliche Anwendungen f\u00fcr digitales Stereosehen umfassen die Extraktion von Informationen aus Luftaufnahmen, zur Berechnung von H\u00f6henlinienkarten oder sogar Geometrieextraktion f\u00fcr die 3D-Geb\u00e4udekartierung, photogrammetrische Satellitenkartierung,[6] oder Berechnung von heliographischen 3D-Informationen, wie sie durch das STEREO-Projekt der NASA erhalten wurden.Detaillierte Definition[edit] Diagramm, das die Beziehung zwischen Bildverschiebung und Tiefe bei stereoskopischen Bildern beschreibt, unter der Annahme flacher koplanarer BilderEin Pixel zeichnet Farbe an einer Position auf. Die Position wird durch die Position im Pixelraster (x, y) und die Tiefe zum Pixel identifiziert z.Stereoskopisches Sehen liefert zwei Bilder derselben Szene aus unterschiedlichen Positionen. Im nebenstehenden Diagramm Licht vom Punkt EIN wird durch die Eintrittspunkte von Lochkameras bei . \u00fcbertragen B und D, auf Bildschirme um E und h.Im beigef\u00fcgten Diagramm betr\u00e4gt der Abstand zwischen den Mittelpunkten der beiden Kameraobjektive BD = BC + CD. Die Dreiecke sind \u00e4hnlich,Daher Verschiebung D=EF+gh=BF(EFBF+ghBF)=BF(EFBF+ghDg)=BF(BC+CDEINC)=BFBDEINC=kz, wo{displaystyle {begin{aligned}{text{Deshalb Verschiebung }}d&=EF+GH\\&=BF({frac {EF}{BF}}+{frac {GH}{BF}}) \\&=BF({frac {EF}{BF}}+{frac {GH}{DG}})\\&=BF({frac {BC+CD}{AC}})\\& =BF{frac {BD}{AC}}\\&={frac {k}{z}}{text{, wobei}}\\end{ausgerichtet}}}k = BD BFz = AC ist der Abstand von der Kameraebene zum Objekt.Unter der Annahme, dass die Kameras eben sind und die Bildebenen flach auf derselben Ebene liegen, betr\u00e4gt die Verschiebung in der y-Achse zwischen demselben Pixel in den beiden BildernD=kz{displaystyle d={frac {k}{z}}}Woher k ist der Abstand zwischen den beiden Kameras mal dem Abstand vom Objektiv zum Bild.Die Tiefenkomponente in den beiden Bildern ist z1{displaystyle z_{1}} und z2{displaystyle z_{2}}, gegeben von,z2(x,ja)=Mindest{v:v=z1(x,ja\u2212kz1(x,ja))}{displaystyle z_{2}(x,y)=min left{v:v=z_{1}(x,y-{frac {k}{z_{1}(x,y)}} )rechts}}z1(x,ja)=Mindest{v:v=z2(x,ja+kz2(x,ja))}{displaystyle z_{1}(x,y)=min left{v:v=z_{2}(x,y+{frac {k}{z_{2}(x,y)}}) rechts}}Diese Formeln erm\u00f6glichen die Okklusion von Voxeln, die in einem Bild auf der Oberfl\u00e4che des Objekts zu sehen sind, durch n\u00e4here Voxel, die im anderen Bild auf der Oberfl\u00e4che des Objekts zu sehen sind.Bildkorrektur[edit]Wenn die Bildebenen nicht koplanar sind, ist eine Bildentzerrung erforderlich, um die Bilder so einzustellen, als ob sie koplanar w\u00e4ren. Dies kann durch eine lineare Transformation erreicht werden.Die Bilder m\u00fcssen m\u00f6glicherweise auch korrigiert werden, damit jedes Bild dem Bild entspricht, das von einer Lochkamera aufgenommen wurde, die auf eine flache Ebene projiziert wird.Gl\u00e4tte[edit]Die Gl\u00e4tte ist ein Ma\u00df daf\u00fcr, wie \u00e4hnlich sich nahe beieinander liegende Farben sind. Es wird davon ausgegangen, dass Objekte eher mit einer kleinen Anzahl von Farben gef\u00e4rbt werden. Wenn wir also zwei Pixel mit derselben Farbe erkennen, geh\u00f6ren sie h\u00f6chstwahrscheinlich zum selben Objekt.Das oben beschriebene Verfahren zum Bewerten der Gl\u00e4tte basiert auf der Informationstheorie und einer Annahme, dass der Einfluss der Farbe eines Voxels die Farbe benachbarter Voxel gem\u00e4\u00df der Normalverteilung auf den Abstand zwischen Punkten beeinflusst. Das Modell basiert auf ungef\u00e4hren Annahmen \u00fcber die Welt.Ein weiteres Verfahren, das auf fr\u00fcheren Annahmen der Gl\u00e4tte basiert, ist die Autokorrelation.Gl\u00e4tte ist eine Eigenschaft der Welt. Es ist nicht von Natur aus eine Eigenschaft eines Bildes. Ein aus zuf\u00e4lligen Punkten aufgebautes Bild h\u00e4tte beispielsweise keine Gl\u00e4tte, und R\u00fcckschl\u00fcsse auf benachbarte Punkte w\u00e4ren nutzlos.Theoretisch sollte Gl\u00e4tte zusammen mit anderen Eigenschaften der Welt gelernt werden. Dies scheint das menschliche Sehsystem zu tun.Informationsma\u00dfnahme[edit]Informationsma\u00df der kleinsten Quadrate[edit]Die Normalverteilung istP(x,\u03bc,\u03c3)=1\u03c32\u03c0e\u2212(x\u2212\u03bc)22\u03c32{displaystyle P(x,mu,sigma)={frac {1}{sigma {sqrt {2pi}}}}e^{-{frac {(x-mu)^{ 2}}{2sigma^{2}}}}}Die Wahrscheinlichkeit bezieht sich auf den Informationsgehalt, der durch die Nachrichtenl\u00e4nge beschrieben wird L,P(x)=2\u2212L(x){displaystyle P(x)=2^{-L(x)}}L(x)=\u2212Protokoll2\u2061P(x){displaystyle L(x)=-log_{2}{P(x)}}so,L(x,\u03bc,\u03c3)=Protokoll2\u2061(\u03c32\u03c0)+(x\u2212\u03bc)22\u03c32Protokoll2\u2061e{displaystyle L(x,mu,sigma)=log_{2}(sigma {sqrt {2pi}})+{frac {(x-mu)^{2}}{ 2sigma^{2}}}log_{2}e}F\u00fcr den Vergleich stereoskopischer Bilder ist nur die relative Nachrichtenl\u00e4nge von Bedeutung. Darauf aufbauend ist die Informationsma\u00dfnahme ich, genannt Summe der Quadrate der Differenzen (SSD), ist,ich(x,\u03bc,\u03c3)=(x\u2212\u03bc)2\u03c32{displaystyle I(x,mu,sigma)={frac {(x-mu)^{2}}{sigma^{2}}}}wo,L(x,\u03bc,\u03c3)=Protokoll2\u2061(\u03c32\u03c0)+ich(x,\u03bc,\u03c3)Protokoll2\u2061e2{displaystyle L(x,mu,sigma)=log_{2}(sigma {sqrt {2pi}})+I(x,mu,sigma){frac {log _{2}e}{2}}}Aufgrund der Kosten f\u00fcr die Verarbeitungszeit beim Quadrieren von Zahlen in SSD verwenden viele Implementierungen die Summe der absoluten Differenz (SAD) als Grundlage f\u00fcr die Berechnung des Informationsma\u00dfes. Andere Methoden verwenden die normalisierte Kreuzkorrelation (NCC).Informationsma\u00df f\u00fcr stereoskopische Bilder[edit]Das Kleinste-Quadrate-Ma\u00df kann verwendet werden, um den Informationsgehalt der stereoskopischen Bilder zu messen,[7] gegebene Tiefen an jedem Punkt z(x,ja){displaystyle z(x,y)}. Zuerst werden die Informationen abgeleitet, die ben\u00f6tigt werden, um ein Bild in Bezug auf das andere auszudr\u00fccken. Das nennt man ichm{displaystyle I_{m}}.Eine Farbdifferenzfunktion sollte verwendet werden, um den Unterschied zwischen den Farben angemessen zu messen. Die Farbdifferenzfunktion wird geschrieben CD im Folgenden. Das Ma\u00df der Informationen, die zum Aufzeichnen der Farb\u00fcbereinstimmung zwischen den beiden Bildern ben\u00f6tigt werden, ist:ichm(z1,z2)=1\u03c3m2\u03a3x,jaCD\u2061(Farbe1\u2061(x,ja+kz1(x,ja)),Farbe2\u2061(x,ja))2{displaystyle I_{m}(z_{1},z_{2})={frac {1}{sigma_{m}^{2}}}sum _{x,y}operatorname {cd } (operatorname {color} _{1}(x,y+{frac {k}{z_{1}(x,y)}}),operatorname {color} _{2}(x,y)) ^{2}}Es wird eine Annahme \u00fcber die Gl\u00e4tte des Bildes gemacht. Angenommen, zwei Pixel haben mit gr\u00f6\u00dferer Wahrscheinlichkeit dieselbe Farbe, je n\u00e4her die von ihnen repr\u00e4sentierten Voxel sind. Diese Ma\u00dfnahme soll die Gruppierung \u00e4hnlicher Farben in der gleichen Tiefe beg\u00fcnstigen. Wenn beispielsweise ein Objekt vorne einen Bereich des Himmels verdeckt, beg\u00fcnstigt das Gl\u00e4ttungsma\u00df, dass die blauen Pixel alle in der gleichen Tiefe gruppiert werden.Das Gesamtma\u00df der Gl\u00e4tte verwendet den Abstand zwischen den Voxeln als Sch\u00e4tzung der erwarteten Standardabweichung des Farbunterschieds,ichS(z1,z2)=12\u03c3h2\u03a3ich:{1,2}\u03a3x1,ja1\u03a3x2,ja2CD\u2061(Farbeich\u2061(x1,ja1),Farbeich\u2061(x2,ja2))2(x1\u2212x2)2+(ja1\u2212ja2)2+(zich(x1,ja1)\u2212zich(x2,ja2))2{displaystyle I_{s}(z_{1},z_{2})={frac {1}{2sigma_{h}^{2}}}sum _{i:{1,2 }}sum _{x_{1},y_{1}}sum _{x_{2},y_{2}}{frac {operatorname {cd} (operatorname {color} _{i} (x_{1},y_{1}),operatorname {color} _{i}(x_{2},y_{2}))^{2}}{(x_{1}-x_{2}) ^{2}+(y_{1}-y_{2})^{2}+(z_{i}(x_{1},y_{1})-z_{i}(x_{2},y_{ 2}))^{2}}}}Der gesamte Informationsgehalt ist dann die Summe,ichT(z1,z2)=ichm(z1,z2)+ichS(z1,z2){displaystyle I_{t}(z_{1},z_{2})=I_{m}(z_{1},z_{2})+I_{s}(z_{1},z_{2}) }Die z-Komponente jedes Pixels muss so gew\u00e4hlt werden, dass sie den Mindestwert f\u00fcr den Informationsinhalt ergibt. Dies ergibt die wahrscheinlichsten Tiefen bei jedem Pixel. Das minimale Gesamtinformationsma\u00df ist,ichMindest=Mindest{ich:ich=ichT(z1,z2)}}{displaystyle I_{operatorname {min} }=min {{i:i=I_{t}(z_{1},z_{2})}}}}Die Tiefenfunktionen f\u00fcr das linke und rechte Bild sind das Paar,(z1,z2)\u2208{(z1,z2):ichT(z1,z2)=ichMindest}{displaystyle (z_{1},z_{2})in {(z_{1},z_{2}):I_{t}(z_{1},z_{2})=I_{operatorname {Mindest} }}}Methoden der Implementierung[edit]Das Minimierungsproblem ist NP-vollst\u00e4ndig. Dies bedeutet, dass eine allgemeine L\u00f6sung dieses Problems lange dauern wird. Es gibt jedoch Verfahren f\u00fcr Computer, die auf Heuristiken basieren, die das Ergebnis in angemessener Zeit ann\u00e4hern. Es existieren auch Verfahren, die auf neuronalen Netzen basieren.[8] Die effiziente Umsetzung des stereoskopischen Sehens ist ein aktives Forschungsgebiet.Siehe auch[edit]Verweise[edit]^ Bradski, Gary; K\u00e4hler, Adrian. OpenCV lernen: Computer Vision mit der OpenCV-Bibliothek. O’Reilly.^ C. Je, SW Lee und R.-H. Park. Kontrastreiches Farbstreifenmuster f\u00fcr schnelle Bildgebung im strukturierten Lichtbereich. Computer Vision \u2013 ECCV 2004, LNCS 3021, S. 95\u2013107, Springer-Verlag Berlin Heidelberg, 10. Mai 2004.^ C. Je, SW Lee und R.-H. Park. Farbstreifen-Permutationsmuster f\u00fcr schnelle Bildgebung im strukturierten Lichtbereich. Optics Communications, Band 285, Ausgabe 9, S. 2320-2331, 1. Mai 2012.^ W. Jang, C. Je, Y. Seo und SW Lee. Structured-Light-Stereo: Vergleichende Analyse und Integration von Structured-Light- und Active-Stereo zur Messung dynamischer Formen. Optics and Lasers in Engineering, Band 51, Ausgabe 11, S. 1255-1264, November 2013.^ Sumi, Yasushi et al. “3D-Objekterkennung in un\u00fcbersichtlichen Umgebungen durch segmentbasierte Stereovision.” International Journal of Computer Vision 46.1 (2002): 5-23.^ Tatar, Nurollah et al. “Hochaufl\u00f6sendes Satelliten-Stereo-Matching durch objektbasiertes semiglobales Matching und iterativen Guided Edge-Preserving Filter.” IEEE Geoscience and Remote Sensing Letters (2020): 1-5.^ Lazaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). \u201e\u00dcberpr\u00fcfung von Stereo-Vision-Algorithmen: Von der Software zur Hardware\u201c. Internationale Zeitschrift f\u00fcr Optomechatronik. 2 (4): 435\u2013462. mach:10.1080\/15599610802438680. S2CID 18115413.^ WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). \u201e\u00dcber Disparity Matching in Stereo Vision \u00fcber ein neuronales Netzwerk-Framework\u201c. Proz. Natl. Wissenschaft Rat ROC(A). 23 (5): 665\u2013678. CiteSeerX 10.1.1.105.9067.Externe Links[edit] (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki25\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki25\/2021\/10\/30\/computer-stereo-vision-wikipedia\/#breadcrumbitem","name":"Computer-Stereo-Vision \u2013 Wikipedia"}}]}]