Reichweitenbildgebung – Wikipedia

Technik, die ein 2D-Bild erzeugt, das die Entfernung zu Punkten in einer Szene von einem bestimmten Punkt aus anzeigt.

Reichweitenabbildung ist der Name für eine Sammlung von Techniken, die verwendet werden, um ein 2D-Bild zu erzeugen, das die Entfernung zu Punkten in einer Szene von einem bestimmten Punkt zeigt, der normalerweise mit einer Art von Sensorgerät verbunden ist.

Das resultierende Bild, das Reichweitenbild, hat Pixelwerte, die der Entfernung entsprechen. Wenn der Sensor, mit dem das Entfernungsbild erstellt wird, richtig kalibriert ist, können die Pixelwerte direkt in physikalischen Einheiten wie Metern angegeben werden.

Verschiedene Arten von Entfernungskameras[edit]

Die Sensorvorrichtung, die zur Erzeugung des Entfernungsbildes verwendet wird, wird manchmal als a . bezeichnet Entfernungskamera. Entfernungskameras können nach einer Reihe verschiedener Techniken arbeiten, von denen einige hier vorgestellt werden.

Stereo-Triangulation[edit]

Stereotriangulation ist eine Anwendung der Stereophotogrammetrie, bei der die Tiefendaten der Pixel aus Daten bestimmt werden, die mit einem Stereo- oder Mehrkamera-Setup-System erfasst wurden. Auf diese Weise ist es möglich, die Tiefe zu Punkten in der Szene zu bestimmen, zum Beispiel aus dem Mittelpunkt der Linie zwischen ihren Brennpunkten. Um das Tiefenmessungsproblem mit einem Stereokamerasystem zu lösen, ist es notwendig, zunächst korrespondierende Punkte in den verschiedenen Bildern zu finden. Die Lösung des Korrespondenzproblems ist eines der Hauptprobleme bei der Verwendung dieser Art von Technik. Beispielsweise ist es schwierig, das Korrespondenzproblem für Bildpunkte zu lösen, die innerhalb von Bereichen homogener Intensität oder Farbe liegen. Infolgedessen kann eine auf Stereotriangulation basierende Entfernungsabbildung normalerweise nur für eine Teilmenge aller in den mehreren Kameras sichtbaren Punkte zuverlässige Tiefenschätzungen erzeugen.

Der Vorteil dieser Technik besteht darin, dass die Messung mehr oder weniger passiv ist; es erfordert keine besonderen Bedingungen in Bezug auf die Szenenbeleuchtung. Die anderen hier erwähnten Techniken müssen das Korrespondenzproblem nicht lösen, sondern sind stattdessen von bestimmten Beleuchtungsbedingungen der Szene abhängig.

Blatt der Lichttriangulation[edit]

Wenn die Szene mit einer Lichtscheibe beleuchtet wird, erzeugt dies eine reflektierte Linie von der Lichtquelle aus gesehen. Von jedem Punkt außerhalb der Blattebene erscheint die Linie typischerweise als Kurve, deren genaue Form sowohl vom Abstand zwischen dem Beobachter und der Lichtquelle als auch vom Abstand zwischen der Lichtquelle und den reflektierten Punkten abhängt. Durch Beobachten der reflektierten Lichtfläche mit einer Kamera (oft eine hochauflösende Kamera) und Kenntnis der Positionen und Ausrichtungen von Kamera und Lichtquelle ist es möglich, die Abstände zwischen den reflektierten Punkten und der Lichtquelle oder Kamera zu bestimmen.

Durch Verschieben entweder der Lichtquelle (und normalerweise auch der Kamera) oder der Szene vor der Kamera kann eine Sequenz von Tiefenprofilen der Szene erzeugt werden. Diese können als 2D-Entfernungsbild dargestellt werden.

Strukturiertes Licht[edit]

Durch die Beleuchtung der Szene mit einem speziell entwickelten Lichtmuster, strukturiertes Licht, kann die Tiefe mit nur einem einzigen Bild des reflektierten Lichts bestimmt werden. Das strukturierte Licht kann in Form von horizontalen und vertikalen Linien, Punkten oder Schachbrettmustern vorliegen. Ein Lichttisch ist im Grunde ein generisches Bildgebungsgerät mit strukturiertem Lichtbereich, das ursprünglich für die Aufgabe der Reflexionserfassung entwickelt wurde.

Flugzeit[edit]

Die Tiefe kann auch mit der Standard-Time-of-Flight (ToF)-Technik, mehr oder weniger wie bei einem Radar, gemessen werden, indem ein Entfernungsbild ähnlich einem Radarbild erzeugt wird, außer dass ein Lichtimpuls anstelle eines RF . verwendet wird Impuls. Es ist auch einem LIDAR nicht unähnlich, außer dass ToF ohne Scanner ist, dh die gesamte Szene wird mit einem einzigen Lichtpuls erfasst, im Gegensatz zu Punkt für Punkt mit einem rotierenden Laserstrahl. Time-of-Flight-Kameras sind relativ neue Geräte, die mit einem dedizierten Bildsensor eine ganze Szene in drei Dimensionen erfassen und daher keine beweglichen Teile benötigen. Ein Time-of-Flight-Laserradar mit einer verstärkten CCD-Kamera mit schneller Gating erreicht eine Tiefenauflösung im Submillimeterbereich. Bei dieser Technik beleuchtet ein kurzer Laserpuls eine Szene, und die intensivierte CCD-Kamera öffnet ihren High-Speed-Shutter nur für einige hundert Pikosekunden. Die 3D-Informationen werden aus einer 2D-Bildserie berechnet, die mit zunehmender Verzögerung zwischen dem Laserpuls und der Verschlussöffnung aufgenommen wurde.[1]

Interferometrie[edit]

Durch die Beleuchtung von Punkten mit kohärentem Licht und die Messung der Phasenverschiebung des reflektierten Lichts relativ zur Lichtquelle ist es möglich, die Tiefe zu bestimmen. Unter der Annahme, dass das True-Range-Bild eine mehr oder weniger kontinuierliche Funktion der Bildkoordinaten ist, kann die richtige Tiefe unter Verwendung einer als Phase-Unwrapping bezeichneten Technik erhalten werden. Siehe terrestrische SAR-Interferometrie.

Codierte Blende[edit]

Tiefeninformationen können teilweise oder vollständig zusammen mit der Intensität durch umgekehrte Faltung eines Bildes abgeleitet werden, das mit einem speziell entworfenen codierten Aperturmuster mit einer spezifischen komplexen Anordnung von Löchern aufgenommen wurde, durch die das einfallende Licht entweder durchgelassen oder blockiert wird. Die komplexe Form der Blende erzeugt eine ungleichmäßige Unschärfe des Bildes für die Teile der Szene, die sich nicht in der Brennebene des Objektivs befinden. Das Ausmaß der Unschärfe über die Szene, das mit der Verschiebung von der Brennebene zusammenhängt, kann verwendet werden, um die Tiefe abzuleiten.[2]

Um die Größe der Unschärfe (die zum Dekodieren von Tiefeninformationen benötigt wird) im aufgenommenen Bild zu identifizieren, können zwei Ansätze verwendet werden: 1) Entschärfen des aufgenommenen Bildes mit verschiedenen Unschärfen oder 2) Lernen einiger linearer Filter, die die Art der Unschärfe identifizieren .

Der erste Ansatz verwendet eine korrekte mathematische Entfaltung, die das bekannte Apertur-Designmuster berücksichtigt; diese Entfaltung kann erkennen, wo und in welchem ​​Ausmaß die Szene durch selektiv auf die Erfassungsoberfläche fallendes Licht außerhalb des Brennpunkts gefaltet wurde, und den Vorgang umkehren.[3] Somit kann die unschärfefreie Szene zusammen mit der Größe der Unschärfe abgerufen werden.

Der zweite Ansatz extrahiert stattdessen das Ausmaß der Unschärfe unter Umgehung der Wiederherstellung des unschärfefreien Bildes und daher ohne Durchführen einer umgekehrten Faltung. Unter Verwendung einer auf der Hauptkomponentenanalyse (PCA) basierenden Technik lernt das Verfahren offline eine Filterbank, die jede Unschärfegröße eindeutig identifiziert; diese Filter werden dann als normale Faltung direkt auf das aufgenommene Bild angewendet.[4] Ein wesentlicher Vorteil dieses Ansatzes besteht darin, dass keine Informationen über das codierte Aperturmuster erforderlich sind. Aufgrund seiner Effizienz wurde dieser Algorithmus auch auf Videosequenzen mit bewegten und verformbaren Objekten erweitert.[5]

Da die Tiefe für einen Punkt aus dem Ausmaß der Unschärfe abgeleitet wird, die durch die Lichtverteilung von dem entsprechenden Punkt in der Szene verursacht wird, die über die gesamte Oberfläche der Blende eintrifft und sich entsprechend dieser Verteilung verzerrt, ist dies eine komplexe Form der Stereotriangulation. Jeder Punkt im Bild wird effektiv über die Breite der Apertur räumlich abgetastet.

Diese Technologie wurde in letzter Zeit im iPhone X verwendet. Viele andere Telefone von Samsung und Computer von Microsoft haben versucht, diese Technologie zu verwenden, aber sie verwenden kein 3D-Mapping.

Siehe auch[edit]

Verweise[edit]

  1. ^ Hochpräzises 3D-Laserradar Jens Busck und Henning Heiselberg, Danmarks Tekniske University, 2004
  2. ^ Martinello, Manuel (2012). Bildgebung mit codierter Blende (PDF). Heriot-Watt-Universität.
  3. ^ Bild und Tiefe einer herkömmlichen Kamera mit codierter Blende Anat Levin, Rob Fergus, Fredo Durand, William T. Freeman, MIT
  4. ^ Martinello, Manuel; Favaro, Paolo (2011). “Blinde Dekonvolution einzelner Bilder mit Texturstatistiken höherer Ordnung” (PDF). Videoverarbeitung und Computervideo, LNCS 7082. Skript zur Vorlesung Informatik. Springer-Verlag. 7082: 124–151. mach:10.1007/978-3-642-24870-2_6. ISBN 978-3-642-24869-6.
  5. ^ Martinello, Manuel; Favaro, Paolo (2012). “Tiefenschätzung aus einer Videosequenz mit bewegten und verformbaren Objekten” (PDF). IET-Bildverarbeitungskonferenz: 131. doi:10.1049/cp.2012.0425. ISBN 978-1-84919-632-1.