Ich kann es vielleicht nicht gut erklären, aber ich wäre Ihnen dankbar, wenn Sie die Nuancen grob herausarbeiten könnten. Ich habe auch die Stereotiefe zusammengefasst. Wenn Sie interessiert sind, bitte https://qiita.com/minh33/items/55717aa1ace9d7f7e7dd https://qiita.com/minh33/items/6b8d37ce08f85d3a3479
Für Monokular </ h3>
Wenn Sie das Auto mit der Kamera bewegen, können Sie es in das vorherige Bild konvertieren. Zunächst wird die Entfernung des Bildes, wenn t = t ist, vom Netzwerk geschätzt. Da die Entfernung geschätzt werden kann, ist es möglich, die 3D-Punktwolke zu berechnen. Verwenden Sie die Selbstpositionsschätzung, um den Bewegungsumfang des Fahrzeugs mit der Kamera zu ermitteln. VSLAM, Kilometerzähler, GPS, IMU usw. können zur Selbstpositionsschätzung verwendet werden. Durch Transfomieren der 3D-Punktwolke, die das Ausmaß der Änderung in 1 Frame von x, y, z, Rollen, Neigen und Gieren früher berechnet hat, konnten wir die 3D-Punktwolke mit t = t-1 ableiten. Durch Konvertieren in die Bildansicht können Sie das Bild von t = t in das Bild von t = t-1 verzerren. Es gibt jedoch auch Nachteile, die Sie nur lernen können, wenn Sie sich bewegen. Wenn sich das Objekt des Gegners bewegt, verschiebt es sich, selbst wenn Sie sich verziehen.
It=>target Image(t=t) Is=>source Image(t=t-1) Dt => Zieltiefe (Grundwahrheit der Entfernung mit LiDAR) D^t=>Estimated target Depth I^t=>Estimated target Image View Synthesis => Bildrekonstruktion Photometrischer Verlust => Vergleich des geschätzten Bildes mit dem tatsächlichen Bild
Es wird verwendet, um den Verlust in Nr. 3 zu berechnen, aber Sie können die erhaltene Tiefe in Disparität umwandeln und das Bild rechts in das Bild links verziehen. Ist es übrigens ein Fernglas, obwohl es eine Monotiefe hat? Ich denke, einige Leute denken, dass die Entfernungsschätzung mit einem einzigen Auge durchgeführt wird und die gegenüberliegende Linse als Grundwahrheit für das Lernen verwendet wird.
Dieses Papier ist wahrscheinlich das bekannteste in Monodepth
・ Rekonstruktionsverlust Das linke Rekonstruktionsbild kann durch Verziehen unter Verwendung der linken Disparität erzeugt werden, die aus dem rechten Bild geschätzt wird. Berechnen Sie das SAD und SSIM dieses Bildes und das Eingabebild auf der linken Seite. Mach das Gegenteil
・ LR-Konsistenzverlust Verzerren Sie die Disparitätskarte rechts zur Disparitätskarte links und berechnen Sie die Differenz zwischen den absoluten Werten der Disparität. Mach das Gegenteil
・ Glätteverlust Da die Disparität (Tiefe) benachbarter Pixel fast gleich sein sollte, wenn sie dasselbe Objekt sind, wird die Glätte der Disparität unter Verwendung der Laplace-Glätte oder dergleichen berechnet. Führen Sie die Disparitätskarte rechts und links durch.
Recommended Posts