Ich habe den Fluss der Tiefenschätzung (Disparität) durch die Stereokamera zusammengefasst.
Im vorherigen Artikel finden Sie Informationen zur allgemeinen Stereoanpassung https://qiita.com/minh33/items/55717aa1ace9d7f7e7dd
Computing the Stereo Matching Cost with a Convolutional Neural Network(2015)
Verbessern Sie die Genauigkeit, indem Sie Mehrkanalmerkmale ersetzen, indem Sie die Merkmale des rechten und linken Bildes anstelle der Intensität falten
Spatial Pyramid Pooling in Deep Convolutional
Networks for Visual Recognition(2015)
Sie müssen sich auf einen größeren Pixelbereich beziehen, um mit Objekten in der Nähe übereinzustimmen. Die Lösung besteht darin, die Auflösung der Feature-Map mit feinen und groben zu kombinieren.
End-to-End Learning of Geometry and Context for Deep Stereo Regression(2017)
Generieren Sie eine Faltungs-Feature-Map (BxHxC) mit dem gleichen Gewicht für jedes der rechten und linken Bilder wie zuvor. Erstellen Sie eine Feature-Map (DxBxHxC), die die Pixel des linken Bilds horizontal von 0 auf maxDisparity (beliebig) in Bezug auf das rechte Bild verschiebt. Verschieben Sie das Pixel einfach horizontal (Breitenrichtung). Durch Ausführen von 3D-Faltung und 3D-Entfaltung bei 1/2, 1/4, 1/8, 1/16, 1/32 können Sie grobe Merkmale und detaillierte Merkmale erlernen. Die Ausgabe hier ist (DxHxW). Die endgültige Disparität wird ausgegeben, indem der eindimensionale Übereinstimmungswert mit der Disparität multipliziert und ein gewichteter Durchschnitt genommen wird. Mit softArgMin ist es möglich, die Disparität mit Subpixel-Genauigkeit zu berechnen.
Self-Supervised Learning for Stereo Matching with Self-Improving Ability(2017)
Ich habe Disparität oder Tiefe von LiDAR erhalten, um Verluste zu finden. Die Dichte von LiDAR ist gröber als die des Bildes, und da das Training auch in einem System durchgeführt wird, das kein LiDAR verwendet, wird das Bild links simuliert, indem das Pixel um die geschätzte Disparität des rechten Bildes verschoben wird. Der Verlust kann definiert werden, indem der SAD (Intensität oder RGB-Unterschied) oder SSIM (strukturelle Ähnlichkeit) zwischen dem erzeugten linken Bild und dem ursprünglichen linken Bild betrachtet wird. Wenn die Disparität korrekt geschätzt werden kann, ist das verzerrte Bild fast das gleiche wie das gegenüberliegende Bild.
Recommended Posts