J'ai résumé le flux d'estimation de la profondeur (disparité) par caméra stéréo.
Voir l'article précédent pour la correspondance stéréo générale https://qiita.com/minh33/items/55717aa1ace9d7f7e7dd
Computing the Stereo Matching Cost with a Convolutional Neural Network(2015)
Améliorez la précision en remplaçant les fonctionnalités multicanaux en convoluant les caractéristiques des images droite et gauche au lieu de l'intensité
Spatial Pyramid Pooling in Deep Convolutional
Networks for Visual Recognition(2015)
Vous devez vous référer à une gamme plus large de pixels pour correspondre aux objets proches. La solution consiste à combiner les résolutions fines et grossières de la carte des caractéristiques.
End-to-End Learning of Geometry and Context for Deep Stereo Regression(2017)
Générez une carte des caractéristiques convolutives (LxHxC) en utilisant le même poids pour chacune des images de droite et de gauche que précédemment. Créez une carte des caractéristiques (DxWxHxC) en décalant horizontalement les pixels de l'image de gauche de 0 à maxDisparity (arbitraire) par rapport à l'image de droite. Décalez simplement le pixel horizontalement (direction de la largeur). En effectuant une convolution 3D et une déconvolution 3D à 1/2, 1/4, 1/8, 1/16, 1/32, vous pouvez apprendre des fonctionnalités approximatives et des fonctionnalités détaillées. La sortie ici est (DxHxW). La Disparité finale est sortie en multipliant la valeur de correspondance unidimensionnelle par Disparité et en prenant une moyenne pondérée. Avec softArgMin, il est possible de calculer la Disparité avec une précision sous-pixel.
Self-Supervised Learning for Stereo Matching with Self-Improving Ability(2017)
J'avais l'habitude d'obtenir la disparité ou la profondeur de LiDAR pour trouver la perte. La densité de LiDAR est plus grossière que celle de l'image, et comme l'entraînement est effectué même dans un système qui n'utilise pas de LiDAR, l'image de gauche est simulée en décalant le pixel de la Disparité estimée de l'image de droite. La perte peut être définie en regardant le SAD (différence d'intensité ou RVB) ou SSIM (similarité structurelle) entre l'image de gauche générée et l'image de gauche d'origine. Si la Disparité peut être estimée correctement, l'image déformée sera presque la même que l'image opposée.
Recommended Posts