Apprentissage de la similarité pour le calcul de modèles numériques de surface par photogrammétrie aérienne et spatiale
Similarity learning for large scale dense image matching
Résumé
Dense image matching is a long standing ill-posed problem. Despite the extensive research efforts undertaken in the last twenty years, the state-of-the-art handcrafted algorithms perform poorly on featureless areas, in presence of occlusions, shadows and on non-lambertian surfaces. This is due to lack of distinctiveness of the handcrafted similarity metrics in such challenging scenarios. On the other hand, deep learning based approaches to image matching are able to learn highly non-linear similarity functions thus provide an interesting path to addressing such complex matching scenarios.In this research, we present deep learning based architectures and methods for stereo and multi-view dense image matching tailored to aerial and satellite photogrammetry. The proposed approach is driven by two key ideas. First, our goal is to develop a matching network that is as generic as possible to different sensors and acquisition scenarios. Secondly, we argue that known geometrical relationships between images can alleviate the learning phase and should be leveraged in the process. As a result, our matching pipeline follows the known two step pipeline where we first compute deep similarities between pixel correspondences, followed by depth regularization. This separation ensures “generality” or “transferability” to different scenes and acquisitions. Furthermore, our similarity functions are learnt on epipolar rectified image pairs, and to exploit the learnt embeddings in a general n-view matching problem, geometry priors are mobilized. In other words, we transform embeddings learnt on pairs of images to multi-view embeddings through a priori knowledge about the relative camera poses. This allows us to capitalize on the vast stereo matching benchmarks existing in the literature while extending the approach to multi-view scenarios. Finally, we tackle the insufficient distinctiveness of the state-of-the-art patch-based features/similarities by feeding the network with large images thus adding more context, and by proposing an adapted sample mining scheme. We establish a middle-ground between state-of-the-art similarity learning and end-to-end regression models for stereo matching and demonstrate that our models yield generalizable representations in multiple view 3D surface reconstruction from aerial and satellite acquisitions. The proposed pipelines are implemented in MicMac, a free, open-source photogrammetric software
La thèse porte sur l’amélioration de la qualité des modèles numériques d'élévation (MNE) à partir d’imagerie aérienne et satellitaire. Notre démarche repose sur l’appariement dense d’images combinant la mesure de ressemblance et la régularisation semi-globale. Cependant, elle prévoit des corrélateurs neuronaux à la place des mesures de ressemblance classiques. Malgré les efforts de recherche considérables entrepris au cours des vingt dernières années, les mesures de ressemblance classiques (NCC, Census, etc...) sont généralement limitées surtout face aux zones d’images homogènes, proches des occlusions, ombragées et en présence de surfaces ayant des propriétés de réflectance non lambertienne. Alors que ces approches, fortement dépendantes de la notion de voisinage local, perdent de distinctivité en élargissant le contexte et face à ces scénarios difficiles, les architectures de réseaux neuronaux profonds offrent des capacités d’apprentissage étendues et peuvent appréhender des notions de similarité plus complexes capables ainsi de résoudre ces scénarios d’appariement complexes. Ce travail présente des architectures neuronales et des méthodes basées sur l’apprentissage profond pour l’appariement multi-images en photogrammétrie aérienne et satellitaire. Notre approche vise à apprendre des similarités transférables à l’ensemble des géométries de reconstruction (épipolaire, native et terrain) en œuvrant en accord avec l’a priori de nature géométrique des images. Tout d’abord, la fonction de similarité est apprise sur des paires d’images épipolaires. Ensuite, les similarités apprises sont transformées pour résoudre le problème de correspondance multi-vues sur la base de recalages épipolaires ou homographiques adaptés.Notre approche se démarque du paradigme de correspondance classique qui compense les imperfections des appariements par voisinage local avec des contraintes de surface semi-globales. Plus précisément, nos réseaux neuronaux apprennent de manière contrastive des scores de similarité globaux, expressifs et pixellaires par le biais d’architectures à large champ récepteur. Notre pipeline multi-vues ne nécessite pas de réapprentissage supplémentaire sur des jeux de données dédiés et exploite des géométries de transfert comme moyens pour calculer des descripteurs orientés robustes en géométrie native. Ces derniers sont ré-échantillonnés à chaque plan hypothétique pour évaluer les similarités le long de l’intervalle de profondeur. Contrairement à la fusion a posteriori des cartes de profondeur, notre stratégie multi-vues adopte un schéma de fusion a priori pondérant les similarités apprises par paires pour remplir puis régulariser la structure de coût. Nous établissons un équilibre de performances entre l’apprentissage profond de la similarité et la régression de bout en bout pour la mise en correspondance épipolaire et démontrons que nos modèles produisent des descripteurs généralisables pour la reconstruction de surfaces 3D multi-vues omni-scènes. En tirant parti des pipelines de correspondance multi-résolution hiérarchiques, nos corrélateurs neuronaux peuvent être facilement combinés avec des mesures de similarité classiques pour améliorer la précision des MNE. Les pipelines proposés sont implémentés dans MicMac, un logiciel photogrammétrique gratuit et open source
Infos complémentaires
-
Identifiant HAL : 2024UEFL2030
-
degree committee member :
-
Langue originale :anglais
-
Date de la thèse : 2024-07-12
-
Informations sur la thèse : Domaine : Humanities and Social Sciences/Library and information sciences
-
Accès : Distributed under a Creative Commons Attribution 4.0 International License
FAQ
Liens FAQ