Mathématiques générales

Comparaison d'images invariantes affines

Published on

Authors: Mariano Rodriguez

La mise en correspondance d'images, qui consiste à décider si plusieurs images représentent ou non des objets communs ou similaires, est un problème reconnu comme difficile, notamment en raison des changements de point de vue entre les images. Les déformations apparentes des objets causées par les changements de position de la caméra peuvent être approximées localement par des transformations affines. Cette propriété a motivé la recherche de descripteurs locaux invariants affines depuis une quinzaine d'années. Malheureusement, les descripteurs existants ne permettent pas de traiter des différences de point de vue d'angle supérieures à 45 degrés, et échouent complètement au-delà de 60 degrés. Dans cette thèse, nous abordons plusieurs stratégies pour résoudre cette limitation, et nous montrons qu'elles se complètent.Trois directions principales pour obtenir l'invariance affine sont activement étudiées par la communauté scientifique :- Par des simulations affines suivies d'un appariement (moins invariant) de nombreux couples d'images simulées ;- Par une description indépendante du point de vue ;- Grâce à une normalisation affine locale de patchs.Dans cette thèse, nous explorons les trois approches. Nous commençons par présenter une distance entre les transformations affines qui mesure la déformation du point de vue. Cette distance est utilisée pour générer des ensembles optimaux (minimaux) de transformations affines, qui sont utilisés par les méthodes de mise en correspondance d'images par simulation affine (IMAS). L'objectif est de réduire le nombre de simulations affines à simuler tout en conservant le même niveau de performance dans le processus d'appariement. Nous utilisons ces ensembles optimaux de transformations affines et d'autres améliorations informatiques pour renforcer la méthode ASIFT. Nous proposons également une nouvelle méthode, Optimal ARootSIFT, dont les performances et la vitesse sont nettement supérieures à celles d'ASIFT. Dans une application directe de la méthodologie IMAS pour un problème connexe, nous proposons deux descripteurs permettant de suivre des objets répétés en mesurant un nombre de fausses alarmes (NFA), de tester leur tolérance au changement de point de vue, et de générer en conséquence des ensembles appropriés de simulations affines. De cette façon, nous obtenons deux méthodes IMAS capables de traiter des structures répétitives avec de fortes différences de points de vue.Notre recherche d'amélioration se concentre ensuite sur les descripteurs locaux, qui étaient autrefois conçus heuristiquement, mais qui sont actuellement appris à partir de données massives, avec la promesse d'une meilleure performance. Nous proposons un descripteur invariant affine (appelé AID) appris par un réseau neuronal convolutionnel entraîné avec des données simulées. Même si ce réseau n'est pas entraîné pour les occlusions ou le bruit, la performance des descripteurs AIDs sur des images réelles est étonnamment bonne. Cette performance confirme qu'il est possible d'obtenir immédiatement une description commune d'une scène, quel que soit le point de vue.Enfin, les progrès récents dans la normalisation affine des patchs (par exemple Affnet) permettent de contourner l'absence d'invariance affine des descripteurs de l'état de l'art. Comme d'habitude avec la normalisation affine, les patchs sont normalisés en une représentation unique, qui est transformée en descripteur. Nous préférons ne pas nous fier à la précision ni à l'existence d'une seule normalisation affine, et présentons une méthode IMAS adaptative qui calcule un petit ensemble de représentations normalisantes possibles. Cette méthode agrège les informations d'Affnet pour obtenir un bon compromis entre vitesse et performance. En fin de compte, nos recherches aboutissent à une méthode qui fusionne les idées de normalisation et de simulation pour obtenir une mise en correspondance d'images invariante affine encore plus rapide et plus complète.