Self-supervision versus synthetic datasets: which is the lesser evil in the context of video denoising?

Publié le 19 juin 2022 - The 1st Workshop on Vision Datasets Understanding (CVPR 2022)

Auteurs : Valéry Dewil, Arnaud Barral, Gabriele Facciolo, Pablo Arias

L'entraînement supervisé a conduit à l'état de l'art en débruitage d'images et de vidéos. Cependant, son application aux données réelles est limitée car il nécessite de grandes bases de données formées de paires donnée bruitée / donnée vérité-terrain et celles-ci sont difficiles à obtenir. Pour cette raison, les réseaux de neurones sont souvent entraînés sur des données certes réalistes mais synthétiques. Plus récemment, des entraînements auto-supervisés ont été proposés pour entraîner de tels réseaux de débruitage directement sur les données bruitées et sans nécessiter de vérités-terrain. Pour le problème de débruitage sur des données synthétiques, les entraînements supervisés conduisent à de meilleurs résultats que les entraînements auto-supervisés, toutefois depuis quelques temps l'écart entre les deux approches s'est réduit, et plus particulièrement dans le cas des vidéos. Dans cet article, nous proposons une étude visant à déterminer quelle approches est la plus adaptée pour l'entraînement de réseaux de débruitage de données brutes réelles : la supervision sur des bases de données synthétiques ou l'auto-supervision sur les données réelles. Une étude complète avec des résultats quantitatif dans le cas de vidéos naturelles avec mouvement réel est impossible car aucune base de données avec des paires de données bruitée / vérité-terrain n'existe. Nous contournons ce problème en considérant trois expériences indépendantes dans lesquelles nous comparons les deux approches. Nous avons trouvé que l'auto-supervision sur des données réelles conduit à de meilleurs résultats que la supervision sur des données synthétiques et que dans des conditions normales d'illumination, la baisse de performance est due à la synthèse des vérités-terrain synthétiques et non au modèle de bruit.