L’IA de confiance ENSTA au CVPR 2025 de Nashville

11 Jun 2025 Recherche Numérique

Du 11 au 15 juin 2025 se tient à Nashville la 42e édition de la conférence annuelle sur la vision artificielle et la reconnaissance des formes (Computer Vision and Pattern Recognition Conference), l’un des rendez-vous mondiaux les plus attendus dans le domaine de la vision par ordinateur. Deux chercheurs ENSTA, Gianni Franchi et Marwane Hariat, y présentent leurs travaux tout en co-organisant un workshop international sur l’incertitude en vision artificielle.

Mieux voir avec moins : améliorer la profondeur avec peu de repères visuels

Le premier article s’attaque à un défi bien connu en vision artificielle : la prédiction de profondeur à partir d’une seule image, une tâche clé pour des applications comme la robotique ou la conduite autonome, tâches dans lesquelles l’ENSTA est leader au sein de l’Institut Polytechnique de Paris. Si les méthodes auto-supervisées ont permis des progrès notables, elles restent limitées dans les zones pauvres en textures — où l’image ne donne que peu d’indices.

Pour contourner cette difficulté, les chercheurs de l’ENSTA proposent une approche originale. En extrayant des contours dits "pré-sémantiques", puis en leur appliquant un transformé de distance, ils enrichissent artificiellement la variabilité des images dans les zones uniformes. Cette modification permet d’apporter une meilleure supervision durant l’entraînement du réseau, en favorisant un apprentissage plus robuste de la profondeur et du mouvement de la caméra.

Générer des images, oui, mais en toute confiance

Le second article présenté à CVPR ouvre un champ encore très peu exploré : l’incertitude dans les modèles génératifs texte-vers-image (T2I), tels que ceux utilisés dans les outils d’IA capables de produire des images à partir de descriptions textuelles. Si ces modèles impressionnent par leur créativité, leur fiabilité reste difficile à évaluer : une image générée correspond-elle vraiment à ce que demandait le prompt ?

Pour répondre à cette question, les chercheurs ENSTA introduisent PUNC (Prompt-based UNCertainty estimation), une méthode innovante s’appuyant sur des modèles vision-langage (LVLM).

Le principe est simple mais redoutablement efficace : une fois l’image générée, un LVLM produit une légende qui est ensuite comparée au prompt initial. Ce passage par le texte permet de mesurer finement l’adéquation sémantique entre intention et résultat.

Autre atout majeur de cette approche : la possibilité de distinguer l’incertitude aléatoire (due aux variations dans les données) de l’incertitude épistémique (liée aux limites du modèle). L’ENSTA se distingue par son expertise dans la maîtrise des incertitudes que ce soit grâce à librairie torch Uncertainty, ou grâce à ces nombreux tutoriels ou conférences organisés sur le sujet. L’idée de ce papier est d’étudier de montrer comment quantifier l’incertitude pour les modèles génératifs.

PUNC ouvre ainsi la voie à des usages concrets, comme la détection de biais, la protection contre le plagiat, ou l’identification de contenus hors distribution. Le code de l’outil est librement accessible, favorisant la recherche ouverte.

Le poster sera présenté le vendredi 13 juin, de 16h à 18h, au stand #257 – ExHall D

Un workshop international sur l’incertitude en vision artificielle

Point d’orgue de la présence de l’ENSTA à CVPR, la co-organisation du Workshop on Uncertainty in Computer Vision, qui se tient le mercredi 11 juin dans la salle 102B.

Ce workshop d’une journée complète rassemble chercheurs, doctorants et industriels autour des enjeux de l’incertitude, de la calibration, et de la robustesse des modèles visuels.

Ce rendez-vous scientifique est organisé en partenariat avec Andrea Pilzer, NVIDIA, Italy, Gianni Franchi, ENSTA, France, Andrei Bursuc, Valeo.ai, France, Arno Solin, Martin Trapp, et Marcus Klasson, (tous trois Aalto University, Finland), Angela Yao, National University of Singapore, Singapore, Tuan-Hung Vu, valeo.ai and Inria, France, et Fatma Güney, Koç University, Turkey

L’objectif : croiser les perspectives académiques et industrielles pour mieux comprendre comment construire des systèmes de vision plus sûrs, plus interprétables, et plus adaptés au monde réel. Le programme prévoit conférences invitées, présentations de papiers, panels et discussions techniques.

Une ambition : fiabilité et transparence en IA visuelle

À travers ces deux publications et ce workshop, l’ENSTA confirme son rôle de leader européen dans la recherche sur la vision artificielle de confiance. À l’heure où l’intelligence artificielle s’invite dans des domaines sensibles — santé, mobilité, sécurité —, mieux comprendre, quantifier et exploiter l’incertitude devient un impératif scientifique autant qu’éthique.

Nos dernières actualités

Alumni | Formation | Recherche

18 juin 2026

Maïmouna Bocoum, l’art de chercher entre les disciplines

Récente lauréate du prix Irène Joliot-Curie, Maïmouna Bocoum a débuté son riche parcours académique par l’ENSTA. Si elle a fait beaucoup de chemin depuis, il lui arrive encore de consulter ses notes de cours lorsqu’elle a besoin de se familiariser avec...

Maïmouna Bocoum, l’art de chercher entre les disciplines

Alumni

15 juin 2026

Lords of the Ocean, une aventure qui défie les préjugés sur les requins

Depuis plus de 5 ans, l’équipe de Lords of the Ocean, créée par deux diplômés ENSTA, sillonne les mers à la recherche des grands requins. Ils plongent pour nous aider à mieux les connaître, combattre nos préjugés pour mieux les protéger. En 2026, ils...

Lords of the Ocean, une aventure qui défie les préjugés sur les requins

Entreprise | Innovation | Recherche

11 juin 2026

Forte présence de l’ENSTA à VIVATECH 2026

Du 17 au 20 juin se tiendra à Paris Expo Porte de Versailles l’édition 2026 de Viva Technology, le plus grand salon européen de l’innovation et de la technologie. L’ENSTA y sera représentée au travers de quatre startups issues de son écosystème, en...

Forte présence de l’ENSTA à VIVATECH 2026

Toutes les actualités