L’IA de confiance ENSTA au CVPR 2025 de Nashville

Recherche Numérique

Du 11 au 15 juin 2025 se tient à Nashville la 42e édition de la conférence annuelle sur la vision artificielle et la reconnaissance des formes (Computer Vision and Pattern Recognition Conference), l’un des rendez-vous mondiaux les plus attendus dans le domaine de la vision par ordinateur. Deux chercheurs ENSTA, Gianni Franchi et Marwane Hariat, y présentent leurs travaux tout en co-organisant un workshop international sur l’incertitude en vision artificielle.

Mieux voir avec moins : améliorer la profondeur avec peu de repères visuels

Le premier article s’attaque à un défi bien connu en vision artificielle : la prédiction de profondeur à partir d’une seule image, une tâche clé pour des applications comme la robotique ou la conduite autonome, tâches dans lesquelles l’ENSTA est leader au sein de l’Institut Polytechnique de Paris. Si les méthodes auto-supervisées ont permis des progrès notables, elles restent limitées dans les zones pauvres en textures — où l’image ne donne que peu d’indices.

Pour contourner cette difficulté, les chercheurs de l’ENSTA proposent une approche originale. En extrayant des contours dits "pré-sémantiques", puis en leur appliquant un transformé de distance, ils enrichissent artificiellement la variabilité des images dans les zones uniformes. Cette modification permet d’apporter une meilleure supervision durant l’entraînement du réseau, en favorisant un apprentissage plus robuste de la profondeur et du mouvement de la caméra.

Gianni_Franchi_ENSTA_Paris.jpeg

Générer des images, oui, mais en toute confiance


Le second article présenté à CVPR ouvre un champ encore très peu exploré : l’incertitude dans les modèles génératifs texte-vers-image (T2I), tels que ceux utilisés dans les outils d’IA capables de produire des images à partir de descriptions textuelles. Si ces modèles impressionnent par leur créativité, leur fiabilité reste difficile à évaluer : une image générée correspond-elle vraiment à ce que demandait le prompt ?

Pour répondre à cette question, les chercheurs ENSTA introduisent PUNC (Prompt-based UNCertainty estimation), une méthode innovante s’appuyant sur des modèles vision-langage (LVLM).

Le principe est simple mais redoutablement efficace : une fois l’image générée, un LVLM produit une légende qui est ensuite comparée au prompt initial. Ce passage par le texte permet de mesurer finement l’adéquation sémantique entre intention et résultat.

Autre atout majeur de cette approche : la possibilité de distinguer l’incertitude aléatoire (due aux variations dans les données) de l’incertitude épistémique (liée aux limites du modèle). L’ENSTA se distingue par son expertise dans la maîtrise des incertitudes que ce soit grâce à librairie torch Uncertainty, ou grâce à ces nombreux tutoriels ou conférences organisés sur le sujet. L’idée de ce papier est d’étudier de montrer comment quantifier l’incertitude pour les modèles génératifs. 

PUNC ouvre ainsi la voie à des usages concrets, comme la détection de biais, la protection contre le plagiat, ou l’identification de contenus hors distribution. Le code de l’outil est librement accessible, favorisant la recherche ouverte.

Le poster sera présenté le vendredi 13 juin, de 16h à 18h, au stand #257 – ExHall D
 

Un workshop international sur l’incertitude en vision artificielle


Point d’orgue de la présence de l’ENSTA à CVPR, la co-organisation du Workshop on Uncertainty in Computer Vision, qui se tient le mercredi 11 juin dans la salle 102B.

Ce workshop d’une journée complète rassemble chercheurs, doctorants et industriels autour des enjeux de l’incertitude, de la calibration, et de la robustesse des modèles visuels.

Ce rendez-vous scientifique est organisé en partenariat avec Andrea Pilzer, NVIDIA, Italy, Gianni Franchi, ENSTA, France, Andrei Bursuc, Valeo.ai, France, Arno Solin, Martin Trapp, et Marcus Klasson, (tous trois Aalto University, Finland), Angela Yao, National University of Singapore, Singapore, Tuan-Hung Vu, valeo.ai and Inria, France, et Fatma Güney, Koç University, Turkey

L’objectif : croiser les perspectives académiques et industrielles pour mieux comprendre comment construire des systèmes de vision plus sûrs, plus interprétables, et plus adaptés au monde réel. Le programme prévoit conférences invitées, présentations de papiers, panels et discussions techniques.

Une ambition : fiabilité et transparence en IA visuelle

À travers ces deux publications et ce workshop, l’ENSTA confirme son rôle de leader européen dans la recherche sur la vision artificielle de confiance. À l’heure où l’intelligence artificielle s’invite dans des domaines sensibles — santé, mobilité, sécurité —, mieux comprendre, quantifier et exploiter l’incertitude devient un impératif scientifique autant qu’éthique.

 

Nos dernières actualités

Recherche
Une bibliothèque nationale des vocalisations de dauphins

Lancé fin 2024, le projet PAMCéClass confié à l’ENSTA par l’observatoire de l’éolien en mer et financé par l’Office Français de la Biodiversité (OFB) a pour ambition de créer une bibliothèque nationale de vocalisations de plusieurs espèces de delphinidés...

Une bibliothèque nationale des vocalisations de dauphins

Lancé fin 2024, le projet PAMCéClass confié à l’ENSTA par l’observatoire de l’éolien en mer et financé par l’Office Français de la Biodiversité (OFB) a pour ambition de créer une bibliothèque nationale de vocalisations de plusieurs espèces de delphinidés...

Alumni | École | Formation | Vie étudiante
Remise des diplômes de la promotion 2025 du cycle ENSTA Paris

Vendredi 13 mars 2026 a eu lieu la remise des diplômes de la promotion 2025 du cycle ingénieur ENSTA Paris et de ses programmes de Mastère spécialisé®, un temps fort de la vie de la communauté ENSTA.

Remise des diplômes de la promotion 2025 du cycle ENSTA Paris

Vendredi 13 mars 2026 a eu lieu la remise des diplômes de la promotion 2025 du cycle ingénieur ENSTA Paris et de ses programmes de Mastère spécialisé®, un temps fort de la vie de la communauté ENSTA.

International | Recherche | Vie étudiante
Un premier pas prometteur dans le monde de la recherche

Du 16 au 19 mars se tient à Édimbourg l’événement HRI 2026, une des meilleures conférences internationales sur les interactions humains-robots. Parmi les articles scientifiques retenus pour y être présentés, celui d’un groupe d’étudiants de l’ENSTA qui au...

Un premier pas prometteur dans le monde de la recherche

Du 16 au 19 mars se tient à Édimbourg l’événement HRI 2026, une des meilleures conférences internationales sur les interactions humains-robots. Parmi les articles scientifiques retenus pour y être présentés, celui d’un groupe d’étudiants de l’ENSTA qui au...