GroundedPlanBench et V2GP révolutionnent la planification robotique

Par

27 mars 2026

Des chercheurs ont dévoilé un nouveau cadre qui améliore de manière spectaculaire la façon dont les robots planifient et exécutent des tâches physiques complexes, selon des résultats publiés aujourd’hui. Le système Video-to-Spatially Grounded Planning (V2GP) a surpassé les méthodes existantes en combinant une planification de haut niveau avec une perception spatiale dans un seul modèle, plutôt que de traiter ces fonctions séparément. Des tests utilisant le référentiel nouvellement créé GroundedPlanBench ont montré que l’approche intégrée augmentait significativement la capacité des robots à mener à bien des tâches de manipulation en plusieurs étapes dans des environnements réels.

Cette avancée répond à un défi fondamental en robotique: permettre aux machines de comprendre à la fois quoi faire et précisément où agir dans des environnements réels encombrés. Selon le Microsoft Research Blog, les approches traditionnelles souffrent d’une lacune critique lors de la traduction d’instructions de haut niveau en actions physiques.

Les systèmes robotiques actuels utilisent généralement un processus en deux étapes qui génère d’abord des plans textuels comme « mettre une cuillère sur l’assiette blanche », puis tente de localiser les objets spécifiques. Cette approche dissociée crée des problèmes d’ambiguïté. Lorsque plusieurs objets similaires existent dans une scène, des instructions aux termes vagues amènent souvent les robots à sélectionner très fréquemment le mauvais objet, ce qui conduit à l’échec de la tâche.

La nouvelle approche purement ancrée élimine entièrement cette étape linguistique intermédiaire. Au lieu de produire des instructions textuelles, le système génère directement des actions associées à des coordonnées spatiales précises, ce qui le rend nettement plus fiable dans des environnements complexes, ont précisé les chercheurs sur le site du projet.

Percée des performances

Tableau comparant les performances de différentes méthodes de planification de tâches robotiques, présentant les pourcentages de réussite des tâches et de précision des actions.

Les tests ont révélé des écarts de performances spectaculaires entre les approches. Sur le GroundedPlanBench, des modèles avant-gardistes comme GPT-4V n’ont atteint qu’un taux de réussite de 1,2% pour des tâches nécessitant cinq à huit actions, selon les résultats de la recherche. Même lorsqu’ils sont combinés avec des modèles spécialisés en ancrage spatial, la performance ne s’est guère améliorée, atteignant seulement 3,4%.

À l’inverse, des modèles entraînés avec le framework V2GP ont atteint 20,5% de réussite des tâches et 46,7% d’exactitude des actions sur les mêmes tâches complexes, soit une amélioration par un facteur six par rapport aux méthodes existantes.

Une validation en conditions réelles à l’aide d’un bras robotisé Franka Research 3 a montré des différences encore plus marquées. Le planificateur ancré a mené à bien les tâches de test dans quatre essais sur cinq, tandis que l’approche traditionnelle totalement découplée a échoué à chaque tentative, principalement en raison d’erreurs de repérage spatial.

Impact sur l’industrie

Ce développement pourrait accélérer le déploiement de robots dans les entrepôts, la production et les industries de services où les machines doivent évoluer dans des environnements imprévisibles. Cependant, les chercheurs reconnaissent des limites actuelles, en notant que le référentiel associé et les modèles entraînés ne sont pas encore disponibles publiquement.

Les développements futurs se concentreront sur l’intégration de modèles globaux qui permettent aux robots de prédire les conséquences des actions avant exécution, ce qui pourrait créer des systèmes plus délibératifs capables de raisonner sur la cause et l’effet dans des espaces physiques, selon le Microsoft Research Blog.

Sources

microsoft.com/en-us/research/blog
groundedplanning.github.io

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.
Liora – Your future. Decoded.

La newsletter du futur

Recevez un aperçu du futur directement dans votre boîte mail. Abonnez-vous pour découvrir les tendances tech de demain, des conseils exclusifs et des offres réservées à notre communauté.

S’inscrire à la newsletter