Representación gráfica del framework V2GP con componentes como data sources, processing engine, results validation y model method, destacando la planificación de tareas del robot.

GroundedPlanBench y V2GP revolucionan la planificación robótica

Los investigadores han presentado un nuevo marco que mejora drásticamente cómo los robots planifican y ejecutan tareas físicas complejas, según hallazgos publicados hoy. El sistema Video-to-Spatially Grounded Planning (V2GP) superó a los métodos actuales al combinar planificación avanzada con percepción espacial en un único modelo, en lugar de manejar estas funciones por separado. Pruebas con el recién creado test GroundedPlanBench mostraron que el enfoque integrado impulsó significativamente la capacidad de los robots para completar tareas de manipulación de múltiples pasos en entornos del mundo real.

El avance aborda un desafío fundamental en robótica: permitir que las máquinas comprendan tanto qué hacer como exactamente dónde actuar en entornos reales y desordenados. Según el Microsoft Research Blog, los enfoques tradicionales sufren de un fallo crítico al traducir instrucciones de alto nivel en acciones físicas.


Los sistemas robóticos actuales suelen emplear un proceso de dos pasos que primero genera planes basados en texto como «pon una cuchara en el plato blanco», y luego intenta localizar los objetos específicos. Este enfoque desacoplado crea problemas de ambigüedad. Cuando existen múltiples objetos similares en una escena, las instrucciones vagas en lenguaje natural a menudo hacen que los robots seleccionen repetidamente el elemento equivocado, lo que lleva al fracaso de la tarea.


El nuevo enfoque planificador anclado elimina por completo este paso intermedio de lenguaje. En lugar de generar instrucciones en texto, el sistema emite directamente acciones asociadas a coordenadas espaciales precisas, lo que lo hace notablemente más confiable en entornos complejos, informaron los investigadores en el sitio web del proyecto.

Avance en el rendimiento

Tabla que compara el rendimiento de varios métodos en la planificación de tareas robóticas, mostrando el éxito de la tarea y los porcentajes de precisión de las acciones.

Las pruebas revelaron diferencias de rendimiento drásticas entre los enfoques. En el GroundedPlanBench, modelos de última generación como GPT-4V lograron solo una tasa de éxito del 1,2% en tareas que requieren de cinco a ocho acciones, según los hallazgos de la investigación. Incluso cuando se combinaron con modelos especializados de anclaje espacial, el rendimiento apenas mejoró al 3,4%.


Por el contrario, los modelos entrenados con el marco V2GP alcanzaron 20,5% de éxito por tarea y 46,7% de precisión en acciones en las mismas tareas complejas, lo que representa una mejora de seis veces sobre los métodos existentes.


La validación en el mundo real con un brazo robótico Franka Research 3 mostró diferencias aún más marcadas. El planificador anclado completó con éxito las tareas de prueba en cuatro de cinco ensayos, mientras que el enfoque tradicional desacoplado fracasó en todos los intentos, principalmente debido a errores de anclaje espacial.

Impacto en la industria

El desarrollo podría acelerar el despliegue de robots en almacenes, manufactura e industrias de servicios donde las máquinas deben navegar entornos impredecibles. Sin embargo, los investigadores reconocen limitaciones actuales, señalando que el conjunto referencial y los modelos entrenados aún no están disponibles públicamente.


El desarrollo futuro se centrará en integrar modelos del mundo que permitan al robot predecir las consecuencias de las acciones antes de la ejecución, lo que podría crear sistemas más deliberativos capaces de razonar sobre causa y efecto en espacios físicos, según el Microsoft Research Blog.

Sources

  • microsoft.com/en-us/research/blog
  • groundedplanning.github.io