Visuelle Darstellung des V2GP-Frameworks mit Elementen wie Data Sources, Processing Engine, Results Validation und Model Method, die Robot Task Planning hervorhebt.

GroundedPlanBench und V2GP-Framework revolutionieren die Roboter-Aufgabenplanung

Forschende haben ein neues Framework präsentiert, das die Planung und Ausführung komplexer physischer Aufgaben durch Roboter erheblich verbessert, wie heute veröffentlichte Ergebnisse belegen. Das System Video-to-Spatially Grounded Planning (V2GP) übertrifft bisherige Methoden, indem es übergeordnete Planung und räumliches Verständnis in einem einzigen Modell vereint, anstatt diese Funktionen getrennt zu verarbeiten. Tests mit dem neu entwickelten GroundedPlanBench Benchmark bewiesen, dass der integrierte Ansatz die Fähigkeit von Robotern, mehrstufige Manipulationsaufgaben in realen Umgebungen zu meistern, signifikant steigerte.

Dieser Durchbruch löst eine grundlegende Herausforderung in der Robotik: Maschinen zu befähigen, sowohl zu erfassen, was zu tun ist, als auch exakt, wo in unübersichtlichen, realen Umgebungen agiert werden muss. Laut dem Microsoft Research Blog weisen herkömmliche Ansätze eine kritische Schwachstelle auf, wenn übergeordnete Anweisungen in physische Aktionen übertragen werden.


Gängige robotische Systeme nutzen typischerweise einen zweistufigen Prozess, der zunächst textbasierte Pläne wie „lege einen Löffel auf den weißen Teller“ generiert und anschließend versucht, die spezifischen Objekte zu lokalisieren. Dieser entkoppelte Ansatz verursacht Mehrdeutigkeitsprobleme. Wenn in einer Szene mehrere ähnliche Objekte vorhanden sind, führen unpräzise sprachliche Anweisungen häufig dazu, dass Roboter wiederholt das falsche Objekt auswählen, was zum Scheitern der Aufgabe führt.


Der neue, räumlich verortete Planungsansatz eliminiert diesen zwischengeschalteten Sprachschritt vollständig. Anstatt Textanweisungen zu generieren, gibt das System direkt Aktionen zusammen mit präzisen räumlichen Koordinaten aus, was es in komplexen Umgebungen wesentlich zuverlässiger macht, berichteten die Forschenden auf der Projektwebsite.

Leistungsdurchbruch

Tabelle zum Vergleich der Leistung verschiedener Methoden beim Robot Task Planning, die Prozentsätze für Task Success und Action Accuracy darstellt.

Untersuchungen offenbarten gravierende Leistungsunterschiede zwischen den Ansätzen. Auf dem GroundedPlanBench erreichten hochmoderne Modelle wie GPT-4V laut den Forschungsergebnissen bei Aufgaben, die fünf bis acht Aktionen erfordern, lediglich eine Erfolgsquote von 1,2%. Selbst in Kombination mit spezialisierten Modellen zur Raumerfassung verbesserte sich die Leistung kaum auf 3,4%.


Im Gegensatz dazu erzielten mit dem V2GP Framework trainierte Modelle bei denselben komplexen Aufgaben 20,5% im Aufgabenerfolg und 46,7% an Aktionsgenauigkeit, was einer sechsfachen Verbesserung gegenüber bisherigen Methoden entspricht.


Die Validierung in der realen Welt mit einem Franka Research 3 Roboterarm zeigte noch deutlichere Unterschiede. Der raumbezogene Planer schloss Testaufgaben in vier von fünf Versuchen erfolgreich ab, während der traditionelle entkoppelte Ansatz jedes Mal scheiterte, vor allem aufgrund von Fehlern der Raumerfassung.

Auswirkungen auf die Industrie

Die Entwicklung könnte die Integration von Robotern in Lagerhäusern, der Fertigung und Dienstleistungsbranchen beschleunigen, in denen Maschinen sich in unvorhersehbaren Umgebungen zurechtfinden müssen. Die Forschenden räumen jedoch gegenwärtige Einschränkungen ein und weisen darauf hin, dass der verwendete Benchmark-Datensatz und die trainierten Modelle noch nicht öffentlich verfügbar sind.


Laut dem Microsoft Research Blog wird sich die zukünftige Entwicklung auf die Integration von umfassenden Weltmodellen konzentrieren, die es Robotern ermöglichen, Aktionsfolgen vor der Ausführung vorherzusagen, was potenziell vorausschauendere Systeme schafft, die in physischen Räumen über Ursache und Wirkung schlussfolgern können.

Sources

  • microsoft.com/en-us/research/blog
  • groundedplanning.github.io