Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Robotern, mit ihrer Umgebung zu interagieren, hat in den letzten Jahren erhebliche Fortschritte gemacht. Insbesondere Vision-Language-Action (VLA)-Modelle haben die Manipulation statischer Objekte durch ihre starke Generalisierungsfähigkeit revolutioniert. Dennoch bleibt die Manipulation dynamischer Objekte eine große Herausforderung. Szenarien, in denen sich Objekte kontinuierlich bewegen und schnelle Wahrnehmung, zeitliche Antizipation sowie kontinuierliche Steuerung erfordern, überfordern die meisten bestehenden VLA-Modelle.
Die Interaktion mit sich bewegenden Objekten ist ein grundlegender, aber bisher wenig erforschter Bereich der Robotik. Im realen Umfeld sind Objekte oft in Bewegung, sei es beim Überreichen, Neupositionieren oder Stabilisieren von Gegenständen. Roboter müssen in der Lage sein, unter sich schnell ändernden Bedingungen wahrzunehmen, vorherzusagen und zu handeln. Selbst geringe Latenzzeiten können zum Scheitern einer Aufgabe führen, was die dynamische Manipulation zu einem weitaus komplexeren Problem macht als das Greifen statischer Objekte.
Aktuelle VLA-Modelle zeigen zwar eine starke Leistung bei der statischen Manipulation, bei der die Objektzustände während der Inferenz fixiert bleiben und Latenz eine untergeordnete Rolle spielt. Frühere VLAs mit 3B–7B Vision-Language-Backbones erreichten hohe Erfolgsraten trotz langsamer Inferenz. Neuere Designs verbesserten die Effizienz durch Reduzierung der Modellgröße und Erhöhung des Durchsatzes. Doch wie Abbildung 1 verdeutlicht, stellt die dynamische Manipulation weitaus höhere Anforderungen, da Inferenzverzögerungen die Wahrnehmung von der Aktion entkoppeln und Modelle die zukünftige Objektbewegung antizipieren müssen – eine Fähigkeit, die bisherige VLAs nicht ausreichend adressieren konnten.
Um diese Herausforderungen zu meistern, wurde DynamicVLA entwickelt – ein Framework für die dynamische Objektmanipulation, das zeitliche Argumentation und Closed-Loop-Anpassung integriert. Dies wird durch drei zentrale Designprinzipien erreicht:
DynamicVLA verwendet ein kompaktes VLA-Modell mit 0,4 Milliarden Parametern. Dieses Modell nutzt einen konvolutionalen Vision-Encoder für eine räumlich effiziente und strukturell getreue Kodierung, was eine schnelle multimodale Inferenz ermöglicht. Im Gegensatz zu vielen bestehenden VLMs, die auf Transformer-basierten Vision-Encodern basieren, setzt DynamicVLA auf FastViT als konvolutionalen Vision-Encoder. Dieser Ansatz ermöglicht eine effiziente räumliche Komprimierung und vermeidet das quadratische Token-Wachstum bei der Verarbeitung multirahmiger visueller Eingaben. Die Kompaktheit des Modells ist entscheidend, um die Inferenzlatenz zu minimieren, die bei dynamischen Manipulationen direkt die Bandbreite der Objektbewegungen begrenzt, mit denen interagiert werden kann.
Dieses Design ermöglicht überlappende Denkprozesse und Ausführungen, was zu einer geringeren Latenz und einer zeitnahen Anpassung an Objektbewegungen führt. Bei herkömmlichen VLA-Modellen wird eine neue Inferenz erst ausgelöst, nachdem die zuvor vorhergesagte Aktionssequenz vollständig ausgeführt wurde. Dies serialisiert Inferenz und Ausführung, führt zu Wartezeiten zwischen den "Chunks" und beeinträchtigt die Reaktionsfähigkeit bei dynamischen Objektbewegungen. Continuous Inference hingegen startet Inferenzzyklen, sobald die vorherige Inferenz abgeschlossen ist, unabhängig davon, ob die zuvor vorhergesagte Aktionssequenz bereits erschöpft ist. Dies eliminiert Wartezeiten und sorgt für einen kontinuierlichen Aktionsstrom.
Dieses Prinzip schließt die Lücke zwischen Wahrnehmung und Ausführung, indem es eine zeitlich abgestimmte Aktionsausführung sicherstellt. Inferenzverzögerungen führen zu einer zeitlichen Fehlausrichtung zwischen vorhergesagten Aktionen und der sich entwickelnden Umgebung. Latent-aware Action Streaming löst dieses Problem, indem es veraltete Aktionen verwirft und die aktuellsten Vorhersagen bei jedem Zeitschritt priorisiert. Dies gewährleistet eine zeitlich konsistente Steuerung trotz Inferenzverzögerung und ermöglicht es dem Roboter, sich umgehend an den neuesten Umgebungszustand anzupassen, insbesondere bei dynamischen Objektbewegungen.
Um die fehlende Datengrundlage für die dynamische Manipulation zu schließen, wurde das Dynamic Object Manipulation (DOM) Benchmark entwickelt. Es wurde von Grund auf mit einer automatisierten Datenerfassungspipeline erstellt, die effizient 200.000 synthetische Episoden über 2.800 Szenen und 206 Objekte sammelt. Zusätzlich ermöglicht es die schnelle Erfassung von 2.000 realen Episoden ohne Teleoperation, was angesichts der hohen Geschwindigkeiten dynamischer Objekte, die menschliche Reaktionszeiten übersteigen, von großer Bedeutung ist.
Das Benchmark bewertet die dynamische Manipulationsfähigkeit entlang dreier Hauptdimensionen:
Umfassende Evaluierungen demonstrieren bemerkenswerte Verbesserungen der Reaktionsgeschwindigkeit, Wahrnehmung und Generalisierungsfähigkeit von DynamicVLA. Es positioniert sich als einheitliches Framework für die allgemeine dynamische Objektmanipulation über verschiedene Roboterkörper hinweg.
Im Vergleich zu bestehenden VLA-Modellen zeigt DynamicVLA eine signifikant höhere Erfolgsrate bei dynamischen Interaktionen. Während frühere VLAs bei dynamischen Bewegungen konsistent niedrige Erfolgsraten aufweisen, erreicht DynamicVLA beispielsweise 60,5 % bei der Closed-Loop-Reaktivität, 38,5 % bei der dynamischen Anpassung und 40,5 % bei der Langzeitsequenzierung. Dies entspricht einer Steigerung von 188,1 % bis 440,0 % gegenüber der besten Baseline.
Auch in der Wahrnehmungsdimension übertrifft DynamicVLA die Baselines deutlich. Die Fähigkeit, visuelle, räumliche und Bewegungshinweise in dynamischen Umgebungen zu interpretieren, ist entscheidend. Während die Leistung vieler VLAs in statischen Szenarien gut ist, verschlechtert sie sich in dynamischen Umgebungen erheblich, insbesondere bei der räumlichen und Bewegungsargumentation. DynamicVLA erzielt hier eine Erfolgsrate von 51,9 %, während die besten Baselines nur 11,7 % erreichen.
Die Generalisierungsfähigkeit von DynamicVLA auf unbekannte Objekte, neue 3D-Szenen und unbekannte Bewegungsmuster ist ebenfalls überlegen. Im Gegensatz zu früheren VLAs, die bei Verteilungsverschiebungen in Aussehen und Bewegungsmustern niedrige Erfolgsraten aufweisen, erreicht DynamicVLA deutlich höhere Gesamtleistungen.
Ablationsstudien zu DynamicVLA haben die Bedeutung der Designentscheidungen hervorgehoben:
Die Forschung zeigt, dass bei der dynamischen Objektmanipulation mit VLA-Modellen die primäre Fehlerquelle nicht in der perzeptuellen Ambiguität liegt, sondern in der zeitlichen Fehlausrichtung zwischen Beobachtung und Aktionsausführung. Dieses Problem wurde bei der statischen Manipulation weitgehend ignoriert.
DynamicVLA adressiert diese Fehlausrichtung durch ein kompaktes 0,4B-Backbone für hochfrequente Argumentation, Continuous Inference zur Überlappung von Denkprozessen und Ausführung sowie Latent-aware Action Streaming zur Sicherstellung zeitlich abgestimmter Aktionen. Die Entwicklung des DOM-Benchmarks mit automatisierten Datenerfassungspipelines in Simulation und realer Welt liefert die notwendigen Daten, um den Wahrnehmungs-Ausführungs-Gap zu reduzieren und ein reaktionsschnelleres Verhalten als herkömmliche VLA-Modelle zu ermöglichen.
Zukünftige Arbeiten könnten sich auf noch effizientere VLA-Architekturen konzentrieren, die ein Gleichgewicht zwischen multimodaler Verständnisfähigkeit und Reaktionsschnelligkeit finden. Eine Erweiterung auf längerfristige dynamische Verhaltensweisen, die Planung, Gedächtnis und Aufgabenzerlegung integrieren, sowie die Berücksichtigung nicht-starrer oder fluider Dynamiken stellen weitere Herausforderungen dar.
Die Entwicklung von DynamicVLA und der Einführung des DOM-Benchmarks markiert einen bedeutenden Schritt in der Robotik. Sie ermöglicht eine robustere und präzisere Interaktion von Robotern mit dynamischen Umgebungen, was für eine Vielzahl von Anwendungen, von der Fertigung bis zur Assistenz im Haushalt, von großer Bedeutung ist.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen