Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die kontinuierliche Weiterentwicklung künstlicher Intelligenzsysteme (KI) in der Verarbeitung und Interpretation komplexer visueller Daten ist ein zentraler Forschungsbereich. Insbesondere die Fähigkeit, räumliche Informationen aus sich ständig ändernden Videostreams zu erfassen und zu verstehen, stellt eine signifikante Herausforderung dar. Forscher von Tencent Hunyuan und der Tsinghua Universität haben nun eine innovative Methode namens "Spatial-TTT" vorgestellt, die darauf abzielt, die visuell-basierte räumliche Intelligenz von KI-Modellen durch Test-Time Training (TTT) zu revolutionieren.
Menschen sind in der Lage, ihre Umgebung durch eine kontinuierliche Abfolge visueller Beobachtungen wahrzunehmen und zu verstehen. Diese Fähigkeit, räumliche Beweise aus potenziell unbegrenzten Videostreams zu pflegen und zu aktualisieren, ist für die räumliche Intelligenz von entscheidender Bedeutung. Aktuelle multimodale große Sprachmodelle (MLLMs) zeigen zwar beeindruckende Ergebnisse im 2D-Verständnis, stoßen jedoch bei Aufgaben, die präzises 3D-räumliches Verständnis erfordern, an ihre Grenzen. Dies liegt primär an einem Mangel an 3D-geometrischen Vorkenntnissen, da diese Modelle oft auf 2D-Daten trainiert werden.
Die naive Erweiterung von Eingabesequenzen in MLLMs führt zu prohibitiven Rechenkosten aufgrund der quadratischen Komplexität der Aufmerksamkeitsmechanismen. Aggressives temporales Subsampling wiederum verwirft feinkörnige räumliche Details, die für eine genaue 3D-Argumentation entscheidend sind. Hier setzt Spatial-TTT an, um diese Herausforderungen zu überwinden.
Spatial-TTT ist ein neuartiges Framework, das auf dem Test-Time Training (TTT)-Paradigma basiert. Im Gegensatz zu herkömmlichen Modellen, deren Parameter nach dem Training fixiert sind, ermöglicht TTT eine dynamische Anpassung der Modellparameter während der Inferenz. Spatial-TTT nutzt adaptive "schnelle Gewichte", die online aktualisiert werden und als kompaktes, nicht-lineares Gedächtnis dienen, um 3D-Beweise aus unbegrenzten Videostreams zu akkumulieren.
Um die Kreuzmodalitätsausrichtung und die semantische Argumentationsfähigkeit vortrainierter MLLMs zu erhalten, setzt Spatial-TTT auf eine hybride Architektur. Diese verschränkt TTT-Schichten mit Standard-Self-Attention-Ankerschichten im Verhältnis 3:1. Die Ankerschichten gewährleisten den vollen Zugriff auf den gesamten Kontext und bewahren so die semantische Argumentationsfähigkeit des vortrainierten Modells. Gleichzeitig komprimieren die TTT-Schichten langreichweitige zeitliche Abhängigkeiten in adaptive schnelle Gewichte, was ein sublineares Speicherwachstum ermöglicht.
Ein weiterer Aspekt der Effizienz ist die Einführung einer "Large Chunk Update"-Strategie. Während herkömmliche TTT-Implementierungen kleine Datenblöcke (Chunks) von beispielsweise 16 oder 64 Token für häufige Aktualisierungen verwenden, was bei visuellen Streams zu geringer GPU-Auslastung führen kann, verwendet Spatial-TTT deutlich größere Chunks. Dies verbessert die Parallelität und Hardware-Effizienz erheblich und sorgt dafür, dass räumlich kohärente visuelle Inhalte innerhalb derselben Aktualisierungseinheit verbleiben. Ergänzend dazu wird eine "Sliding-Window Attention" (SWA) parallel eingesetzt, um die spatiotemporale Kontinuität innerhalb der Chunks zu gewährleisten.
Das Verständnis kontinuierlicher visueller Beobachtungen, bei denen sich Kameras bewegen, Perspektiven ändern und Objekte erscheinen oder verdeckt werden, erfordert die Erfassung lokaler Nachbarschaftsstrukturen. Herkömmliche TTT-Designs vernachlässigen oft diese spatiotemporale Struktur, indem sie Q-, K- und V-Vektoren (Query, Key, Value) durch punktweise lineare Projektionen erzeugen. Spatial-TTT integriert einen räumlich-prädiktiven Mechanismus, der leichte, tiefenweise 3D-Spatiotemporal-Faltungen auf die Q-, K- und V-Projektionen der TTT-Schichten anwendet. Dies ermöglicht es den schnellen Gewichten, prädiktive Abbildungen zwischen spatiotemporalem Kontext anstatt isolierter Token zu lernen, wodurch geometrische Korrespondenz und zeitliche Kontinuität in der räumlichen Wahrnehmung verbessert werden.
Die Effektivität von TTT hängt maßgeblich davon ab, wie gut das Modell lernt, die schnellen Gewichte so zu aktualisieren, dass relevante Informationen für zukünftige Zeitschritte erhalten bleiben. Bestehende Datensätze für räumliche Intelligenz bieten jedoch oft nur spärliche und lokale Supervision, was zu schwachen Gradientensignalen für das Lernen effektiver Aktualisierungsdynamiken führen kann.
Um dieses Defizit zu beheben, haben die Forscher ein dichtes Szenenbeschreibungs-Datenset erstellt. Dieses Datenset fordert das Modell auf, umfangreiche 3D-Szenenbeschreibungen zu generieren, die den globalen Kontext, Objekte und deren Anzahl sowie räumliche Beziehungen umfassen. Diese detaillierten Beschreibungen bieten eine reichhaltige Supervision, die das Training der schnellen Gewichte leitet, um strukturierte, szenenübergreifende räumliche Informationen über den Videostream hinweg zu speichern. Dies umfasst:
Das Training von Spatial-TTT erfolgt in einer zweistufigen progressiven Strategie:
Für die Inferenz wird ein dualer KV-Cache-Mechanismus (Key-Value-Cache) verwendet, der einen konstanten Speicherverbrauch gewährleistet. Ein Sliding-Window KV-Cache modelliert den lokalen Kontext, während ein TTT-Pending KV-Cache Key-Value-Paare für die Aktualisierung der schnellen Gewichte sammelt.
Die Evaluierung von Spatial-TTT erfolgte auf verschiedenen Benchmarks für räumliches Verständnis, darunter VSI-Bench und MindCube. Die Ergebnisse zeigen, dass Spatial-TTT eine überlegene Leistung im Vergleich zu proprietären und Open-Source-Modellen erzielt, selbst bei kompakter Modellgröße (2B Parameter). Insbesondere bei Aufgaben, die komplexes räumliches Denken, wie relative Richtungs- und Entfernungsabschätzung, Routenplanung und Raumgrößenabschätzung erfordern, zeigt das Modell deutliche Vorteile.
Auf dem VSI-Bench erreichte Spatial-TTT-2B eine durchschnittliche Genauigkeit von 64,4, was sowohl proprietäre als auch Open-Source-Baselines übertrifft. Bei MindCube-Tiny, einem Benchmark für feinkörnige räumliche Fähigkeiten unter wechselnden Ansichtspunkten und Okklusionen, erzielte Spatial-TTT eine Genauigkeit von 76,2, was eine Verbesserung von 12,3 bzw. 24,5 Prozentpunkten gegenüber den stärksten proprietären und Open-Source-Modellen darstellt.
Besonders hervorzuheben ist die Leistungsfähigkeit von Spatial-TTT bei der kontinuierlichen räumlichen Wahrnehmung über lange Videosequenzen (VSI-SUPER-Recall und VSI-SUPER-Count). Während andere Modelle bei längeren Videos aufgrund von Kontextbeschränkungen oder Speichermangel an Leistung verlieren oder ganz ausfallen, behält Spatial-TTT eine stabile Leistung bei. Dies unterstreicht die Fähigkeit des Modells, online Aktualisierungen durchzuführen und somit langfristige spatiotemporale Beweise kontinuierlich zu integrieren und zu speichern.
Ablationsstudien bestätigten die Wichtigkeit jedes einzelnen vorgeschlagenen Komponenten: Der räumlich-prädiktive Mechanismus, die dichte Szenenbeschreibungs-Supervision und die hybride TTT-Architektur trugen signifikant zur Gesamtleistung bei.
Eine Analyse des Speicherverbrauchs und der theoretischen TFLOPs (Tera Floating Point Operations per Second) zeigte, dass Spatial-TTT eine lineare Skalierbarkeit aufweist. Während bestehende Modelle wie Spatial-MLLM bei längeren Eingaben schnell an Speicher- und Rechengrenzen stoßen und Qwen3-VL-2B eine quadratische Komplexität zeigt, skaliert Spatial-TTT nahezu linear mit der Eingabelänge. Bei 1024 Frames konnte Spatial-TTT eine Reduzierung von über 40% sowohl bei den TFLOPs als auch beim Speicherverbrauch im Vergleich zu Qwen3-VL-2B erreichen. Diese Effizienz macht Spatial-TTT besonders geeignet für Streaming-Szenarien mit langer Kontextdauer.
Spatial-TTT stellt einen bedeutenden Fortschritt in der Entwicklung von KI-Systemen dar, die in der Lage sind, komplexe räumliche Informationen aus unbegrenzten Videostreams zu verstehen. Durch die Kombination von Test-Time Training mit einer hybriden Architektur, einem räumlich-prädiktiven Mechanismus und einer innovativen Datensupervision gelingt es, die Beschränkungen herkömmlicher MLLMs zu überwinden. Die lineare Skalierbarkeit des Ansatzes ist entscheidend für den Einsatz in realen Anwendungen wie Robotik, autonomem Fahren und erweiterter Realität. Die Forschung ebnet den Weg für MLLMs mit einem persistenten räumlichen Gedächtnis und einer robusteren sowie skalierbareren räumlichen Intelligenz.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen