Innovative Methode zur Verbesserung der räumlichen Intelligenz in KI-Modellen durch Spatial-TTT

Kategorien:

No items found.

Freigegeben:

March 13, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Forschung von Tencent Hunyuan und der Tsinghua Universität stellt "Spatial-TTT" vor, eine Methode zur Verbesserung der räumlichen Intelligenz in KI-Modellen.
Spatial-TTT ermöglicht es KI-Modellen, räumliches Wissen aus langen, unbegrenzten Videostreams mittels Test-Time Training (TTT) effizient zu akkumulieren und zu verwalten.
Ein hybrides Architekturdesign kombiniert TTT-Schichten mit Standard-Self-Attention-Schichten, um vortrainiertes Wissen zu bewahren und gleichzeitig lange Kontexte zu verarbeiten.
Der Ansatz nutzt adaptive "schnelle Gewichte" und einen räumlich-prädiktiven Mechanismus mit 3D-Spatiotemporal-Faltung, um geometrische Korrespondenz und zeitliche Kontinuität zu erfassen.
Ein neues, dichtes Szenenbeschreibungs-Datenset wurde entwickelt, um das Training der schnellen Gewichte für eine strukturierte 3D-Gedächtnisbildung zu leiten.
Spatial-TTT erzielt in Experimenten auf räumlichen Videobenchmarks eine überlegene Leistung und demonstriert eine lineare Skalierbarkeit des Speicher- und Rechenaufwands.

Die kontinuierliche Weiterentwicklung künstlicher Intelligenzsysteme (KI) in der Verarbeitung und Interpretation komplexer visueller Daten ist ein zentraler Forschungsbereich. Insbesondere die Fähigkeit, räumliche Informationen aus sich ständig ändernden Videostreams zu erfassen und zu verstehen, stellt eine signifikante Herausforderung dar. Forscher von Tencent Hunyuan und der Tsinghua Universität haben nun eine innovative Methode namens "Spatial-TTT" vorgestellt, die darauf abzielt, die visuell-basierte räumliche Intelligenz von KI-Modellen durch Test-Time Training (TTT) zu revolutionieren.

Die Herausforderung der räumlichen Intelligenz in Videostreams

Menschen sind in der Lage, ihre Umgebung durch eine kontinuierliche Abfolge visueller Beobachtungen wahrzunehmen und zu verstehen. Diese Fähigkeit, räumliche Beweise aus potenziell unbegrenzten Videostreams zu pflegen und zu aktualisieren, ist für die räumliche Intelligenz von entscheidender Bedeutung. Aktuelle multimodale große Sprachmodelle (MLLMs) zeigen zwar beeindruckende Ergebnisse im 2D-Verständnis, stoßen jedoch bei Aufgaben, die präzises 3D-räumliches Verständnis erfordern, an ihre Grenzen. Dies liegt primär an einem Mangel an 3D-geometrischen Vorkenntnissen, da diese Modelle oft auf 2D-Daten trainiert werden.

Die naive Erweiterung von Eingabesequenzen in MLLMs führt zu prohibitiven Rechenkosten aufgrund der quadratischen Komplexität der Aufmerksamkeitsmechanismen. Aggressives temporales Subsampling wiederum verwirft feinkörnige räumliche Details, die für eine genaue 3D-Argumentation entscheidend sind. Hier setzt Spatial-TTT an, um diese Herausforderungen zu überwinden.

Spatial-TTT: Ein Paradigmenwechsel durch Test-Time Training

Spatial-TTT ist ein neuartiges Framework, das auf dem Test-Time Training (TTT)-Paradigma basiert. Im Gegensatz zu herkömmlichen Modellen, deren Parameter nach dem Training fixiert sind, ermöglicht TTT eine dynamische Anpassung der Modellparameter während der Inferenz. Spatial-TTT nutzt adaptive "schnelle Gewichte", die online aktualisiert werden und als kompaktes, nicht-lineares Gedächtnis dienen, um 3D-Beweise aus unbegrenzten Videostreams zu akkumulieren.

Hybride Architektur und effiziente Verarbeitung

Um die Kreuzmodalitätsausrichtung und die semantische Argumentationsfähigkeit vortrainierter MLLMs zu erhalten, setzt Spatial-TTT auf eine hybride Architektur. Diese verschränkt TTT-Schichten mit Standard-Self-Attention-Ankerschichten im Verhältnis 3:1. Die Ankerschichten gewährleisten den vollen Zugriff auf den gesamten Kontext und bewahren so die semantische Argumentationsfähigkeit des vortrainierten Modells. Gleichzeitig komprimieren die TTT-Schichten langreichweitige zeitliche Abhängigkeiten in adaptive schnelle Gewichte, was ein sublineares Speicherwachstum ermöglicht.

Ein weiterer Aspekt der Effizienz ist die Einführung einer "Large Chunk Update"-Strategie. Während herkömmliche TTT-Implementierungen kleine Datenblöcke (Chunks) von beispielsweise 16 oder 64 Token für häufige Aktualisierungen verwenden, was bei visuellen Streams zu geringer GPU-Auslastung führen kann, verwendet Spatial-TTT deutlich größere Chunks. Dies verbessert die Parallelität und Hardware-Effizienz erheblich und sorgt dafür, dass räumlich kohärente visuelle Inhalte innerhalb derselben Aktualisierungseinheit verbleiben. Ergänzend dazu wird eine "Sliding-Window Attention" (SWA) parallel eingesetzt, um die spatiotemporale Kontinuität innerhalb der Chunks zu gewährleisten.

Räumlich-prädiktiver Mechanismus

Das Verständnis kontinuierlicher visueller Beobachtungen, bei denen sich Kameras bewegen, Perspektiven ändern und Objekte erscheinen oder verdeckt werden, erfordert die Erfassung lokaler Nachbarschaftsstrukturen. Herkömmliche TTT-Designs vernachlässigen oft diese spatiotemporale Struktur, indem sie Q-, K- und V-Vektoren (Query, Key, Value) durch punktweise lineare Projektionen erzeugen. Spatial-TTT integriert einen räumlich-prädiktiven Mechanismus, der leichte, tiefenweise 3D-Spatiotemporal-Faltungen auf die Q-, K- und V-Projektionen der TTT-Schichten anwendet. Dies ermöglicht es den schnellen Gewichten, prädiktive Abbildungen zwischen spatiotemporalem Kontext anstatt isolierter Token zu lernen, wodurch geometrische Korrespondenz und zeitliche Kontinuität in der räumlichen Wahrnehmung verbessert werden.

Überbrückung spärlicher räumlicher Supervision mit dichten Szenenbeschreibungen

Die Effektivität von TTT hängt maßgeblich davon ab, wie gut das Modell lernt, die schnellen Gewichte so zu aktualisieren, dass relevante Informationen für zukünftige Zeitschritte erhalten bleiben. Bestehende Datensätze für räumliche Intelligenz bieten jedoch oft nur spärliche und lokale Supervision, was zu schwachen Gradientensignalen für das Lernen effektiver Aktualisierungsdynamiken führen kann.

Um dieses Defizit zu beheben, haben die Forscher ein dichtes Szenenbeschreibungs-Datenset erstellt. Dieses Datenset fordert das Modell auf, umfangreiche 3D-Szenenbeschreibungen zu generieren, die den globalen Kontext, Objekte und deren Anzahl sowie räumliche Beziehungen umfassen. Diese detaillierten Beschreibungen bieten eine reichhaltige Supervision, die das Training der schnellen Gewichte leitet, um strukturierte, szenenübergreifende räumliche Informationen über den Videostream hinweg zu speichern. Dies umfasst:

Globaler Kontext: Identifizierung des Szenentyps und der funktionalen Umgebung.
Objekte und Anzahl: Aufzählung von Objektkategorien und präzisen Anzahlen.
Objektbeziehungen: Beschreibung räumlicher Anordnungen und paarweiser Beziehungen.

Räumlich-bewusste progressive Trainingsstrategie

Das Training von Spatial-TTT erfolgt in einer zweistufigen progressiven Strategie:

Initialisierung der schnellen Gewichte mit globaler 3D-Wahrnehmung: In dieser Phase wird die hybride TTT-Architektur mit dem dichten Szenenbeschreibungs-Datenset trainiert. Eine "Sliding-Window Annealing"-Strategie wird angewendet, bei der die Fenstergröße schrittweise reduziert wird. Dies zwingt die TTT-Schichten, mehr Verantwortung für die informationsübergreifende Propagierung zwischen Chunks zu übernehmen und die schnellen Gewichte zu lehren, globale 3D-Szenenstrukturen zu kodieren.
Feinabstimmung der Streaming-Fähigkeit: Im zweiten Schritt wird das Modell mit einem großen Datensatz von räumlichen VQA-Proben (Visual Question Answering) feinabgestimmt. Dies fördert die Fähigkeit des Modells, relevante räumliche Beweise selektiv zu speichern und akkumuliertes räumliches Wissen für die Argumentation abzurufen.

Für die Inferenz wird ein dualer KV-Cache-Mechanismus (Key-Value-Cache) verwendet, der einen konstanten Speicherverbrauch gewährleistet. Ein Sliding-Window KV-Cache modelliert den lokalen Kontext, während ein TTT-Pending KV-Cache Key-Value-Paare für die Aktualisierung der schnellen Gewichte sammelt.

Experimentelle Ergebnisse und Leistungsanalyse

Die Evaluierung von Spatial-TTT erfolgte auf verschiedenen Benchmarks für räumliches Verständnis, darunter VSI-Bench und MindCube. Die Ergebnisse zeigen, dass Spatial-TTT eine überlegene Leistung im Vergleich zu proprietären und Open-Source-Modellen erzielt, selbst bei kompakter Modellgröße (2B Parameter). Insbesondere bei Aufgaben, die komplexes räumliches Denken, wie relative Richtungs- und Entfernungsabschätzung, Routenplanung und Raumgrößenabschätzung erfordern, zeigt das Modell deutliche Vorteile.

Auf dem VSI-Bench erreichte Spatial-TTT-2B eine durchschnittliche Genauigkeit von 64,4, was sowohl proprietäre als auch Open-Source-Baselines übertrifft. Bei MindCube-Tiny, einem Benchmark für feinkörnige räumliche Fähigkeiten unter wechselnden Ansichtspunkten und Okklusionen, erzielte Spatial-TTT eine Genauigkeit von 76,2, was eine Verbesserung von 12,3 bzw. 24,5 Prozentpunkten gegenüber den stärksten proprietären und Open-Source-Modellen darstellt.

Besonders hervorzuheben ist die Leistungsfähigkeit von Spatial-TTT bei der kontinuierlichen räumlichen Wahrnehmung über lange Videosequenzen (VSI-SUPER-Recall und VSI-SUPER-Count). Während andere Modelle bei längeren Videos aufgrund von Kontextbeschränkungen oder Speichermangel an Leistung verlieren oder ganz ausfallen, behält Spatial-TTT eine stabile Leistung bei. Dies unterstreicht die Fähigkeit des Modells, online Aktualisierungen durchzuführen und somit langfristige spatiotemporale Beweise kontinuierlich zu integrieren und zu speichern.

Ablationsstudien und Effizienzanalyse

Ablationsstudien bestätigten die Wichtigkeit jedes einzelnen vorgeschlagenen Komponenten: Der räumlich-prädiktive Mechanismus, die dichte Szenenbeschreibungs-Supervision und die hybride TTT-Architektur trugen signifikant zur Gesamtleistung bei.

Eine Analyse des Speicherverbrauchs und der theoretischen TFLOPs (Tera Floating Point Operations per Second) zeigte, dass Spatial-TTT eine lineare Skalierbarkeit aufweist. Während bestehende Modelle wie Spatial-MLLM bei längeren Eingaben schnell an Speicher- und Rechengrenzen stoßen und Qwen3-VL-2B eine quadratische Komplexität zeigt, skaliert Spatial-TTT nahezu linear mit der Eingabelänge. Bei 1024 Frames konnte Spatial-TTT eine Reduzierung von über 40% sowohl bei den TFLOPs als auch beim Speicherverbrauch im Vergleich zu Qwen3-VL-2B erreichen. Diese Effizienz macht Spatial-TTT besonders geeignet für Streaming-Szenarien mit langer Kontextdauer.

Fazit und Ausblick

Spatial-TTT stellt einen bedeutenden Fortschritt in der Entwicklung von KI-Systemen dar, die in der Lage sind, komplexe räumliche Informationen aus unbegrenzten Videostreams zu verstehen. Durch die Kombination von Test-Time Training mit einer hybriden Architektur, einem räumlich-prädiktiven Mechanismus und einer innovativen Datensupervision gelingt es, die Beschränkungen herkömmlicher MLLMs zu überwinden. Die lineare Skalierbarkeit des Ansatzes ist entscheidend für den Einsatz in realen Anwendungen wie Robotik, autonomem Fahren und erweiterter Realität. Die Forschung ebnet den Weg für MLLMs mit einem persistenten räumlichen Gedächtnis und einer robusteren sowie skalierbareren räumlichen Intelligenz.

Bibliographie

- Liu, F., Wu, D., Chi, J., Cai, Y., Hung, Y.-H., Yu, X., Li, H., Hu, H., Rao, Y., & Duan, Y. (2026). Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training. arXiv preprint arXiv:2603.12255. - Zhang, T., Bi, S., Hong, Y., Zhang, K., Luan, F., Yang, S., Sunkavalli, K., Freeman, W. T., & Tan, H. (2025). Test-Time Training Done Right. arXiv preprint arXiv:2505.23884. - Sun, Y., Wang, X., Liu, Z., Miller, J., Efros, A., & Hardt, M. (2020). Test-Time Training with Self-Supervision for Generalization Under Distribution Shifts. International Conference on Machine Learning, 9229–9248. - Wang, R., Sun, Y., Tandon, A., Gandelsman, Y., Chen, X., Efros, A. A., & Wang, X. (2023). Test-Time Training on Video Streams. arXiv preprint arXiv:2307.05014. - Yang, J., Yang, S., Gupta, A. W., Han, R., Fei-Fei, L., & Xie, S. (2025a). Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10632–10643. - Yin, B., Wang, Q., Zhang, P., Zhang, J., Wang, K., Wang, Z., Zhang, J., Chandrasegaran, K., Liu, H., & Krishna, R. (2025). Spatial Mental Modeling From Limited Views. Structural Priors for Vision Workshop at ICCV’25. - Bai, S., Cai, Y., Chen, R., Chen, K., Chen, X., Cheng, Z., Deng, L., Ding, W., Gao, C., Ge, C., Ge, W., Guo, Z., Huang, Q., Huang, J., Huang, F., Hui, B., Jiang, S., Li, Z., Li, M., Li, M., Li, K., Lin, Z., Lin, J., Liu, X., Liu, J., Liu, C., Liu, Y., Liu, D., Liu, S., Lu, D., Luo, R., Lv, C., Men, R., Meng, L., Ren, X., Ren, X., Song, S., Sun, Y., Tang, J., Tu, J., Wan, J., Wang, P., Wang, P., Wang, Q., Wang, Y., Xie, T., Xu, Y., Xu, H., Xu, J., Yang, Z., Yang, M., Yang, J., Yang, A., Yu, B., Zhang, F., Zhang, H., Zhang, X., Zheng, B., Zhong, H., Zhou, J., Zhou, F., Zhou, J., Zhu, Y., & Zhu, K. (2025a). Qwen3-VL Technical Report. arXiv preprint arXiv:2511.21631. - Wu, D., Liu, F., Hung, Y.-H., & Duan, Y. (2025a). Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence. arXiv preprint arXiv:2505.23747.