Fortschritte in der Roboternavigation durch das neue Modell NavFoM

Kategorien:

No items found.

Freigegeben:

February 13, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Navigationsmodelle in der Robotik stehen vor der Herausforderung, unterschiedlichste Robotertypen und Aufgabenstellungen zu beherrschen.
Das neue Navigations-Grundlagenmodell NavFoM integriert visuelle und sprachliche Informationen, um eine breite Palette von Navigationsaufgaben zu lösen.
NavFoM verwendet eine vereinheitlichte Architektur, die Eingaben von verschiedenen Kameras verarbeitet und durch "Temporal-Viewpoint Indicator (TVI) Tokens" räumliche und zeitliche Informationen kodiert.
Eine "Budget-Aware Temporal Sampling (BATS)"-Strategie optimiert die Verarbeitung von Beobachtungsdaten, um Effizienz und Leistung zu gewährleisten.
Das Modell wurde mit einem umfangreichen Datensatz von 8 Millionen Navigationsbeispielen trainiert, die Quadrupäden, Drohnen, Radroboter und Fahrzeuge umfassen.
NavFoM erzielt in Benchmarks und realen Szenarien eine überzeugende Leistung, oft auf dem Niveau modernster spezialisierter Systeme, ohne spezifisches Fine-Tuning.
Die Fähigkeit zur Generalisierung über verschiedene Robotertypen und Aufgaben hinweg wird durch umfassende Tests belegt.

Einleitung: Die Herausforderung der vielseitigen Roboternavigation

Die Entwicklung intelligenter Roboter, die sich autonom in komplexen Umgebungen bewegen können, stellt eine zentrale Aufgabe in der künstlichen Intelligenz (KI) dar. Insbesondere die Navigation, also die Fähigkeit, eine Umgebung wahrzunehmen, mit ihr zu interagieren und dabei sprachlichen Anweisungen zu folgen, ist von grundlegender Bedeutung. Während große Vision-Language-Modelle (VLMs) in allgemeinen Aufgaben der Bild- und Sprachverarbeitung bemerkenswerte Fortschritte erzielt haben, bleibt ihre Generalisierungsfähigkeit in der Roboternavigation oft auf eng definierte Aufgabenbereiche und spezifische Architekturen beschränkt. Dies erschwert die Entwicklung von Robotern, die eine breite Palette von Navigationsszenarien in unterschiedlichen physischen Ausprägungen bewältigen können.

Ein aktueller technischer Bericht stellt ein neues Navigations-Grundlagenmodell namens NavFoM (Navigation Foundation Model) vor. Ziel dieses Modells ist es, die Navigation über verschiedene Robotertypen und Aufgaben hinweg zu vereinheitlichen. Durch ein Training mit Millionen von Navigationsbeispielen, die von Quadrupäden über Drohnen bis hin zu Radrobotern und Fahrzeugen reichen, und über diverse Aufgaben wie visuelle und sprachliche Navigation, Objektsuche, Zielverfolgung und autonomes Fahren, soll NavFoM eine umfassende Generalisierungsfähigkeit erlangen. Dieser Artikel beleuchtet die Kernaspekte dieses Modells, seine Architektur, Trainingsmethoden und die erzielten Ergebnisse im Detail.

Grundlagen und Motivation: Lücken in der aktuellen Roboternavigation

Die Navigation ist eine essenzielle Kompetenz für autonome Agenten. Sie erfordert ein tiefes Verständnis des Umweltkontexts und der Aufgabenanweisungen, die typischerweise über visuelle und sprachliche Beobachtungen vermittelt werden. Aktuelle VLM-Ansätze zeigen zwar beeindruckende "Zero-Shot"-Fähigkeiten in generellen Vision-Language-Aufgaben, doch ihre Anwendung in der Roboternavigation ist oft durch bestimmte Rahmenbedingungen limitiert. Dies betrifft sowohl die Architektur, die häufig an einen spezifischen Robotertyp gebunden ist, als auch die engen Aufgabenbereiche, für die diese Modelle optimiert wurden.

Die bisherige Forschung im Bereich der Roboternavigation konzentrierte sich oft auf isolierte Probleme. Bei der Navigation über verschiedene Aufgaben hinweg wurde meist eine konsistente Kamerakonfiguration des Roboters vorausgesetzt. Ansätze zur Navigation über verschiedene Robotertypen hinweg lernten implizit Vorkenntnisse über die physische Form des Roboters, waren jedoch auf spezifische Navigationsaufgaben beschränkt. Diese Divergenz zwischen Navigationsaufgaben und Robotertypen verdeutlicht den Bedarf an einem vereinheitlichenden Navigationsmodell, das in der Lage ist, unterschiedliche Aufgaben über eine Vielzahl von Robotern hinweg zu bewältigen.

NavFoM wurde entwickelt, um diese Lücke zu schließen. Es verfolgt das Ziel, ein "Generalistisches Navigationsmodell" zu schaffen, das sich durch seine Fähigkeit auszeichnet, aus einer breiten Palette von visuellen und sprachlichen Eingaben zu lernen und daraus ausführbare Trajektorien abzuleiten. Dies orientiert sich an der menschlichen Fähigkeit, vielfältige Navigationsaufgaben primär durch visuelle Wahrnehmung zu lösen.

Architektur von NavFoM: Integration von Vision, Sprache und Aktion

NavFoM basiert auf einer vereinheitlichten Architektur, die multimodale Navigationsinputs unterschiedlicher Kamerakonfigurationen und Navigationshorizonte verarbeitet. Es erweitert bestehende videobasierte Vision-Language-Modelle (VLMs) zu einer Dual-Branch-Architektur, die sowohl für Navigations- als auch für Frage-Antwort-Aufgaben konzipiert ist.

Beobachtungskodierung

Die Beobachtungskodierung ist der erste Schritt im Verarbeitungsprozess. Egocentrische RGB-Sequenzen, die von mehreren Kameras erfasst werden, werden mittels vortrainierter visueller Encoder (wie DINOv2 und SigLIP) in visuelle Merkmale umgewandelt. Um die Token-Anzahl zu reduzieren und die Recheneffizienz zu steigern, kommt eine Grid-Pooling-Strategie zum Einsatz. Diese erzeugt kompaktere Darstellungen der visuellen Features, sowohl fein- als auch grobkörnig, um aktuelle Beobachtungen und den Navigationsverlauf abzubilden. Anschließend werden diese visuellen Features durch einen Cross-Modality-Projektor in den latenten Raum des Large Language Models (LLM) projiziert.

Temporal-Viewpoint Indicator (TVI) Tokens

Ein zentrales Element der Architektur sind die Temporal-Viewpoint Indicator (TVI) Tokens. Diese Tokens sind entscheidend, da visuelle Tokens allein keine inhärenten Informationen über den Blickwinkel oder die zeitliche Abfolge enthalten. TVI-Tokens ermöglichen es dem LLM, zu erkennen, welche Tokens zu unterschiedlichen Zeitpunkten oder Kamerablickpunkten gehören. Sie bestehen aus drei Arten von Embeddings:

Angle Embedding (AnglePE): Bewahrt die zirkuläre Kontinuität azimutaler Winkel, um geometrische Nähe in der Distanzmetrik widerzuspiegeln.
Time Embedding (TimePE): Identifiziert eindeutig die zeitliche Reihenfolge der Frames über alle Kameraansichten hinweg und ist robust gegenüber unregelmäßigen Abtastintervallen.
Basis-Embedding (EBase): Dient als allgemeiner Indikator für visuelle Tokens.

Diese Tokens werden je nach Aufgabe (Bild-QA, Video-QA, Navigation) unterschiedlich kombiniert, um eine flexible Verarbeitung arbiträrer Kameraanordnungen zu ermöglichen und das Lernen des LLM zu erleichtern.

Budget-Aware Temporal Sampling (BATS)

Ein weiteres wichtiges Merkmal ist die Budget-Aware Temporal Sampling (BATS)-Strategie. Während der Navigation können dynamisch aufgenommene Videos eine übermäßige Anzahl visueller Tokens generieren, was die Inferenz- und Trainingszeit erhöht und den Einsatz in realen Umgebungen erschwert. BATS begegnet dieser Herausforderung, indem es Beobachtungs-Tokens dynamisch sammelt, basierend auf einer "Vergessenskurve" und einem vorgegebenen Token-Budget. Dies ermöglicht:

Die Einhaltung einer maximalen Token-Länge zur Optimierung der Inferenzgeschwindigkeit und des GPU-Speicherbedarfs.
Die Beibehaltung aktueller Informationen zur Verbesserung des Verständnisses und der Planung, während gleichzeitig ausreichend historischer Kontext für die Navigation bewahrt wird.
Eine direkte Anpassungsfähigkeit an eine variierende Anzahl von Kameras.

Diese Methode sorgt für ein ausgewogenes Verhältnis zwischen Leistung und Effizienz und gewährleistet eine stabile Inferenzgeschwindigkeit über den gesamten Navigationsprozess hinweg.

LLM-Weiterleitung und Trajektorienvorhersage

Nach der Organisation der visuellen und sprachlichen Tokens mittels TVI-Tokens werden diese dem LLM zugeführt. Für Navigationsaufgaben wird ein Planungsmodell (ein dreischichtiges MLP) verwendet, um Trajektorien zu extrahieren. Um die Divergenz in der Wegpunktverteilung zu vermeiden, werden die Trajektorien auf einen Bereich von [-1,1] normalisiert, wobei aufgabenspezifische Skalierungsfaktoren zum Einsatz kommen. Für Frage-Antwort-Aufgaben nutzt das Modell einen autoregressiven Ansatz zur Vorhersage des nächsten Tokens. Die Gesamtverlustfunktion kombiniert den Trajektorienverlust mit dem Cross-Entropy-Verlust für QA-Aufgaben.

Datensatz und Training: Skalierung für Generalisierung

Um die Generalisierungsfähigkeit von NavFoM zu gewährleisten, wurde ein umfangreicher und diversifizierter Datensatz für das Training verwendet. Dieser umfasste insgesamt 12,7 Millionen Instanzen, darunter 8,02 Millionen Navigationsbeispiele und 4,76 Millionen Frage-Antwort-Beispiele aus der realen Welt.

Umfang und Vielfalt der Navigationsdaten

Die Navigationsdaten wurden über verschiedene mobile Robotertypen (Radroboter, Quadrupäden, UAVs und Autos) hinweg gesammelt. Sie deckten eine breite Palette von Aufgaben ab, darunter:

Vision-and-Language Navigation (VLN): 3,37 Millionen Beispiele. Hierbei muss der Agent natürliche Sprachinstruktionen und egocentrische visuelle Beobachtungen interpretieren, um bestimmte Landmarken zu erreichen. Dies umfasste sowohl Innen- (VLN-CE R2R und RxR) als auch Außenumgebungen (OpenUAV).
Object Goal Navigation: 1,02 Millionen Beispiele. Der Roboter muss eine ungesehene Umgebung erkunden und ein beschriebenes Zielobjekt identifizieren.
Active Visual Tracking: 897.000 Beispiele. Der Roboter muss ein Ziel in dynamischen und belebten Umgebungen verfolgen, basierend auf textuellen Anweisungen.
Autonoumes Fahren: 681.000 Beispiele. Ein Agent muss eine sichere und kinematischnachvollziehbare Trajektorie in komplexen realen Umgebungen generieren.
Web-Video Navigation: 2,03 Millionen Beispiele. Nutzung des Sekai-Datensatzes mit YouTube-Videos, Anweisungen und Trajektorien zur Einbeziehung realer Navigationsszenarien.

Alle Navigationsdaten wurden vereinheitlicht gesammelt, inklusive Videos aus Einzel- und Mehrfachkameras, Anweisungen und vorhergesagten Trajektorien-Wegpunkten. Die Kamerahöhen und horizontalen Sichtfelder wurden randomisiert, um die Robustheit des Modells zu erhöhen.

Open-World Question-Answering (QA)

Zusätzlich zu den Navigationsdaten wurden 4,76 Millionen Open-World-Wissensbeispiele gesammelt, die aus bild- und videobasierten Frage-Antwort-Aufgaben stammen. Diese Daten sind entscheidend, um dem Modell ein umfassendes Verständnis der Welt zu vermitteln und die Fähigkeit zur Generalisierung zu verbessern.

Trainingskonfiguration

NavFoM wurde auf einem Clusterserver mit 56 NVIDIA H100 GPUs trainiert, was ungefähr 4.032 GPU-Stunden in Anspruch nahm. Für QA-Daten wurden alle Frames mit 1 FPS abgetastet, um Redundanzen zu reduzieren. Bei diskreten Navigationsdaten (z.B. Habitat-Umgebungen) wurde jeder Schritt nach einer diskreten Aktion abgetastet, während für kontinuierliche Navigationsumgebungen (z.B. autonomes Fahren) 2 FPS verwendet wurden. Die visuellen Encoder und das große Sprachmodell wurden mit ihren Standard-Pre-Trained-Gewichten initialisiert, und nur die trainierbaren Parameter wurden für eine einzelne Epoche feinjustiert.

Beschleunigung des Trainings durch Caching

Um die hohen Rechenkosten bei der Online-Kodierung aller Bilder in großen Batches zu mindern, wurde ein Mechanismus zum Caching visueller Features implementiert. Dabei wurden lediglich grobkörnige visuelle Tokens (4 Tokens pro Frame) zwischengespeichert, was den Speicherbedarf erheblich reduzierte. Für Bild-QA und die neuesten Beobachtungen in der Navigation wurden weiterhin feinkörnige visuelle Tokens (64 Tokens pro Frame) online extrahiert. Dieser Ansatz führte zu einer 2,9-fachen Beschleunigung der Trainingszeit und einer 1,8-fachen Reduzierung des GPU-Speicherverbrauchs.

Experimentelle Ergebnisse: Leistungsfähigkeit und Generalisierung

Die Leistungsfähigkeit von NavFoM wurde in umfangreichen Experimenten auf öffentlichen Benchmarks und in realen Umgebungen bewertet. Die Studien konzentrierten sich auf drei Hauptaspekte: die Leistung bei verschiedenen Navigationsaufgaben, die Leistung in realen Umgebungen und die Wirksamkeit der Designkomponenten.

Benchmark-Ergebnisse

Vision-and-Language Navigation (VLN): Auf den Benchmarks VLN-CE R2R und RxR erreichte NavFoM in Einzel- und Mehrfachkamera-Einstellungen (360°-Beobachtungen) eine "State-of-the-Art" (SOTA)-Leistung. Insbesondere in der anspruchsvollen Einzelansicht-Einstellung von VLN-CE RxR verbesserte das Modell die Erfolgsrate (SR) von 51,8 % auf 57,4 %. In Mehrkamera-Setups erreichte es mit nur vier RGB-Kameras eine SR von 64,4 %, was frühere SOTA-Methoden (56,3 % SR) übertraf, die auf RGB-D-Kameras und Odometriedaten angewiesen waren. Dies unterstreicht die Effektivität des Ansatzes und die Vorteile von Mehrkamera-Navigations-Grundlagenmodellen.

OpenUAV-Benchmark: In einem herausfordernden UAV-Szenario, das die Drohne zur Ausführung langer Trajektorien (durchschnittlich 200 Meter) in Außenumgebungen anwies, erreichte NavFoM ebenfalls eine SOTA-Leistung. Dies gelang, ohne auf abwärts gerichtete Kameras angewiesen zu sein, wie es bei früheren UAV-spezifischen Baselines der Fall war. Die Ergebnisse zeigten jedoch, dass alle Methoden auf dem "Unseen-Map"-Split, der eine durchschnittliche Traversierung von 300 Metern durch komplexe Umgebungen erforderte, schlechter abschnitten, was auf den Bedarf an höherwertigen UAV-Daten für die Erkundung großer Umgebungen hindeutet.

Objektzielnavigation (OVON): Bei der Objektsuche auf dem HM3D-OVON-Datensatz, einem Open-Vocabulary-Benchmark, zeigte NavFoM in einer "Zero-Shot"-Einstellung eine vergleichbare Leistung zu SOTA-Ansätzen in den VAL SEEN- und VAL SEEN SYNONYMS-Splits. Im anspruchsvolleren VAL UNSEEN-Split übertraf es die SOTA-Methode und verbesserte die Erfolgsrate von 40,8 % auf 43,6 %. Die kohärenten Verbesserungen beim Übergang von einer Einzel- zu einer Vier-Kamera-Einstellung zeigten die Generalisierungsfähigkeit über verschiedene Kamera-Setups hinweg.

Aktives Visuelles Tracking (EVT-Bench): Auf dem EVT-Bench erreichte NavFoM in der Einzelansicht-Einstellung eine SOTA-Leistung, die frühere spezialisierte Baselines übertraf. Auch bei einer Erhöhung der Kamera-Setups von Einzel- auf Vier-Ansicht (Zero-Shot) verbesserte sich die Leistung weiter, wenn auch mit moderateren Zuwächsen als bei VLN. Dies wurde auf die Platzierung der meisten Ziele vor dem Roboter in diesem Benchmark zurückgeführt.

Autonomes Fahren (NAVSIM und nuScenes): NavFoM zeigte auf beiden Benchmarks eine vergleichbare Leistung zu SOTA-Methoden, ohne explizit fahrbezogene Informationen wie Fahrbahnmarkierungen oder nahegelegene Fahrzeuge zu modellieren. Dies deutet auf das Potenzial hin, den Ansatz durch die Einbeziehung von Szenenbeschreibungen als Prompts weiter zu verbessern.

Leistung in realen Umgebungen

NavFoM wurde in 110 reproduzierbaren Testfällen in realen Umgebungen bewertet, darunter 50 VLN-Beispiele, 30 Suchbeispiele und 30 Tracking-Beispiele. Die Ergebnisse zeigten eine starke reale Leistung: Das Modell verstand die Umgebung korrekt und plante geeignete Trajektorien zur Aufgabenbewältigung. Im Vergleich zur Baseline Uni-NaVid zeigte NavFoM signifikante Verbesserungen in beiden Aufgabentypen. Erweiterte Experimente in anspruchsvolleren Szenarien mit verschiedenen Robotertypen (Quadrupäden, Humanoiden, Drohnen und Radrobotern) bestätigten die Fähigkeit des Modells, komplexe reale Umgebungen zu bewältigen und lange Anweisungen zu erfüllen.

Ablationsstudie

Synergie des Trainings mit mehreren Navigationsaufgaben: Die Untersuchung der synergistischen Effekte des Multi-Navigations-Aufgaben-Trainings zeigte, dass ein Co-Tuning mit Daten aus verschiedenen Navigationsaufgaben zu konsistenten Leistungsverbesserungen führte. Insbesondere bei Such- und Tracking-Aufgaben wurden signifikante Gewinne erzielt, was auf die Überwindung von Überanpassung an aufgabenspezifische Navigationsmuster hindeutet.

Leistung bei unterschiedlicher Kamerazahl: Eine Bewertung der Effektivität zusätzlicher Kameras bei VLN-CE RxR zeigte konsistente Leistungsverbesserungen beim Erhöhen der Kamerazahl von eins auf vier. Eine Ausweitung auf sechs Kameras führte jedoch zu einer leichten Leistungsminderung, was darauf hindeutet, dass mehr Kameras nicht unbedingt eine wesentlich größere Beobachtungsabdeckung bieten und die erhöhte Anzahl von Ansichts-Tokens die Kapazität zur Kodierung historischer Frames reduzieren kann.

Effektivität von BATS und TVI-Tokens: Ablationsstudien bestätigten die Wirksamkeit von BATS und TVI-Tokens. BATS übertraf andere Token-Strategien in verschiedenen Budgets, insbesondere bei der nDTW-Metrik. TVI-Tokens zeigten eine signifikant bessere Leistung als andere Alternativen, was auf die gut erlernten zeitlichen und Blickwinkel-Informationen zurückzuführen ist.

Diskussion und Fazit

NavFoM stellt einen Fortschritt in der Roboternavigation dar, indem es die Grenzen der Navigation erweitert und die Intelligenz aus Daten verschiedener Robotertypen und Aufgabenstellungen nutzt. Das Modell integriert Temporal-Viewpoint Indicator Tokens, um das Verständnis von variierenden Kamerakonfigurationen und unterschiedlichen Navigationshorizonten zu verbessern. Gleichzeitig ermöglicht es ein Co-Training mit Navigations- und Frage-Antwort-Daten.

Die Budget-Aware Temporal Sampling (BATS)-Strategie gleicht Navigationsleistung und Effizienz aus und bietet einen vereinheitlichten Ansatz für die Token-Abtastung über diverse Kamera-Setups und Aufgabenhorizonte hinweg. Die umfangreichen Experimente auf öffentlichen Benchmarks und in realen Umgebungen belegen die überzeugende Leistung von NavFoM und sein Potenzial für weitere Verbesserungen durch fortgeschrittenere Techniken oder höherwertige Daten.

Die Entwickler sehen NavFoM als einen Startpunkt für ein umfassendes Navigations-Grundlagenmodell. Sie hoffen, dass diese Arbeit die Aufmerksamkeit auf intelligenzgesteuerte Navigation lenkt und eine neue Generation von Techniken, Datensätzen und Benchmarks inspiriert. Dies könnte den Weg für noch vielseitigere und autonomere Robotersysteme ebnen.

Bibliographie

- Jiazhao Zhang, Anqi Li, Yunpeng Qi, Minghan Li, Jiahang Liu, Shaoan Wang, Haoran Liu, Gengze Zhou, Yuze Wu, Xingxing Li, Yuxin Fan, Wenjun Li, Zhibo Chen, Fei Gao, Qi Wu, Zhizheng Zhang, He Wang. (2025). Embodied Navigation Foundation Model. arXiv preprint arXiv:2509.12129. - Jiazhao Zhang, Kunyu Wang, Shaoan Wang, Minghan Li, Haoran Liu, Songlin Wei, Zhongyuan Wang, Zhizheng Zhang, He Wang. (2025). Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks. Robotics: Science and Systems. - Jinliang Zheng, Jianxiong Li, Dongxiu Liu, Yinan Zheng, Zhihao Wang, Zhonghong Ou, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan. (2025). Universal Actions for Enhanced Embodied Foundation Models. CVPR 2025. - Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai et al. (2025). ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation. arXiv preprint arXiv:2602.11598. - Ye Wang, Sipeng Zheng, Hao Luo, Wanpeng Zhang, Haoqi Yuan, Chaoyi Xu, Haiweng Xu, Yicheng Feng, Mingyang Yu, Zhiyu Kang, Zongqing Lu, Qin Jin. (2026). Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization. arXiv preprint arXiv:2602.09722. - Boqi Li, Siyuan Li, Weiyi Wang, Anran Li, Zhong Cao, Henry X. Liu. (2025). Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting. arXiv preprint arXiv:2509.20499. - Sui, Xiuchao, Tian, Daiying, Sun, Qi, Chen, Ruirui, Choi, Dongkyu, Kwok, Kenneth, Poria, Soujanya. (2025). From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems. Findings of the Association for Computational Linguistics: EMNLP 2025.