MobilityBench als Maßstab für die Bewertung von Routenplanungs-Agenten in der KI-Forschung

Kategorien:

No items found.

Freigegeben:

February 27, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

MobilityBench: Ein neuer, skalierbarer Benchmark zur Bewertung von Routenplanungs-Agenten, die auf großen Sprachmodellen (LLMs) basieren.
Realitätsnahe Szenarien: Der Benchmark nutzt anonymisierte Nutzeranfragen von Amap aus verschiedenen Städten weltweit, um reale Mobilitätsszenarien abzubilden.
Reproduzierbarkeit: Ein deterministischer API-Replay-Sandbox eliminiert Umgebungsvariationen und gewährleistet reproduzierbare, Ende-zu-Ende-Bewertungen.
Mehrdimensionale Bewertung: Das Protokoll bewertet die Gültigkeit der Ergebnisse, das Verständnis von Anweisungen, die Planung, die Werkzeugnutzung und die Effizienz.
Herausforderungen für aktuelle Modelle: Obwohl Modelle bei grundlegenden Informationsabfragen und Routenplanung kompetent sind, zeigen sie deutliche Schwächen bei der präferenzbasierten Routenplanung.
Offene Ressourcen: Die Benchmark-Daten, das Bewertungstoolkit und die Dokumentation werden öffentlich zugänglich gemacht, um die Forschung zu fördern.

Die fortschreitende Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich großer Sprachmodelle (LLMs), eröffnet neue Möglichkeiten für die Optimierung alltäglicher Prozesse. Ein vielversprechendes Anwendungsfeld ist die Routenplanung, wo LLM-basierte Agenten das Potenzial haben, die menschliche Mobilität durch natürliche Sprachinteraktion und werkzeuggestützte Entscheidungsfindung zu revolutionieren. Die systematische Bewertung solcher Agenten in realen Mobilitätsszenarien stellt jedoch eine erhebliche Herausforderung dar, bedingt durch die Vielfalt der Routing-Anforderungen, die nicht-deterministische Natur von Kartendiensten und die begrenzte Reproduzierbarkeit von Testergebnissen.

MobilityBench: Ein neuer Standard für die Bewertung von Routenplanungs-Agenten

Um diesen Herausforderungen zu begegnen, wurde ein neuer, skalierbarer Benchmark namens MobilityBench entwickelt. Dieser Benchmark zielt darauf ab, eine standardisierte und reproduzierbare Methode zur Bewertung der Leistungsfähigkeit von LLM-basierten Routenplanungs-Agenten in realitätsnahen Umgebungen zu etablieren. MobilityBench basiert auf einer umfangreichen Sammlung anonymisierter Nutzeranfragen, die von Amap, einem führenden Kartendienst, gesammelt wurden. Diese Daten decken ein breites Spektrum von Routenplanungsabsichten in zahlreichen Städten weltweit ab, was die Relevanz und Anwendbarkeit des Benchmarks in verschiedenen geografischen Kontexten unterstreicht.

Architektur und Methodik

Ein Kernmerkmal von MobilityBench ist der Einsatz eines deterministischen API-Replay-Sandboxes. Diese Umgebung eliminiert die Variabilität, die typischerweise bei der Interaktion mit Live-Diensten auftritt, und ermöglicht so eine präzise und reproduzierbare Ende-zu-Ende-Bewertung der Agenten. Dies ist entscheidend, um die Auswirkungen von Modelländerungen oder Algorithmusverbesserungen objektiv messen zu können.

Das Bewertungsprotokoll von MobilityBench ist mehrdimensional angelegt und konzentriert sich auf die Gültigkeit der Ergebnisse. Ergänzt wird dies durch detaillierte Analysen des Verständnisses von Anweisungen, der Planungsqualität, der effektiven Nutzung von Werkzeugen und der Gesamteffizienz der Agenten. Dieser umfassende Ansatz ermöglicht eine tiefgehende Analyse des Verhaltens und der Leistungsmerkmale der getesteten Modelle.

Herausforderungen und Potenziale aktueller LLM-Agenten

Die Anwendung von MobilityBench zur Bewertung verschiedener LLM-basierter Routenplanungs-Agenten in unterschiedlichen realen Mobilitätsszenarien hat aufschlussreiche Ergebnisse geliefert. Es zeigt sich, dass aktuelle Modelle bei grundlegenden Informationsabfragen und standardmäßigen Routenplanungsaufgaben eine kompetente Leistung erbringen. Dies umfasst beispielsweise die Ermittlung der schnellsten Route zwischen zwei Punkten oder die Abfrage von Verkehrsinformationen.

Allerdings offenbaren die Analysen auch deutliche Schwächen bei der präferenzbasierten Routenplanung. Situationen, in denen Nutzer spezifische, oft komplexe Präferenzen angeben – wie das Vermeiden von Autobahnen, die Berücksichtigung bestimmter Sehenswürdigkeiten oder die Optimierung nach persönlichen Vorlieben wie "die landschaftlich schönste Route" –, stellen die Modelle vor erhebliche Schwierigkeiten. Dies deutet auf einen wesentlichen Verbesserungsbedarf in der Personalisierung von Mobilitätsanwendungen hin, wo das Verständnis und die Integration nuancierter Nutzerpräferenzen von entscheidender Bedeutung sind.

Beitrag zur Forschung und Entwicklung

Die Veröffentlichung der MobilityBench-Daten, des zugehörigen Bewertungstoolkits und der umfassenden Dokumentation ist ein wichtiger Schritt zur Förderung der Forschung und Entwicklung in diesem Bereich. Durch die Bereitstellung einer transparenten und zugänglichen Plattform können Forscher und Entwickler weltweit die Leistungsfähigkeit ihrer Routenplanungs-Agenten objektiv vergleichen und weiterentwickeln. Dies ist insbesondere für B2B-Zielgruppen relevant, die an der Implementierung und Optimierung von KI-gestützten Mobilitätslösungen interessiert sind.

Die Erkenntnisse aus MobilityBench tragen dazu bei, die aktuellen Grenzen von LLM-Agenten in komplexen, realen Mobilitätsszenarien aufzuzeigen. Gleichzeitig bieten sie eine klare Richtschnur für zukünftige Forschungsrichtungen, insbesondere im Hinblick auf die Verbesserung des Verständnisses von Nutzerpräferenzen und die Entwicklung robusterer Planungsalgorithmen. Die Arbeit unterstreicht die Notwendigkeit, über grundlegende Routenplanungsfunktionen hinauszugehen und sich auf die Entwicklung von Systemen zu konzentrieren, die in der Lage sind, die vielfältigen und oft subtilen Anforderungen menschlicher Mobilität umfassend zu adressieren.

Die kontinuierliche Weiterentwicklung solcher Benchmarks ist entscheidend, um den Fortschritt im Bereich der KI-gestützten Mobilität voranzutreiben und sicherzustellen, dass die entwickelten Lösungen den komplexen Anforderungen der realen Welt gerecht werden. Die offene Verfügbarkeit der Ressourcen von MobilityBench kann hierbei als Katalysator wirken und die Zusammenarbeit innerhalb der Forschungsgemeinschaft stärken.

Bibliography: - Song, Z., Zhang, J., Qin, C., Wang, C., Chen, C., Xu, L., Liu, K., Chu, X., & Zhu, H. (2026). MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios. arXiv preprint arXiv:2602.22638. - AMAP-ML. (2026). AMAP-ML/MobilityBench. GitHub. https://github.com/AMAP-ML/MobilityBench - Hugging Face. (2026). Daily Papers - Hugging Face. https://huggingface.co/papers/2602.22638 - Exa. (2026). Replan.city. https://replan.city/ - Heakl, A., Shaaban, Y. S., Takáč, M., Lahlou, S., & Iklassov, Z. (2025). SVRPBench: A Realistic Benchmark for Stochastic Vehicle Routing Problem. arXiv preprint arXiv:2505.21887v2. - Ma, Q., Guo, X., Zhong, W., He, Z., Su, Z., Ma, W., & Zhong, R. (2026). City-scale high-resolution traffic datasets with refined networks for hierarchical traffic control. Scientific Data. https://www.nature.com/articles/s41597-026-06892-2 - Feng, S., Zhu, H., Sun, H., Yan, X., He, L., Yang, J., Su, G., Li, B., Li, S., Wang, L., Shen, S., & Liu, H. X. (2026). Breaking through safety performance stagnation in autonomous vehicles with dense learning. Nature Communications. https://www.nature.com/articles/s41467-026-69761-x