Neue Methode zur Verbesserung der Belohnungsvorhersage in KI-Agenten durch faktorisierte Weltzustände

Kategorien:

No items found.

Freigegeben:

March 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Eine neue Methode namens StateFactory wurde entwickelt, um Belohnungsvorhersagen in KI-Agenten zu verbessern, indem sie Beobachtungen in hierarchische Objekt-Attribut-Strukturen umwandelt.
StateFactory ermöglicht eine präzisere Belohnungsgeneralisierung über verschiedene Domänen hinweg, selbst ohne spezifisches Training für neue Aufgaben.
Die Methode wurde auf einem neuen Benchmark-Datensatz namens RewardPrediction getestet, der fünf interaktive textbasierte Umgebungen umfasst und 2.454 einzigartige Trajektorien enthält.
StateFactory erreicht eine signifikant niedrigere EPIC-Distanz (ein Mass für den Vorhersagefehler) im Vergleich zu bestehenden Modellen wie VLWM-critic und LLM-as-a-Judge.
Die verbesserte Belohnungsqualität führt zu einer Steigerung der Planungsleistung von Agenten, mit bemerkenswerten Erfolgsraten in Umgebungen wie AlfWorld und ScienceWorld.
Die Forschungsarbeit hebt die Bedeutung strukturierter Weltzustandsrepräsentationen für die Entwicklung robuster und generalisierbarer KI-Agenten hervor.

Die Entwicklung von KI-Agenten, die in komplexen und dynamischen Umgebungen agieren und lernen können, stellt eine zentrale Herausforderung in der Forschung dar. Ein entscheidender Aspekt hierbei ist die Fähigkeit von Agenten, Handlungsergebnisse vorherzusagen und Aktionen zu wählen, die ein Belohnungssignal maximieren, das den Fortschritt zum Ziel anzeigt. Traditionelle Ansätze, die auf überwachtem Lernen von Belohnungsmodellen basieren, können jedoch anfällig für Verzerrungen durch Trainingsdaten sein und die Generalisierungsfähigkeit auf neue Ziele und Umgebungen einschränken. Vor diesem Hintergrund konzentriert sich die aktuelle Forschung auf Methoden, die eine robuste Belohnungsvorhersage über verschiedene Domänen hinweg ermöglichen, basierend auf präzisen Weltzustandsrepräsentationen.

Die Herausforderung der Belohnungsvorhersage und Generalisierung

In vielen realen Szenarien ist es für Agenten nicht praktikabel, umfangreiche Trial-and-Error-Prozesse durchzuführen, um explizite Belohnungssignale zu erhalten. Dies macht den Einsatz von Weltmodellen, die die Konsequenzen von Aktionen als zukünftige Weltzustände vorhersagen, unerlässlich, um das Lernen von Strategien oder die Planungssuche zu leiten. Um die Zustandsprognosen von Weltmodellen effektiv nutzen zu können, müssen Agenten beurteilen, inwieweit ein vorhergesagter Zustand mit dem Ziel übereinstimmt, typischerweise über eine skalare Belohnung. Die genaue Vorhersage solcher Belohnungen mit effektiver Generalisierung ist ein Forschungsgebiet von grosser Bedeutung.

Grenzen bestehender Ansätze

Der direkte Ansatz, Belohnungsmodelle mittels aufgabenspezifischer Überwachung zu trainieren, kann zu Überanpassung und geringer Generalisierungsfähigkeit in neuen Umgebungen führen. Eine vielversprechende Alternative besteht darin, den Aufgabenfortschritt durch Messung der semantischen Distanz zwischen dem aktuellen Zustand und dem gewünschten Zielzustand abzuschätzen. Dies vermeidet die explizite Belohnungsmodellierung und ermöglicht eine sogenannte Zero-Shot-Planung, also die Planung ohne vorheriges Training für eine spezifische Aufgabe.

Zwei wesentliche Engpässe bei der Verwendung von Weltzustandsdistanzen als Belohnungssignale sind jedoch zu nennen:

Konstruktion eines abstrakten Zustandsrepräsentationsraums: Es ist anspruchsvoll, einen solchen Raum zu schaffen, dessen Geometrie den Aufgabenfortschritt genau widerspiegelt. Bestehende Erfolge nutzen oft Repräsentationen von visuellen Grundlagenmodellen, die jedoch Schwierigkeiten haben, von kontinuierlicher Planung auf niedriger Ebene zu sprachbasierter Agentenplanung auf hoher Ebene zu generalisieren, insbesondere bei prozeduralen Aufgaben, die eine stärkere semantische und zeitliche Abstraktion erfordern.
Mangel an geeigneten Benchmarks für die Bewertung: Für Agenten, die im Textraum operieren, ist eine genaue Bewertung der Belohnungsqualität, insbesondere im Hinblick auf die feingranulare, schrittweise Annäherung an den Zielzustand, schwierig. Bestehende Datensätze konzentrieren sich hauptsächlich auf spärliche, ergebnisorientierte Belohnungen, was eine systematische Beurteilung der Belohnungsqualität und ihrer Rolle im Planungsprozess erschwert.

StateFactory: Eine innovative Lösung durch faktorisierte Weltzustände

Um diese Herausforderungen zu adressieren, wurde eine neue Methode zur Zustandsrepräsentation namens StateFactory vorgestellt. StateFactory ist ein semantisches Faktorisierungs-Framework, das Weltzustände in hierarchische Objekt-Attribut-Strukturen faktorisiert. Unstrukturierte Beobachtungen werden dabei mithilfe grosser Sprachmodelle (LLMs) in atomare semantische Faktoren zerlegt. Die Belohnungssignale werden dann auf natürliche Weise durch die Messung der semantischen Ähnlichkeit zwischen dem aktuellen und dem Zielzustand über eine hierarchische Routing-Methode geschätzt. Dieser Prozess destilliert unstrukturierte Beobachtungen effektiv zu kompakten Abstraktionen und verbessert so die Zero-Shot-Belohnungsgeneralisierung.

Der RewardPrediction Benchmark

Zur feingranularen Bewertung der Belohnungsvorhersage wurde der RewardPrediction Benchmark eingeführt. Dieser umfasst fünf interaktive Umgebungen:

AlfWorld: Für Robotik-Planung in Haushaltsumgebungen.
ScienceWorld: Für wissenschaftliches Denken und Experimente.
TextWorld: Für textbasierte Abenteuerspiele.
WebShop: Für die Navigation auf E-Commerce-Websites.
BlocksWorld: Für klassische Planung mit räumlicher Argumentation.

Der Benchmark enthält insgesamt 2.454 einzigartige Trajektorien, jede mit schrittweisen Aktions-Beobachtungs-Paaren und Ground-Truth-Belohnungen. Dies ermöglicht die Bewertung jeder vorhergesagten Belohnung mittels der EPIC-Distanz, einem Mass, das die feingranulare Grösseninformation für eine robuste Planung bewahrt.

Experimentelle Ergebnisse und Vorteile von StateFactory

Die Evaluierung von StateFactory auf dem RewardPrediction Benchmark zeigt signifikante Vorteile gegenüber etablierten Baselines, sowohl bei überwachten als auch bei repräsentationsfreien Methoden.

Vergleich mit überwachten und repräsentationsfreien Methoden

Überwachte Belohnungsmodelle: Diese Modelle zeigen eine starke Leistung in ihren Trainingsdomänen, erleben aber einen durchschnittlichen Fehleranstieg von 138 %, wenn sie auf ungesehene Aufgaben übertragen werden. Dies deutet auf eine Überanpassung an domänenspezifische Muster hin und unterstreicht die geringe Effektivität für die Zero-Shot-Generalisierung.
Repräsentationsfreie Methoden (z.B. LLM-as-a-Judge): Diese Ansätze vermeiden die Überanpassung, haben aber Schwierigkeiten mit der Kontinuität des Signals und der Robustheit in offenen Umgebungen. Obwohl sie die Fähigkeit besitzen, implizit einen Glaubenszustand aufrechtzuerhalten, bleiben die generierten Belohnungssignale diskret und volatil.
StateFactory: Diese Methode erreicht eine durchschnittliche EPIC-Distanz von 0,297. Dies ist nicht nur besser als die beste repräsentationsfreie Baseline (0,322), sondern übertrifft auch die Generalisierungsfähigkeit einzelner domänenbasierter überwachter Modelle. Bemerkenswert ist, dass diese Zero-Shot-Leistung dem vollständig überwachten oberen Grenzwert, der auf dem gesamten Datensatz trainiert wurde, nahekommt.

Beiträge zur Agentenplanung

Die überlegene Belohnungsvorhersage von StateFactory führt direkt zu einer verbesserten Planungsleistung von Agenten. Durch die Integration der Belohnungssignale von StateFactory in einen ReAct-Agenten (Reasoning + Acting) konnten signifikante Erfolgsraten erzielt werden:

AlfWorld: Eine Verbesserung der Erfolgsrate um +21,64 %.
ScienceWorld: Eine Steigerung der Erfolgsrate um +12,40 %.

Qualitative Analysen zeigen zudem, dass StateFactory die Agenten befähigt, "Argumentationsblockaden" zu überwinden, indem es eine kontinuierliche Belohnungsführung bietet. Dies ist besonders vorteilhaft für die Planung über längere Horizonte, wo reine Logik oft versagt.

Ablationsstudien und Schlüsselfaktoren

Umfassende Ablationsstudien beleuchten die einzelnen Komponenten von StateFactory und deren Beitrag zur Gesamtleistung:

Bedeutung der Abstraktion: Die Umwandlung von unstrukturierten Beobachtungen in extrahierte Textzustände führt zu einer signifikanten Reduzierung der EPIC-Distanz (von 0,57 auf 0,43). Dies bestätigt, dass Rohbeobachtungen übermässige Distraktoren enthalten, während die Zustandsgewinnung aufgabenrelevante Informationen isoliert.
Granularität der Faktorisierung: Objektzentrierte Zustände verbessern die Präzision, erreichen aber eine Obergrenze aufgrund von Attributverschränkungen. StateFactory überwindet dies durch die Verfeinerung der Granularität zu expliziten Objekt-Attribut-Zuständen, wodurch semantische Interferenzen eliminiert und die beste Leistung (0,30) erzielt wird.
Gezielte Interpretation: Die dynamische Zielinterpretation von StateFactory erweist sich als robust. Der minimale Unterschied zwischen Echtzeit-Inferenz und einer Offline-Baseline zeigt, dass die Methode Zielanforderungen effektiv wiederherstellt.
LLM-Backbone: Die Leistungsfähigkeit des zugrunde liegenden LLM-Backbones korreliert stark mit der Präzision der Ausrichtung. Sowohl die parametrische Skalierung als auch das Aktivieren von "Denkmodi" ("reasoning-enhanced modes") führen zu erheblichen Verbesserungen bei der Zerlegung komplexer Zustände.
Semantische Einbettungen: Die Qualität der semantischen Einbettungsmodelle ist entscheidend. Modelle mit höherer Triplet-basierter Genauigkeit (ein Mass für die diskriminative Kraft der Einbettung) führen zu überlegenen Ergebnissen bei der Belohnungsvorhersage.

Fazit

Die Forschung zeigt, dass strukturierte textbasierte Weltzustandsrepräsentationen eine genaue und generalisierbare Belohnungsvorhersage ermöglichen können. StateFactory, ein Zero-Shot-Framework, das Beobachtungen in hierarchische Objekt-Attribut-Strukturen faktorisiert, erzielt eine überlegene Vorhersagegenauigkeit. Diese zustandsgesteuerten Signale verbessern die Planungsleistung von Agenten erheblich und bieten eine effektive Anleitung für die strukturierte Suche, die auf physischen Beweisen basiert. Die Erkenntnisse aus dieser Arbeit sind von grosser Relevanz für die Weiterentwicklung von KI-Agenten, die in komplexen, dynamischen und textbasierten Umgebungen agieren sollen.

Bibliographie

Shen, Y., Chen, D., Hu, X., Mi, J., Zhao, H., Zhang, K., & Fung, P. (2026). Reward Prediction with Factorized World States. arXiv preprint arXiv:2603.09400.
Hugging Face. (2026). Daily Papers - Mar 11. Verfügbar unter: https://huggingface.co/papers/date/2026-03-11
knightnemo. (n.d.). Awesome-World-Models. GitHub Repository. Verfügbar unter: https://github.com/knightnemo/Awesome-World-Models
Hlynsson, H. D., & Wiskott, L. (2021). Reward prediction for representation learning and reward shaping. arXiv preprint arXiv:2105.03172.
Pathak, D., Agrawal, P., Efros, A. A., & Darrell, T. (2017). Curiosity-driven Exploration by Self-supervised Prediction. ICML. Verfügbar unter: https://pathak22.github.io/noreward-rl/
Wang, Y., Wang, Q., Yang, M., Gao, S., Xu, H., Jin, X., ... & Gool, L. V. (2025). Embodied World Models for Decision Making. NeurIPS Workshop. Verfügbar unter: https://neurips.cc/virtual/2025/workshop/109532
Liu, Y.-R., Huang, B., Zhu, Z., Tian, H., Gong, M., Yu, Y., & Zhang, K. (2023). Learning World Models with Identifiable Factorization. arXiv preprint arXiv:2306.06561.
Rodriguez-Sanchez, R., Allen, C., & Konidaris, G. (2025). From Pixels to Factors: Learning Independently Controllable State Variables for Reinforcement Learning. arXiv preprint arXiv:2510.02484.