Fortschritte im Agentic Reinforcement Learning durch strukturiertes Feedback und neue Bewertungsmodelle

Kategorien:

No items found.

Freigegeben:

January 30, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Agentic Reinforcement Learning (Agentic RL) ist ein vielversprechender Ansatz, steht jedoch vor Herausforderungen bei der Bewertung der Qualität von Zwischenschritten.
Ein neu entwickeltes "Agent Reasoning Reward Model" (Agent-RRM) bietet strukturiertes Feedback durch explizite Begründungsspuren, gezielte Kritik und eine Gesamtbewertung.
Drei Integrationsstrategien (Reagent-C, Reagent-R, Reagent-U) wurden untersucht, um dieses Feedback in Agentic RL zu nutzen.
Reagent-U, das eine vereinheitlichte Integration von skalaren Belohnungen und textueller Kritik verwendet, zeigt signifikante Leistungssteigerungen über diverse Benchmarks hinweg.
Die Forschung unterstreicht die Notwendigkeit von granularerem und prozessorientiertem Feedback zur Verbesserung der Agentenleistung in komplexen Aufgaben.

Die Entwicklung intelligenter Agenten, die in der Lage sind, komplexe Aufgaben in dynamischen Umgebungen zu lösen, stellt eine zentrale Herausforderung in der Künstlichen Intelligenz dar. Insbesondere im Bereich des Agentic Reinforcement Learning (Agentic RL) wurden bemerkenswerte Fortschritte erzielt, indem Agenten die Fähigkeit verliehen wurde, komplexe Denkprozesse und den Einsatz von Werkzeugen zu meistern. Eine aktuelle Studie beleuchtet jedoch eine entscheidende Limitation vieler bestehender Ansätze: die Abhängigkeit von spärlichen, ergebnisbasierten Belohnungen, die die Qualität von Zwischenschritten im Denkprozess nicht ausreichend differenzieren können. Dies führt oft zu suboptimalen Trainingsergebnissen und bremst die Entwicklung robuster und vielseitiger Agenten.

Die Herausforderung spärlicher Belohnungen im Agentic RL

Herkömmliche Methoden im Agentic RL stützen sich häufig auf Belohnungen, die lediglich den endgültigen Erfolg oder Misserfolg einer Aufgabe bewerten. Bei komplexen Aufgaben, die mehrere Schritte und den Einsatz verschiedener Werkzeuge erfordern, ist diese Art von Feedback jedoch unzureichend. Ein Agent, der einen langen Lösungsweg verfolgt und erst im letzten Schritt scheitert, erhält die gleiche negative Belohnung wie ein Agent, dessen Ansatz von Anfang an fehlerhaft war. Dies verdeckt den Wert erfolgreicher Zwischenschritte und erschwert es dem Agenten, aus seinen Fehlern zu lernen und seine Strategien effektiv zu verfeinern.

Die Integration von Reward Models in Agentic RL wurde bereits in der Forschung adressiert, stößt aber auf zwei wesentliche Engpässe. Erstens sind schrittweise Belohnungen, die eine feinere Granularität bieten, oft mit prohibitiven Annotationskosten verbunden und anfällig für "Reward Hacking" – das Ausnutzen des Belohnungssystems auf unerwünschte Weise. Zweitens konzentrieren sich bestehende reasoning-basierte Reward Models zumeist auf paarweise Präferenzen, was zu inhärenten Verzerrungen führen und keine detaillierte Qualitätsabstufung zwischen Trajektorien oder konkrete Anleitung zur Verfeinerung bieten kann. Zudem bleibt die Nutzung von natürlicher Sprachkritik, die detailliertere Hinweise geben könnte, weitgehend unerschlossen.

Agent-RRM: Ein vielschichtiges Belohnungsmodell für Agenten

Um diese Lücke zu schließen, wurde das "Agent Reasoning Reward Model" (Agent-RRM) entwickelt. Dieses vielschichtige Bewertungsmodell ist darauf ausgelegt, ein reasoning-bewusstes Feedback für Agenten-Trajektorien zu liefern, das über einfache skalare Bewertungen hinausgeht. Agent-RRM generiert für jede Trajektorie ein dreiteiliges, strukturiertes Feedback:

Explizite Begründungsspur: Eine interne Analyse der logischen Konsistenz der Trajektorie.
Gezielte Kritik: Eine präzise Benennung spezifischer Mängel, die als Leitfaden zur Verfeinerung dienen.
Holistischer Qualitäts-Score: Eine Gesamtbewertung der Prozessleistung.

Dieses hierarchische Signalsystem bietet eine dichte, mehrdimensionale Überwachung. Es kombiniert skalare Belohnungen für die globale Optimierung mit textuellen Kritiken zur expliziten Fehlerkorrektur, und das alles ohne die Notwendigkeit von Ground-Truth-Antworten.

Integrationsstrategien von Agent-RRM in Agentic RL

Aufbauend auf diesen informativen Signalen wurde eine systematische Untersuchung zur Integration von Agent-RRM und Agentic RL durchgeführt. Drei Varianten wurden formalisiert:

Text-augmented Refinement (Reagent-C)

Diese Variante nutzt textuelle Kritiken von Agent-RRM zur verfeinerungsbasierten Anpassung ohne zusätzliches Training. Der Agent generiert eine erste Antwort, Agent-RRM analysiert diese und erstellt eine gezielte Kritik. Der Agent führt dann einen verfeinerten Durchlauf durch, der auf diesem Feedback basiert. Die Politik des Agenten bleibt dabei unverändert, was die Isolierung und Bewertung der In-Context-Verfeinerungsfähigkeit des Agenten ermöglicht.

Reward-augmented Guidance (Reagent-R)

Hierbei wird der skalare Score von Agent-RRM verwendet, um detaillierte Qualitätsbewertungen von Agenten-Trajektorien zu liefern. Die Belohnung setzt sich aus einer regelbasierten Korrektheitsbewertung und der modellbasierten Qualitätsbewertung von Agent-RRM zusammen. Dies mildert die Spärlichkeit regelbasierter Belohnungen, indem es reasoning-bewusstes Feedback liefert und dem Agenten ermöglicht, ein feineres Spektrum der Trajektorienqualität zu erfassen.

Unified Feedback Integration (Reagent-U)

Diese Variante harmonisiert skalare Belohnungen und textuelle, kritikgetriebene Verfeinerung innerhalb eines vereinheitlichten Reinforcement Learning (RL)-Loops. Durch die gleichzeitige Optimierung der anfänglichen Generierungsqualität und der Verfeinerungsfähigkeit wird untersucht, ob diese Ziele durch gegenseitige Verstärkung synergetische Verbesserungen erzielen können. Reagent-U normalisiert die Vorteile über alle anfänglichen und verfeinerten Trajektorien hinweg, was den Agenten dazu anregt, die Gesamtqualität der Trajektorie zu optimieren.

Experimentelle Ergebnisse und deren Implikationen

Umfassende Evaluierungen auf 12 verschiedenen Benchmarks zeigten, dass Reagent-U signifikante Leistungssprünge erzielt, beispielsweise 43,7 % auf GAIA und 46,2 % auf WebWalkerQA. Diese Ergebnisse bestätigen die Effektivität des Reasoning-Reward-Modells und der Trainingsschemata.

Reagent-C (Text-augmented Refinement): Diese Variante zeigte konsistente Leistungssteigerungen über alle Benchmarks hinweg, ohne dass Parameter aktualisiert werden mussten. Die Verbesserungen waren besonders ausgeprägt im mathematischen Denken, aber auch in allgemeinen agentischen und wissensintensiven Aufgaben. Dies wird der diagnostischen Fähigkeit von Agent-RRM zugeschrieben, logische Fehlschlüsse und Werkzeugausführungsfehler präzise zu identifizieren.

Reagent-R (Reward-augmented Guidance): Diese Variante übertraf die regelbasierte Baseline (Reagent ohne Agent-RRM) konsistent. Die holistischen, modellbasierten Belohnungen lieferten informativeres Feedback für komplexe, mehrstufige Denkprozesse, bei denen spärliche binäre Ergebnisse oft eine zu grobe und begrenzte Lernanleitung bieten.

Reagent-U (Unified Feedback Integration): Die vereinheitlichte Feedback-Integration in Reagent-U übertraf alle Baselines über ein vielfältiges Spektrum von Reasoning- und Agentic-Benchmarks. Dies deutet darauf hin, dass die Integration von skalaren Belohnungen und textueller Kritik dem Agenten ermöglicht, eine ausgefeiltere Politik über komplexe, heterogene Aufgaben hinweg zu internalisieren.

Die Studie untersuchte auch die Leistung von Reagent-U jenseits reiner Textaufgaben, einschliesslich multimodaler Reasoning- und komplexer Werkzeugnutzungsaufgaben. Reagent-U zeigte dabei eine vielseitige agentische Intelligenz, die über ein breites Aufgabenspektrum hinweg generalisiert, anstatt nur auf spezifische textbasierte Anforderungen zu überpassen.

Zukünftige Perspektiven und Limitationen

Obwohl die vorgestellten Ergebnisse vielversprechend sind, gibt es auch Limitationen. Die aktuellen Experimente konzentrieren sich hauptsächlich auf Modelle mit der Grösse von 8 Milliarden Parametern. Das Skalierungsverhalten auf grössere Modelle muss noch weiter erforscht werden. Zukünftige Arbeiten könnten untersuchen, wie leistungsfähigere Basismodelle die Vorteile von strukturiertem Reasoning-Feedback weiter verstärken könnten. Des Weiteren ist es entscheidend, über standardisierte Benchmarks hinauszugehen und breitere Werkzeugsätze sowie komplexere Reasoning-Ketten zu berücksichtigen. Die Anwendung in offenen, realen Szenarien, wie beispielsweise im Bereich der KI für die Wissenschaft, könnte die Anpassungsfähigkeit des Schemas weiter validieren.

Die Forschung zeigt, dass die Bereitstellung von mehrschichtigem Feedback, das sowohl diagnostische Textkritiken als auch modellbasierte Belohnungen umfasst, die Fähigkeit von Agenten, komplexe Aufgaben zu lösen, erheblich verbessern kann. Dies ist ein wichtiger Schritt hin zu robusteren und intelligenteren KI-Agenten, die in der Lage sind, in einer Vielzahl von Umgebungen effektiv zu agieren.

Bibliography

- Fan, K., Feng, K., Zhang, M., Peng, T., Li, Z., Jiang, Y., Chen, S., Pei, P., Cai, X., & Yue, X. (2026). Exploring Reasoning Reward Model for Agents. arXiv. - Fan, K., Feng, K., Zhang, M., Peng, T., Li, Z., Jiang, Y., Chen, S., Pei, P., Cai, X., & Yue, X. (2026). Paper page - Exploring Reasoning Reward Model for Agents. Hugging Face. - Fan, K., Feng, K., Zhang, M., Peng, T., Li, Z., Jiang, Y., Chen, S., Pei, P., Cai, X., & Yue, X. (2026). Exploring Reasoning Reward Model for Agents - ChatPaper. ChatPaper. - Chen, Z., Chen, D., Sun, R., Liu, W., & Gan, C. (2025). Scaling Autonomous Agents via Automatic Reward Modeling And Planning. OpenReview. - Xia, Y., Fan, J., Chen, W., Yan, S., Cong, X., Zhang, Z., Lu, Y., Lin, Y., Liu, Z., & Sun, M. (2025). AgentRM: Enhancing Agent Generalization with Reward Modeling. ACL Anthology. - Yang, P., Zhang, K., Wang, J., Chen, X., Tang, Y., Yang, E., Ai, L., & Shi, B. (2025). Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning. arXiv. - Wu, J., Yang, S., Yang, C., Shen, Y., Zhang, S., Wen, Z., & Tao, J. (2026). Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning. Hugging Face. - Guo, J., Chi, Z., Dong, L., Dong, Q., Wu, X., Huang, S., & Wei, F. (2025). Reward Reasoning Model. arXiv. - Yang, D., Zeng, L., Chen, K., & Zhang, Y. (2025). Reinforcing Thinking through Reasoning-Enhanced Reward Models. arXiv. - Seonghyeon, K. (2026). 2026-01-30 - by Kim Seonghyeon - arXiv Daily. Substack.