Neues Framework Agent-R1 für das Training von LLM-Agenten mittels End-to-End Reinforcement Learning

Kategorien:

No items found.

Freigegeben:

November 19, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Agent-R1 ist ein neues, flexibles Framework für das Training von Large Language Model (LLM) Agenten mittels End-to-End Reinforcement Learning.
Es erweitert das klassische Markov Decision Process (MDP)-Framework, um die komplexen, mehrstufigen Interaktionen von LLM-Agenten mit ihrer Umgebung abzubilden.
Das Framework ermöglicht die Integration von "Tools" und "ToolEnvs", die eine modulare Gestaltung von Agenten und deren Interaktionsumgebungen erlauben.
Experimente im Bereich des Multi-Hop Question Answering zeigen, dass Agent-R1-trainierte Agenten traditionelle Ansätze deutlich übertreffen.
Schlüsselelemente der Policy-Optimierung, wie die Aktionsmaskierung für Verlustberechnung und Vorteilsausrichtung, sind entscheidend für die Effektivität.

Revolution in der Agentenentwicklung: End-to-End Reinforcement Learning für LLMs

Die Entwicklung von Large Language Models (LLMs) zu autonomen Agenten, die in der Lage sind, aktiv mit ihrer Umgebung zu interagieren und komplexe Probleme zu lösen, stellt einen zentralen Fortschritt in der Künstlichen Intelligenz dar. Eine aktuelle Studie stellt mit Agent-R1 ein neuartiges Framework vor, das End-to-End Reinforcement Learning (RL) nutzt, um die Leistungsfähigkeit solcher LLM-Agenten signifikant zu steigern. Dieses Framework adressiert die Herausforderungen bei der effektiven Anwendung von RL auf LLM-Agenten, indem es eine tiefgreifende konzeptionelle Erweiterung des Markov Decision Process (MDP) mit einer flexiblen, benutzerfreundlichen Trainingsplattform verbindet.

Die Herausforderung: LLMs als interaktive Agenten

Traditionelle LLMs zeichnen sich durch ihre Fähigkeiten im Sprachverständnis und in der Generierung aus. Wenn sie jedoch die Rolle eines "Agenten" übernehmen, müssen sie über statische Denkaufgaben hinausgehen und autonom agieren, kontinuierlich lernen und sich an dynamische Umgebungen anpassen. Dies erfordert die Fähigkeit zur sequenziellen Entscheidungsfindung, die Aufrechterhaltung eines Gedächtnisses über mehrere Interaktionsrunden hinweg und eine effektive Reaktion auf Umgebungsfeedback. Die Anwendung von Reinforcement Learning, das sich in anderen Bereichen der KI bereits bewährt hat, steht hier noch am Anfang und sieht sich mit spezifischen Schwierigkeiten konfrontiert, insbesondere in Bezug auf die Stabilität des Trainings, die Gestaltung von Belohnungssignalen und die Generalisierungsfähigkeit in mehrstufigen Interaktionsszenarien.

Agent-R1: Ein umfassender Ansatz

Die Forschung hinter Agent-R1 geht diese Herausforderungen auf zwei Ebenen an: konzeptionell und praktisch.

Konzeptionelle Klarheit: Das erweiterte MDP-Framework

Die Grundlage von Agent-R1 bildet eine systematische Erweiterung des klassischen Markov Decision Process (MDP)-Frameworks, um die spezifischen Anforderungen von LLM-Agenten abzubilden. Dies beinhaltet eine detaillierte Definition der Kernkomponenten:

Zustandsraum (State Space): Während ein statisches LLM den Zustand primär durch den aktuellen Textkontext definiert, umfasst der Zustandsraum eines LLM-Agenten die gesamte Historie mehrstufiger Interaktionen und Umgebungsfeedbacks. Dies ermöglicht dem Agenten, Entscheidungen auf der Grundlage eines umfassenden Dialogs und der Ergebnisse von Werkzeugnutzungen zu treffen.
Aktionsraum (Action Space): Auch wenn die grundlegende Aktion die Generierung von Tokens bleibt, können im Kontext eines Agenten spezifische Token-Sequenzen als Befehle zur Aktivierung externer Tools oder APIs interpretiert werden. Dies erweitert den Aktionsraum von der reinen Textproduktion auf aktive Umwelteingriffe.
Zustandsübergangswahrscheinlichkeit (State Transition Probability): Im Gegensatz zu deterministischen Zustandsübergängen bei statischer Textgenerierung integriert der Mechanismus für Agenten die stochastische Natur der Umweltinteraktion. Übergänge können generativ (Token-Generierung) oder umweltbedingt (durch Tool-Nutzung ausgelöst) sein, wobei letztere Unsicherheit durch externe Reaktionen mit sich bringen.
Belohnungsfunktion (Reward Function): Die Belohnungsstruktur für Agenten ist dichter und vielschichtiger. Neben einer finalen Ergebnisbelohnung für die Aufgabenerfüllung können "Prozessbelohnungen" für erfolgreich ausgeführte Zwischenschritte – wie die effektive Nutzung von Tools oder spürbare Fortschritte – vergeben werden. Diese häufigeren Signale leiten den Lernprozess effektiver.

Praktische Umsetzung: Das Agent-R1 Framework

Auf dieser konzeptionellen Basis wurde Agent-R1 als modulare, flexible und benutzerfreundliche Trainingsplattform entwickelt. Es unterstützt die einfache Anpassung an verschiedene Aufgabenszenarien und interaktive Umgebungen.

Kernmodule für interaktive Rollouts: Tool und ToolEnv

Zwei zentrale Module sind für den interaktiven Rollout-Prozess entscheidend:

Tool: Definiert als Ausführer spezifischer, atomarer Aktionen. Ein Tool kapselt eine bestimmte Fähigkeit, wie den Aufruf einer externen API oder die Ausführung von Code, und liefert das direkte, unverarbeitete Ergebnis dieser Aktion zurück.
ToolEnv: Agiert als Orchestrator und Interpret der RL-Umgebung. Es verarbeitet die Rohausgabe eines Tools, bestimmt, wie diese Ausgabe den wahrgenommenen Zustand des Agenten und den Aufgabenfortschritt beeinflusst, und ist für die Verwaltung von Zustandsübergängen sowie die Berechnung geeigneter Belohnungssignale verantwortlich.

Diese klare Trennung ermöglicht eine hohe Modularität und eine einfache Erweiterbarkeit des Frameworks. Entwickler können domänenspezifische Tools und Belohnungsfunktionen definieren, ohne komplexe Workflow-Ingenieurarbeit leisten zu müssen.

Optimierung der Agentenpolitik durch mehrstufige Trajektorien

Agent-R1 nutzt die detaillierten Informationen aus mehrstufigen Interaktionstrajektorien, einschließlich Aktionsmasken und Prozessbelohnungen, um die Politik des Agentenmodells zu optimieren. Dies geschieht durch:

Verfeinerte Vorteilsberechnung: Die "Advantages" basieren nicht mehr ausschließlich auf der finalen Ergebnisbelohnung, sondern integrieren explizit die während des Rollouts gesammelten Prozessbelohnungen. Dies gewährleistet, dass der Vorteil jedes relevanten Schritts die unmittelbaren Erfolge von Zwischenschritten widerspiegelt.
Maskierte Policy-Optimierung: Bei der Berechnung des Actor Loss stellt eine Aktionsmaske sicher, dass der Verlust nur über die vom Agenten generierten Tokens berechnet wird. Dies stellt sicher, dass Belohnungen den tatsächlichen Entscheidungen des Agenten zugeschrieben werden.
Wertfunktionsaktualisierung: Das Critic Model wird trainiert, um den erwarteten kumulativen Reward aus verschiedenen Zuständen genauer abzuschätzen, was zu besseren Basislinien für die Vorteilsberechnung führt.

Empirische Validierung und Ergebnisse

Die Wirksamkeit von Agent-R1 wurde in einem Multi-Hop Question Answering (MultihopQA)-Szenario evaluiert, bei dem LLMs externe Suchwerkzeuge nutzen. Die Experimente wurden mit dem Qwen2.5-3B-Instruct Modell und verschiedenen RL-Algorithmen (PPO, GRPO, REINFORCE++) auf Datensätzen wie HotpotQA, 2WikiMultihopQA und Musique durchgeführt. Die Ergebnisse zeigen, dass:

Alle mit RL trainierten Agenten übertrafen die Basislinien (Naive RAG und Base Tool Call) deutlich. Der schwächste RL-Agent übertraf RAG um den Faktor 2,5.
GRPO zeigte die beste Gesamtleistung, gefolgt von PPO und RLOO.
Eine Ablationsstudie bestätigte die entscheidende Rolle der Aktionsmaskierung für die Verlustberechnung und die Ausrichtung der Vorteile, was die Bedeutung dieser Designentscheidungen für eine effektive Politikoptimierung unterstreicht.

Fazit

Agent-R1 stellt einen signifikanten Schritt in der Entwicklung von LLM-Agenten dar. Durch die Erweiterung des klassischen MDP-Frameworks und die Bereitstellung eines modularen, flexiblen Trainingsframeworks ermöglicht es die effektive Anwendung von Reinforcement Learning zur Schaffung leistungsfähiger, interaktiver Agenten. Die empirischen Studien belegen die Überlegenheit dieses Ansatzes gegenüber traditionellen Methoden und unterstreichen das Potenzial für zukünftige Arbeiten im Bereich des skalierbaren und vereinheitlichten RL-Trainings für agentische LLMs.

Für Unternehmen, die die nächste Generation von KI-Anwendungen entwickeln möchten, bietet Agent-R1 eine vielversprechende Grundlage, um LLM-Agenten zu trainieren, die in der Lage sind, komplexe, mehrstufige Aufgaben in dynamischen Umgebungen autonom zu lösen.

Bibliography

- Cheng, M., Ouyang, J., Yu, S., Yan, R., Luo, Y., Liu, Z., Wang, D., Liu, Q., & Chen, E. (2025). Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning. arXiv preprint arXiv:2511.14460. - Cheng, M., Ouyang, J., Yu, S., Yan, R., Luo, Y., Liu, Z., Wang, D., Liu, Q., & Chen, E. (2025). Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning. GitHub. Retrieved from https://github.com/0russwest0/Agent-R1 - Wei, Z., Yao, W., Liu, Y., Zhang, W., Lu, Q., Qiu, L., Yu, C., Xu, P., Zhang, C., Yin, B., Yun, H., & Li, L. (2025). WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning. arXiv preprint arXiv:2505.16421. - Wei, Z. (2025, November 4). WebAgent-R1 accepted at EMNLP2025: LLM-based web agents for interactive tasks. LinkedIn. Retrieved from https://www.linkedin.com/posts/weizhepei_emnlp2025-webagents-llm-activity-7391530470158749696-rFVL - Necolizer. (2025). Necolizer/awesome-rl-for-agents: A curated list of reinforcement learning (RL) for agents. GitHub. Retrieved from https://github.com/Necolizer/awesome-rl-for-agents