Neues Framework für verbessertes Agentic Reinforcement Learning in mehrstufigen Aufgaben

Kategorien:

No items found.

Freigegeben:

January 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

AT²PO ist ein neues Framework für Multi-Turn Agentic Reinforcement Learning, das darauf abzielt, die Effizienz und Stabilität von Sprachmodell-Agenten zu verbessern.
Das Framework begegnet drei zentralen Herausforderungen: begrenzte Explorationsvielfalt, spärliche Kreditzuweisung und fehlgeleitete Policy-Optimierung in mehrstufigen Aufgaben.
AT²PO integriert drei Schlüsselkomponenten: die entropiegesteuerte Baumexpansion (Entropy-Guided Tree Expansion) für strategische Exploration, die schrittweise Kreditzuweisung (Turn-wise Credit Assignment) für die Feinabstimmung von Belohnungen und die agentische schrittbasierte Policy-Optimierung (Agentic Turn-based Policy Optimization) für stabile Lernziele.
Experimente auf sieben Benchmarks zeigen eine Leistungssteigerung von bis zu 1,84 Prozentpunkten gegenüber den besten bestehenden Methoden, insbesondere bei komplexen Multi-Hop-Aufgaben.
Das Framework bietet eine turn-basierte Lernstrategie, die die natürlichen Entscheidungsgrenzen agentischer Interaktionen besser widerspiegelt als token- oder sequenzbasierte Ansätze.

Die jüngsten Fortschritte im Bereich der großen Sprachmodelle (LLMs) haben die Entwicklung autonomer Agenten vorangetrieben, die in der Lage sind, komplexe, mehrstufige Aufgaben durch strukturiertes Denken und den Einsatz externer Werkzeuge zu lösen. Das Agentic Reinforcement Learning (RL) hat sich dabei als ein entscheidendes Paradigma nach dem Training etabliert, um diese Fähigkeiten weiter zu verfeinern. Dennoch stehen diese Systeme noch vor grundlegenden Herausforderungen, die eine effektive Politik-Optimierung behindern.

Herausforderungen im Agentic Reinforcement Learning

Drei Hauptprobleme prägen die aktuelle Landschaft des Agentic Reinforcement Learning:

Begrenzte Explorationsvielfalt

Bestehende Frameworks, die auf kettenbasierten Generierungs- oder baumbasierten Rollouts basieren, nutzen oft zufällige oder heuristische Kriterien zur Erweiterung von Knoten. Dies führt dazu, dass die Exploration von Trajektorien mit hoher Unsicherheit oder hohem Potenzial nicht strategisch priorisiert wird, was die Vielfalt und Qualität der generierten Trajektorien einschränkt.

Spärliche Kreditzuweisung

Lernsignale in mehrstufigen Trajektorien sind typischerweise spärlich, da Belohnungen oft erst am Ende einer vollständigen Trajektorie verfügbar sind. Dies erschwert die Zuordnung von Verdiensten zu einzelnen Zwischenschritten und führt zu schwachen oder verzögerten Lernsignalen.

Fehlgeleitete Policy-Optimierung

Ein grundlegendes Ungleichgewicht besteht zwischen der schrittbasierten Struktur agentischer Aufgaben und den flachen Optimierungszielen, die in aktuellen Policy-Lernmethoden verwendet werden. Diese Methoden behandeln die Ausgabe des Agenten oft als eine flache Token-Sequenz, ohne die dynamische Einfügung von werkzeuggenerierten Tokens und die schrittweise Natur der Interaktionen angemessen zu berücksichtigen. Dies kann zu instabilen Gradienten und ineffizientem Lernen führen.

AT²PO: Einheitliches Framework für mehrstufiges Agentic RL

Um diesen Herausforderungen zu begegnen, wurde AT²PO (Agentic Turn-based Policy Optimization via Tree Search) entwickelt, ein einheitliches Framework, das drei synergetische Komponenten für mehrstufiges Agentic RL integriert.

Entropiegesteuerte Baumexpansion (Entropy-Guided Tree Expansion)

In der Rollout-Phase führt AT²PO eine entropiegesteuerte Baumexpansion ein. Diese Methode erweitert den Suchbaum adaptiv von den unsichersten Schritten aus, um die Explorationseffizienz zu maximieren. Im Gegensatz zu früheren Ansätzen, die sich auf zufällige oder heuristische Erweiterungsstrategien verlassen, wählt AT²PO aktiv Knoten mit hoher Entropie für die Verzweigung aus, was zu einer kohärenteren, vielfältigeren und qualitativ hochwertigeren Exploration führt.

Schrittweise Kreditzuweisung (Turn-wise Credit Assignment)

Während der Belohnungsphase nutzt AT²PO die Baumtopologie, um eine präzise, schrittweise Kreditzuweisung zu implementieren. Dies ermöglicht die Rückführung spärlicher Ergebnisbelohnungen durch den Baum, um feingranulare Werte und Vorteilsabschätzungen pro Schritt zu berechnen. Dadurch wird eine genaue Kreditzuweisung ohne zusätzliche Überwachung ermöglicht.

Agentic Turn-based Policy Optimization (ATPO)

In der Trainingsphase wurde eine neuartige Policy-Lernmethode namens Agentic Turn-based Policy Optimization (ATPO) entwickelt. Diese Methode führt das Importance Sampling und Clipping auf Schritt-Ebene durch, wodurch das Optimierungsziel mit dem strukturierten, schrittbasierten Entscheidungsprozess in Einklang gebracht und die Trainingsstabilität und Leistung erheblich verbessert werden. ATPO kann als Plug-in in jede Multi-Turn-Agentic-RL-Pipeline integriert werden.

Experimentelle Validierung und Ergebnisse

Umfassende Experimente auf sieben Benchmarks demonstrieren die Wirksamkeit von AT²PO. Das Framework übertrifft bestehende Baselines konsistent um bis zu 1,84 Prozentpunkte im Durchschnitt. Diese Verbesserungen sind besonders ausgeprägt bei Multi-Hop-Aufgaben, die eine höhere Anzahl von Interaktionsschritten erfordern. Dies unterstreicht die Fähigkeit von AT²PO, die Vorteile seiner schrittbasierten Gestaltung in komplexen Szenarien voll auszuspielen.

Analyse der Trainingsdynamik

Die Analyse der Trainingsdynamik zeigt, dass AT²PO im Vergleich zu token-basierten Optimierungsmethoden eine stabilere Entropie-Trajektorie beibehält. Während Standard-Token-Level-Methoden wie GRPO frühzeitig zu einem Entropie-Kollaps neigen, was ihre Fähigkeit zur Exploration hochwertiger Trajektorien einschränkt, und selbst verbesserte Methoden wie AEPO über längere Trainingszeiträume eine graduelle Entropie-Divergenz aufweisen, balanciert AT²PO die Exploration effektiv mit der Stabilität der Gradientenoptimierung.

Ablationsstudien

Ablationsstudien bestätigen die Wirksamkeit jeder einzelnen Komponente von AT²PO. Der Ersatz einer zufälligen Baumsuche durch ATPO führt zu erheblichen Leistungssteigerungen, insbesondere bei Multi-Hop-Benchmarks. Die Integration der entropiegesteuerten Baumexpansion verbessert die Explorationseffizienz weiter, indem sie den begrenzten Suchbudget auf informativere Entscheidungspunkte konzentriert. Die schrittweise Kreditzuweisung liefert zusätzliche Gewinne, indem sie feingranulare Lernsignale für einzelne Schritte bereitstellt und das Problem der Kreditzuweisung in spärlich belohnten agentischen Aufgaben effektiv mindert.

Stabilität des Trainings

Ein wichtiger Aspekt, der während der Replikation früherer Arbeiten wie Tree-GRPO beobachtet wurde, war die Trainingsinstabilität, die oft zu einem vollständigen Kollaps führte. Dieses Problem wurde auf den „Retokenization Drift“ zurückgeführt, bei dem die Umwandlung von Token in Text und zurück zu Token zu Inkonsistenzen in den Token-Sequenzen führt. AT²PO verwendet einen „Token-in-Token-out“-Ansatz, der diese Zwischenschritte umgeht und so die Trainingsstabilität signifikant verbessert.

Fazit und Ausblick

Das AT²PO-Framework stellt einen vielversprechenden Ansatz für das Training von LLM-Agenten für komplexe mehrstufige Denk- und Werkzeugnutzungsaufgaben dar. Durch die strategische Exploration, die feingranulare Belohnungszuweisung und die schrittbasierte Policy-Optimierung werden die Effizienz und Robustheit von Agentic Reinforcement Learning signifikant verbessert.

Zukünftige Arbeiten könnten die Effizienz der Rollout-Strategien durch verbesserte Parallelisierung weiter optimieren. Zudem wäre eine Evaluierung von AT²PO in einem breiteren Spektrum agentischer Umgebungen wünschenswert, um die Generalisierungsfähigkeit und Robustheit des Frameworks umfassender zu beurteilen.

Diese Entwicklungen tragen dazu bei, die Leistungsfähigkeit von KI-Agenten in komplexen Anwendungsbereichen zu steigern und die Grundlage für zukünftige Innovationen im Bereich des autonomen Lernens zu legen.

Bibliographie

- Zong, Z., Chen, D., Li, Y., Yi, Q., Zhou, B., Li, C., Qian, B., Chen, P., & Jiang, J. (2026). AT²PO: Agentic Turn-based Policy Optimization via Tree Search. arXiv preprint arXiv:2601.04767. - Hugging Face. (n.d.). Daily Papers. Retrieved from https://huggingface.co/papers - Ji, Y., Ma, Z., Wang, Y., Chen, G., Chu, X., & Wu, L. (2025). TREE SEARCH FOR LLM AGENT REINFORCEMENT LEARNING. OpenReview.net. - Huang, B., Nguyen, T., & Zimmer, M. (2025). Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning. arXiv preprint arXiv:2509.09284. - RUC-NLPIR. (n.d.). RUC-NLPIR/ARPO - Agentic Reinforced Policy Optimization. GitHub. Retrieved from https://github.com/RUC-NLPIR/ARPO - Zhou, A., Yan, K., Shlapentokh-Rothman, M., Wang, H., & Wang, Y.-X. (2023). Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models. arXiv preprint arXiv:2310.04406. - ChatPaper.ai. (2025, March 14). AI Research Papers Daily - March 14, 2025. Retrieved from https://www.chatpaper.ai/papers/2025-03-14