Verbesserung autonomer KI-Agenten durch Reflective Tree Search und Selbstlernen

Kategorien:
No items found.
Freigegeben:
October 7, 2024

Artikel jetzt als Podcast anhören

Autonome KI-Agenten durch Reflective Tree Search und Selbstlernen verbessern

Autonome Agenten haben ein bedeutendes Potenzial bei der Automatisierung komplexer, mehrstufiger Entscheidungsfindungsaufgaben gezeigt. Allerdings bleiben selbst hochmoderne Vision-Language-Modelle (VLMs) wie GPT-4o hinter der menschlichen Leistung zurück, insbesondere in komplexen Webumgebungen und bei Aufgaben mit langfristiger Planung.

Herausforderungen autonomer KI-Agenten

Die größten Herausforderungen für autonome KI-Agenten liegen in der Regel in den folgenden Bereichen:

    - Komplexe Entscheidungsfindung: In realen Szenarien müssen Agenten oft Entscheidungen auf der Grundlage unvollständiger oder unsicherer Informationen treffen. - Langfristige Planung: Viele Aufgaben erfordern, dass Agenten eine Reihe von Aktionen planen und ausführen, um ein langfristiges Ziel zu erreichen, was die Erkennung und Vorhersage zukünftiger Ergebnisse schwierig macht. - Anpassung an dynamische Umgebungen: Sich ständig ändernde Umgebungen erfordern, dass Agenten flexibel sind und ihre Strategien anpassen, während sie neue Informationen sammeln.

Reflective Monte Carlo Tree Search (R-MCTS)

Um diese Einschränkungen zu beheben, wurde der Reflective Monte Carlo Tree Search (R-MCTS) entwickelt - ein neuartiger Testzeitalgorithmus, der die Fähigkeit von KI-Agenten, z. B. auf Basis von GPT-4o, verbessern soll, den Entscheidungsraum spontan zu erkunden. R-MCTS erweitert den traditionellen MCTS um zwei wesentliche Punkte:

    - Einbeziehung von kontrastivem Reflektieren: Dies ermöglicht es Agenten, aus vergangenen Interaktionen zu lernen und ihre Sucheffizienz dynamisch zu verbessern. - Nutzung von Multi-Agenten-Debatten: Dies dient dazu, eine zuverlässige Bewertung des aktuellen Zustands zu gewährleisten.

Selbstlernen durch R-MCTS

Darüber hinaus lässt sich die Leistung des Agenten durch die Feinabstimmung von GPT-4o mittels Selbstlernen verbessern. Dabei werden die von R-MCTS generierten Baumdurchläufe verwendet, ohne dass der Mensch Labels bereitstellen muss.

Leistungssteigerung auf dem VisualWebArena Benchmark

Auf dem anspruchsvollen VisualWebArena-Benchmark erzielte der auf GPT-4o basierende R-MCTS-Agent eine relative Verbesserung von 6 % bis 30 % bei verschiedenen Aufgaben im Vergleich zum vorherigen Stand der Technik.

Wissenstransfer und verbesserte Effizienz

Es zeigt sich, dass das durch die Testzeitsuche gewonnene Wissen durch Feinabstimmung effektiv an GPT-4o zurückgegeben werden kann. Das feinabgestimmte GPT-4o erreicht 97 % der Leistung von R-MCTS bei gleichzeitig viermal geringerem Rechenaufwand zur Testzeit.

Qualitative Ergebnisse und Schlussfolgerungen

Qualitative Ergebnisse zeigen, dass das feinabgestimmte GPT-4o-Modell in der Lage ist, die Umgebung zu erkunden, einen Zustand zu bewerten und zu brauchbaren Zuständen zurückzukehren, wenn es erkennt, dass der aktuelle Zustand nicht zum Erfolg führen kann. R-MCTS und Selbstlernen erweisen sich als vielversprechende Ansätze, um die Argumentations- und Planungsfähigkeiten von VLMs für Anwendungen mit Agenten zu verbessern.

Bibliographie

Yu, X., Peng, B., Vajipey, V., Cheng, H., Galley, M., Gao, J., & Yu, Z. (2024). Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning. arXiv preprint arXiv:2410.02052. Putta, P., Mills, E., Garg, N., Motwani, S., Finn, C., Garg, D., & Rafailov, R. (2024). Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents. arXiv preprint arXiv:2408.07199. Rodriguez, J. (2019). This New Technique Helps Build Autonomous, Self-Learning AI Agents that Passed the Pommerman Challenge. LinkedIn. White, R. W. (2024). Advancing the Search Frontier with AI Agents. Communications of the ACM, 67(8), 18-19.
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.