Autonome Agenten haben ein bedeutendes Potenzial bei der Automatisierung komplexer, mehrstufiger Entscheidungsfindungsaufgaben gezeigt. Allerdings bleiben selbst hochmoderne Vision-Language-Modelle (VLMs) wie GPT-4o hinter der menschlichen Leistung zurück, insbesondere in komplexen Webumgebungen und bei Aufgaben mit langfristiger Planung.
Die größten Herausforderungen für autonome KI-Agenten liegen in der Regel in den folgenden Bereichen:
Um diese Einschränkungen zu beheben, wurde der Reflective Monte Carlo Tree Search (R-MCTS) entwickelt - ein neuartiger Testzeitalgorithmus, der die Fähigkeit von KI-Agenten, z. B. auf Basis von GPT-4o, verbessern soll, den Entscheidungsraum spontan zu erkunden. R-MCTS erweitert den traditionellen MCTS um zwei wesentliche Punkte:
Darüber hinaus lässt sich die Leistung des Agenten durch die Feinabstimmung von GPT-4o mittels Selbstlernen verbessern. Dabei werden die von R-MCTS generierten Baumdurchläufe verwendet, ohne dass der Mensch Labels bereitstellen muss.
Auf dem anspruchsvollen VisualWebArena-Benchmark erzielte der auf GPT-4o basierende R-MCTS-Agent eine relative Verbesserung von 6 % bis 30 % bei verschiedenen Aufgaben im Vergleich zum vorherigen Stand der Technik.
Es zeigt sich, dass das durch die Testzeitsuche gewonnene Wissen durch Feinabstimmung effektiv an GPT-4o zurückgegeben werden kann. Das feinabgestimmte GPT-4o erreicht 97 % der Leistung von R-MCTS bei gleichzeitig viermal geringerem Rechenaufwand zur Testzeit.
Qualitative Ergebnisse zeigen, dass das feinabgestimmte GPT-4o-Modell in der Lage ist, die Umgebung zu erkunden, einen Zustand zu bewerten und zu brauchbaren Zuständen zurückzukehren, wenn es erkennt, dass der aktuelle Zustand nicht zum Erfolg führen kann. R-MCTS und Selbstlernen erweisen sich als vielversprechende Ansätze, um die Argumentations- und Planungsfähigkeiten von VLMs für Anwendungen mit Agenten zu verbessern.