Die rasante Entwicklung im Bereich der Künstlichen Intelligenz (KI) stellt Forschende und Entwickler vor neue Herausforderungen, insbesondere wenn es um die Bewertung von komplexen KI-Systemen wie Agenten geht. Herkömmliche Methoden, die sich auf Endergebnisse konzentrieren, werden der schrittweisen Natur von Agenten, die Entscheidungen in komplexen Umgebungen treffen, nicht gerecht. Manuelle Bewertungen sind zwar genauer, aber zeitaufwändig und schwer skalierbar.
Eine neue Forschungsarbeit stellt nun einen vielversprechenden Ansatz vor: "Agent-as-a-Judge". Inspiriert von dem Konzept "LLM-as-a-Judge", bei dem große Sprachmodelle zur Bewertung von Texten eingesetzt werden, geht Agent-as-a-Judge einen Schritt weiter und nutzt die Fähigkeiten von Agentensystemen, um andere Agentensysteme zu bewerten. Dieser Ansatz ermöglicht es, nicht nur das Endergebnis, sondern auch den gesamten Problemlösungsprozess eines Agenten zu betrachten und Feedback zu einzelnen Schritten zu geben.
Um die Leistungsfähigkeit von Agent-as-a-Judge zu demonstrieren, wurde die Methode auf die Codegenerierung angewendet. Ein neuer Benchmark namens DevAI wurde entwickelt, der 55 realistische Aufgaben aus der automatisierten KI-Entwicklung umfasst. DevAI zeichnet sich durch detaillierte manuelle Annotationen aus, darunter 365 hierarchische Nutzeranforderungen, die es Agenten ermöglichen, den Kontext und die Anforderungen der Aufgaben besser zu verstehen.
Drei führende Codegenerierungs-Agenten wurden mit Agent-as-a-Judge bewertet und die Ergebnisse mit LLM-as-a-Judge sowie menschlichen Bewertungen verglichen. Die Ergebnisse zeigen, dass Agent-as-a-Judge deutlich bessere Ergebnisse erzielt als LLM-as-a-Judge und eine ähnliche Zuverlässigkeit wie menschliche Bewertungen aufweist.
Der Agent-as-a-Judge-Ansatz bietet mehrere Vorteile gegenüber herkömmlichen Bewertungsmethoden:
Agent-as-a-Judge ist ein vielversprechender Ansatz, der das Potenzial hat, die Art und Weise, wie wir KI-Agenten entwickeln und bewerten, grundlegend zu verändern. Durch die Bereitstellung von detailliertem und zuverlässigem Feedback kann Agent-as-a-Judge dazu beitragen, die Entwicklung von robusteren, zuverlässigeren und leistungsfähigeren KI-Systemen zu beschleunigen. Die Veröffentlichung des DevAI-Benchmarks und der Implementierung von Agent-as-a-Judge bietet der Forschungsgemeinschaft wertvolle Ressourcen, um diesen Ansatz weiter zu erforschen und zu verbessern.