Bewertung multimodaler Betriebssystemagenten in der Windows Agent Arena

Kategorien:

No items found.

Freigegeben:

September 13, 2024

Evaluierung von Multi-Modalen OS-Agenten in Windows Agent Arena

Einführung

Große Sprachmodelle (LLMs) zeigen bemerkenswertes Potenzial, als Computeragenten zu agieren und die menschliche Produktivität sowie die Zugänglichkeit von Software in multimodalen Aufgaben zu verbessern, die Planung und logisches Denken erfordern. Die Messung der Leistung dieser Agenten in realistischen Umgebungen stellt jedoch eine Herausforderung dar. Die meisten Benchmarks sind entweder auf spezifische Modalitäten oder Domänen beschränkt (z.B. Text-Only, Webnavigation, Q&A, Codierung) und vollständige Benchmark-Bewertungen sind aufgrund der mehrstufigen sequentiellen Natur der Aufgaben langsam und können Tage in Anspruch nehmen.

Windows Agent Arena: Eine Lösung für die Evaluierung

Um diese Herausforderungen anzugehen, wurde die Windows Agent Arena (WAA) eingeführt. Diese reproduzierbare, allgemeine Umgebung konzentriert sich ausschließlich auf das Windows-Betriebssystem, in dem Agenten frei innerhalb eines realen Windows-OS operieren können. Sie nutzen dieselben Anwendungen, Werkzeuge und Webbrowser, die auch menschlichen Nutzern zur Verfügung stehen, um Aufgaben zu lösen. Die Umgebung adaptiert das OSWorld-Framework (Xie et al., 2024) und bietet über 150 verschiedene Windows-Aufgaben in repräsentativen Domänen, die die Fähigkeiten der Agenten in Planung, Bildschirmverständnis und Werkzeugnutzung erfordern.

Skalierbarkeit und Effizienz

Das Benchmarking in der Windows Agent Arena ist skalierbar und kann nahtlos in Azure parallelisiert werden, um eine vollständige Benchmark-Bewertung in nur 20 Minuten zu ermöglichen. Dies stellt eine erhebliche Verbesserung gegenüber früheren Benchmarks dar, die Tage dauern konnten.

Der Multi-Modale Agent Navi

Um die Fähigkeiten der Windows Agent Arena zu demonstrieren, wurde ein neuer multimodaler Agent namens Navi eingeführt. Dieser Agent erzielte eine Erfolgsquote von 19,5% im Windows-Domänenvergleich, während ein unassistierter Mensch 74,5% erreichte. Navi zeigt auch starke Leistungen in einem anderen beliebten webbasierten Benchmark, Mind2Web. Eine umfassende quantitative und qualitative Analyse von Navis Leistung bietet Einblicke in die Herausforderungen und Möglichkeiten für zukünftige Forschung in der Agentenentwicklung und Datengenerierung unter Verwendung der Windows Agent Arena.

Aufgaben und Evaluierung in der Windows Agent Arena

Die initiale Veröffentlichung der Windows Agent Arena umfasst 154 diverse Aufgaben, die typische Benutzerarbeitslasten innerhalb des Windows-OS repräsentieren. Dazu gehören:

- Bearbeitung von Dokumenten und Tabellenkalkulationen (LibreOffice Calc/Writer) - Internetsurfen (Microsoft Edge, Google Chrome) - Windows-Systemaufgaben (Datei-Explorer, Einstellungen) - Codierung (Visual Studio Code) - Video ansehen (VLC Player) - Utility-Funktionen (Notepad, Uhr, Paint)

Die Auswertung der Aufgaben erfolgt deterministisch, wobei benutzerdefinierte Skripte verwendet werden, um am Ende jeder Episode eine Belohnung zu generieren.

Parallelisierung in Azure

Die Infrastruktur hinter der Windows Agent Arena unterstützt flexible, lokale Ausführung während der Prototyping-Phase sowie skalierbare und sichere Cloud-Parallelisierung in Azure. Der Kern unseres Systems ist ein Docker-Container, der die Windows 11 VM hostet. Innerhalb des Containers wird ein Client-Prozess für die Aufgabenplanung und -konfiguration sowie der Agent und die Bewertungsskripte bereitgestellt. Die VM dient als Hauptsimulationsumgebung, wobei ein Python Flask-Server als Brücke zwischen dem Container und der VM fungiert, indem er Befehle von den Client-Prozessen empfängt und innerhalb der VM ausführt und Beobachtungen und Dateien an den Client zurücksendet.

Ergebnisse und Erkenntnisse

Wir benchmarken mehrere State-of-the-Art-Modelle für visuelle Sprachmodelle. Dabei stellen wir fest, dass alle vorhandenen Modelle im Vergleich zum menschlichen Verhalten eine geringe Leistung erzielen, wobei große Unterschiede zwischen den Domänen bestehen. Die Qualität der Set-of-Marks spielt eine entscheidende Rolle für die Leistung des Agenten. Agenten, die ausschließlich auf pixelbasierte OCR und Symbolerkennung angewiesen sind, erzielen eine geringere Leistung als diejenigen, die auch den UIA-Baum verwenden. Wir stellen auch fest, dass die Symbolbeschriftungsfähigkeit von Omniparser die Leistung steigert.

Schlussfolgerung

Die Windows Agent Arena bietet eine innovative und skalierbare Umgebung zur Bewertung von Multi-Modalen OS-Agenten. Mit der Einführung des Agenten Navi und der umfassenden Analyse seiner Leistung haben wir wertvolle Einblicke in die aktuellen Fähigkeiten und Herausforderungen von OS-Agenten gewonnen. Diese Arbeit legt den Grundstein für zukünftige Forschung und Entwicklung in diesem Bereich und unterstreicht das Potenzial von LLMs, die menschliche Produktivität und Softwarezugänglichkeit weiter zu verbessern.

Bibliographie

- https://microsoft.github.io/WindowsAgentArena/ - https://github.com/microsoft/WindowsAgentArena - https://aclanthology.org/2024.acl-long.50.pdf - https://arxiv.org/abs/2401.13649 - https://arxiv-sanity-lite.com/?rank=pid&pid=2402.17553 - https://github.com/showlab/Awesome-GUI-Agent - https://arxiv.org/html/2401.13649v2 - https://arxiv-sanity-lite.com/?rank=pid&pid=2401.13649 - https://medium.com/@techsachin/benchmarking-multimodal-agents-for-open-ended-tasks-in-real-computer-environments-ef338142c9c1 - https://openreview.net/forum?id=zAdUB0aCTQ

Was bedeutet das?