Große Sprachmodelle (LLMs) haben in letzter Zeit viel Aufmerksamkeit bei der Entwicklung autonomer Agenten erlangt. Die Leistung aktueller LLM-basierter Web-Agenten bei Aufgaben mit langem Zeithorizont ist jedoch alles andere als optimal und führt oft zu Fehlern wie dem wiederholten Kauf eines nicht erstattungsfähigen Flugtickets. Im Gegensatz dazu können Menschen solche irreversiblen Fehler vermeiden, da wir uns der potenziellen Folgen (z. B. Geldverlust) unserer Handlungen bewusst sind, was auch als "Weltmodell" bezeichnet wird.
Studien haben gezeigt, dass aktuelle LLMs (z. B. GPT-4o, Claude-3.5-Sonnet usw.) Schwierigkeiten haben, die Ergebnisse ihrer Aktionen vorherzusagen. Dies deutet darauf hin, dass ihnen ein Verständnis für die Dynamik von Umgebungen fehlt, d.h. den Zusammenhang zwischen Aktionen und ihren Auswirkungen auf den Zustand der Umgebung. Im Kontext der Webnavigation bedeutet dies, dass LLMs möglicherweise nicht in der Lage sind, vorherzusehen, wie sich eine Webseite als Reaktion auf eine bestimmte Aktion, wie z. B. einen Klick auf einen Link, verändern wird.
Um dieses Problem zu beheben, wurde das Konzept der Weltmodell-erweiterten (WMA) Web-Agenten eingeführt. Diese Agenten verwenden ein Weltmodell, um die Ergebnisse ihrer Aktionen zu simulieren und so bessere Entscheidungen zu treffen. Anstatt sich ausschließlich auf Trial-and-Error zu verlassen, können WMA-Agenten die potenziellen Konsequenzen verschiedener Aktionen bewerten, bevor sie eine Entscheidung treffen. Dies ist besonders in Situationen hilfreich, in denen irreversible Aktionen vermieden werden müssen.
Das Trainieren eines Weltmodells zur Vorhersage des nächsten Beobachtungszustands (d. h. der gesamten Webseite) bringt jedoch Herausforderungen mit sich. Webseiten enthalten oft viele sich wiederholende Elemente, und die HTML-Eingaben können sehr lang sein, was sich negativ auf die Modellleistung auswirken kann.
Um diese Herausforderungen zu bewältigen, wurde eine neue transitionsfokussierte Abstraktion von Beobachtungen vorgeschlagen. Anstatt zu versuchen, den gesamten nächsten Beobachtungszustand vorherzusagen, konzentriert sich das Weltmodell darauf, nur die wichtigen Zustandsänderungen zwischen den Zeitschritten zu beschreiben. Diese Beschreibungen können in Form von natürlicher Sprache erfolgen und sich auf die wichtigsten Unterschiede zwischen den Zuständen konzentrieren, z. B. auf eine Preisaktualisierung auf einer Webseite.
Experimente haben gezeigt, dass die Verwendung von Weltmodellen die Auswahl von Aktionen durch Web-Agenten verbessern kann, ohne dass die Richtlinienmodelle trainiert werden müssen. Durch die Simulation der Ergebnisse verschiedener Aktionskandidaten können WMA-Agenten fundiertere Entscheidungen treffen, die besser auf die Benutzerziele abgestimmt sind.
Darüber hinaus hat sich gezeigt, dass WMA-Agenten im Vergleich zu aktuellen baumbasierten Agenten, die auf vielen Versuchen basieren, kostengünstiger und zeiteffizienter sind. Dies liegt daran, dass sie weniger Interaktionen mit der realen Umgebung benötigen, um eine Aufgabe zu erledigen.
Die Forschung im Bereich der Weltmodelle für Web-Agenten steckt noch in den Kinderschuhen, und es gibt viel Raum für zukünftige Verbesserungen. Beispielsweise könnten zukünftige Arbeiten untersuchen, wie Weltmodelle verwendet werden können, um die Leistung von Web-Agenten in noch komplexeren und dynamischeren Umgebungen zu verbessern.