Große Sprachmodelle (LLMs) haben sich in verschiedenen Bereichen wie Argumentation, Generierung und Planung als vielversprechend erwiesen. Dennoch bestehen Herausforderungen bei ihrem Einsatz als Agenten in offenen, dynamischen Umgebungen, wie z. B. Spielen oder autonomen Systemen. Ein Hauptgrund dafür ist die Diskrepanz zwischen dem in LLMs vorhandenen Wissen und der spezifischen Funktionsweise der Zielumgebung, was zu ungenauen Vorhersagen und Fehlern im Entscheidungsprozess führen kann.
Dieser Herausforderung widmet sich das neue Forschungsprojekt "WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents". Die Forscher hinter WALL-E argumentieren, dass die Integration von LLMs mit regelbasierten Lernansätzen der Schlüssel zur Überbrückung dieser Wissenslücke ist. Anstatt auf aufwendige Feinabstimmung oder umfangreiche Trajektorienverläufe zurückzugreifen, setzt WALL-E auf die Kombination eines vortrainierten LLMs mit einem Regelwerk, das aus den Interaktionen des Agenten mit seiner Umgebung gelernt wird.
Funktionsweise von WALL-E
WALL-E basiert auf einem neuartigen, neurosymbolischen Weltmodell, das die Stärken von LLMs (u. a. probabilistisches Denken) mit der Präzision und den Garantien von regelbasierten Systemen vereint. Der Lernprozess läuft iterativ ab:
- **Datensammlung:** Der Agent interagiert mit der Umgebung und generiert dabei reale Trajektorien.
- **Vergleich und Regelerkennung:** Die realen Trajektorien werden mit den Vorhersagen des Weltmodells verglichen. Aus den Abweichungen leitet das LLM neue Regeln ab oder passt bestehende an.
- **Regelbereinigung:** Um das Regelwerk effizient zu halten, wird ein "Maximum Coverage"-Problem gelöst. Ziel ist es, eine minimale Anzahl von Regeln zu identifizieren, die die meisten Abweichungen zwischen den Vorhersagen des LLMs und den realen Beobachtungen abdecken.
Dieser Zyklus wiederholt sich, bis das Weltmodell, bestehend aus dem LLM und dem gelernten Regelwerk, eine hohe Vorhersagegenauigkeit erreicht.
Vorteile und Einsatzmöglichkeiten
Der große Vorteil von WALL-E liegt in seiner Effizienz. Im Gegensatz zu anderen LLM-Agenten, die oft eine Feinabstimmung durch Reinforcement Learning oder Imitation Learning erfordern, benötigt WALL-E nur wenige, aber aussagekräftige Regeln, um das LLM an die Umgebung anzupassen. Dies reduziert den Bedarf an Trainingsdaten und Rechenleistung erheblich.
Die hohe Präzision des Weltmodells ermöglicht den Einsatz von modellbasierter Steuerung (MPC) für die Entscheidungsfindung des Agenten. MPC optimiert Aktionen in einem vorausschauenden Zeitfenster und ist somit besonders für komplexe, dynamische Umgebungen geeignet.
Ergebnisse und Ausblick
Erste Tests in Minecraft und ALFWorld zeigen vielversprechende Ergebnisse. WALL-E übertrifft bestehende Ansätze in Bezug auf Erfolgsquote, Planungszeit und Anzahl der benötigten Tokens. Die Kombination aus neurosymbolischer Modellierung, effizientem Regelernen und modellbasierter Steuerung ebnet den Weg für leistungsstärkere und zuverlässigere LLM-Agenten in einer Vielzahl von Anwendungsfeldern.
Zukünftige Forschung könnte sich auf die Skalierbarkeit des Ansatzes, den Einsatz in noch komplexeren Umgebungen und die Untersuchung ethischer Aspekte konzentrieren.
Bibliographie
Zhou, S., Zhou, T., Yang, Y., Long, G., Ye, D., Jiang, J., & Zhang, C. (2024). WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents. *arXiv preprint arXiv:2410.07484*.