In der Welt der künstlichen Intelligenz (KI) schreitet die Entwicklung von Sprachagenten, die komplexe Aufgaben bewältigen können, mit großen Schritten voran. Ein bemerkenswertes Beispiel für diese Entwicklung ist Lumos, ein Sprachagentensystem, das auf einem einheitlichen Datenformat, einem modularen Design und Open-Source Large Language Models (LLMs) basiert.
Lumos wurde von einem interdisziplinären Team aus Forschern des Allen Institute for AI, der University of California, Los Angeles und der University of Washington entwickelt. Das System zielt darauf ab, eine Vielzahl interaktiver Aufgaben zu vereinheitlichen und eine wettbewerbsfähige Leistung im Vergleich zu GPT-4/3.5-basierten Agenten und größeren Open-Source-Agenten zu erzielen.
Die Architektur von Lumos umfasst mehrere Module: ein Planungsmodul, ein Grundierungsmodul und ein Ausführungsmodul. Das Planungsmodul zerlegt eine komplexe Aufgabe in eine Reihe von hochrangigen Teilzielen, die in natürlicher Sprache formuliert sind. Das Grundierungsmodul übersetzt diese hochrangigen Teilziele in ausführbare Aktionen, und das Ausführungsmodul führt diese Aktionen mithilfe einer Reihe von externen Tools, einschließlich APIs, kleinen neuronalen Modellen und virtuellen Simulatoren, aus.
Eines der herausragenden Merkmale von Lumos ist die Generalisierbarkeit des Systems. Nach einer einheitlichen Schulung mit den gesammelten Annotationen zeigt Lumos eine verbesserte Leistung bei Web- und komplexen QA-Aufgaben im Vergleich zu domänenspezifischen Agenten. Es übertrifft auch größere Agenten mit Modellen von 13B und 30B Größe bei einer neuen, nicht gesehenen interaktiven Aufgabe namens WebShop.
Die Forscher haben zwei Formulierungen von Lumos getestet: Lumos-Iterative (Lumos-I), das in jeder Iteration ein Unterziel und die entsprechenden ausführbaren Aktionen generiert, und Lumos-Onetime (Lumos-O), eine effiziente Formulierung, die alle Unterziele und Aktionen auf einmal generiert.
Für das Training von Lumos wurden etwa 40.000 hochwertige Annotationen von Unterzielen/Aktionen erstellt, die auf den grundlegenden Schritten der Argumentation in bestehenden Benchmarks mit GPT-4 basieren. Diese Annotationen sind entscheidend für die zukünftige Forschung zur Entwicklung von Open-Source-Agenten für komplexe interaktive Aufgaben.
In der Evaluation zeigte sich, dass Lumos die GPT-4/3.5-basierten Agenten bei komplexen QA- und Web-Aufgaben übertraf. Insbesondere übertraf Lumos GPT-4 in der Erfolgsrate von Schritten bei Mind2Web und GPT-3.5-Turbo-basierten ReAct 5.1 LLM-Genauigkeit. Darüber hinaus erreichte Lumos eine bessere Leistung als 2-4-mal größere Sprachagenten bei mathematischen Aufgaben.
Im Vergleich zu Baseline-Formulierungen wie Chain-of-Thought-Training und integriertem Agenten-Training schnitt Lumos bei drei verschiedenen komplexen interaktiven Aufgaben am besten ab. Die Forscher stellten außerdem fest, dass Lumos nach einer einheitlichen Schulung eine leicht höhere Leistung bei Web- und komplexen QA-Aufgaben erbrachte und auch eine Verbesserung gegenüber domänenspezifischen Agenten sowie eine bessere Leistung als größere Agenten zeigte.
Die Forschungsarbeit zu Lumos ist ein signifikanter Schritt in Richtung der Schaffung von Sprachagenten, die in der Lage sind, eine breite Palette komplexer Aufgaben zu bewältigen. Die Verwendung von Open-Source-LLMs bietet die Möglichkeit für eine transparentere und zugänglichere Entwicklung von KI-Technologien, was sowohl für die Forschungsgemeinschaft als auch für die Industrie von großem Interesse ist.
Quellen:
- Da Yin et al., Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs, arXiv:2311.05657, 2023.
- Gradio & LLM Agents, Gradio.app, Zugriff im April 2024.
- The Allen Institute for AI, Lumos-Projektwebseite, Zugriff im April 2024.