Embodied Agents, also KI-Agenten, die in einer simulierten oder realen Umgebung agieren, gewinnen in der KI-Forschung zunehmend an Bedeutung. Ein vielversprechender Ansatz in diesem Bereich ist die Verwendung von Multimodalen Large Language Models (MLLMs), die sowohl Text- als auch Bilddaten verarbeiten können. Diese Modelle stoßen jedoch auf Herausforderungen, wenn es darum geht, das erlernte Wissen effektiv in realen Szenarien anzuwenden.
MLLM-Agenten zeigen Potenzial für komplexe Aufgaben, indem sie relevante Trajektoriendaten abrufen. Trajektorien in diesem Kontext beziehen sich auf Sequenzen von Aktionen und Beobachtungen, die ein Agent in der Vergangenheit durchgeführt hat. Derzeit konzentrieren sich Retrieval-Methoden jedoch hauptsächlich auf oberflächliche Ähnlichkeiten von Text- oder Bildmerkmalen in Trajektorien und vernachlässigen deren tatsächliche Effektivität für die jeweilige Aufgabe.
Ein Agent könnte beispielsweise eine Trajektorie abrufen, die eine ähnliche Aufgabenbeschreibung aufweist, sich aber in einer anderen Umgebung abspielt. In solchen Fällen bieten diese Trajektorien keine hilfreichen Informationen für die aktuelle Aufgabe und können den Agenten sogar in die Irre führen. Es zeigt sich, dass die reine Ähnlichkeit nicht ausreicht, um nützliche Trajektorien zu finden.
Um diese Herausforderung zu bewältigen, wurde ein neuer Ansatz namens MART (MLLM As ReTriever) entwickelt. MART nutzt interaktives Lernen, um die Leistung von Embodied Agents zu verbessern. Anstatt sich ausschließlich auf oberflächliche Ähnlichkeiten zu verlassen, nutzt MART Interaktionsdaten, um einen MLLM-Retriever mithilfe von Präferenzlernen zu optimieren. Dadurch kann der Retriever die Effektivität von Trajektorien besser einschätzen und diejenigen priorisieren, die für ungesehene Aufgaben am relevantesten sind.
Der Prozess beginnt mit der Bereitstellung von Experten-Trajektorien aus Trainingsszenarien als Eingabe für den MLLM-Agenten. Der Agent interagiert dann mit der Umgebung und sammelt Daten über die Erfolgsraten, die mit den verschiedenen Referenz-Trajektorien erzielt wurden. Diese Feedback-Daten werden in Präferenzpaare umgewandelt und verwendet, um ein MLLM – in diesem Fall LLaVA – mit einem Bradley-Terry-Modell zu optimieren.
Zusätzlich zu diesem interaktiven Lernansatz führt MART auch eine neue Trajektorienabstraktion ein. Dieser Mechanismus nutzt die Zusammenfassungskompetenzen von MLLMs, um Trajektorien mit weniger Tokens darzustellen, ohne dabei wichtige Informationen zu verlieren. Dies ermöglicht es den Agenten, die wichtigsten Meilensteine in der Trajektorie besser zu verstehen, insbesondere bei Aufgaben mit langem Zeithorizont. Die Trajektorienabstraktion reduziert nicht nur die erforderliche Kontextfensterlänge, sondern entfernt auch ablenkende Informationen aus den Trajektorienbeispielen.
Die Effektivität von MART wurde in empirischen Experimenten in verschiedenen Umgebungen untersucht. Die Ergebnisse zeigen, dass MART im Vergleich zu herkömmlichen Methoden die Erfolgsraten bei ungesehenen Aufgaben deutlich verbessert. Insbesondere übertraf MART die Baseline-Methoden in verschiedenen Umgebungen um über 10 %.
MART stellt einen Paradigmenwechsel im Bereich des multimodalen Retrievals für Embodied Agents dar. Durch die Feinabstimmung eines universellen MLLM als Retriever, der die Trajektorieneffektivität berücksichtigt, ebnet MART den Weg für leistungsstärkere und anpassungsfähigere KI-Agenten. Zukünftige Arbeiten könnten sich auf die Erweiterung von MART auf kontinuierliche Aktionsräume und komplexere reale Umgebungen konzentrieren.