Neuer Ansatz zur Leistungssteigerung verkörperter Agenten durch Trajektorienabfrage

Kategorien:

No items found.

Freigegeben:

October 11, 2024

kostenlos testen KI für Unternehmen Termin buchen

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

Große Sprachmodelle (LLMs) haben sich in jüngster Zeit als vielversprechend für komplexe Aufgaben in der Robotik erwiesen, insbesondere im Bereich der verkörperten Künstlichen Intelligenz (KI). Diese Agenten, die in der Lage sind, mit ihrer Umgebung zu interagieren und Aufgaben in der realen Welt auszuführen, benötigen jedoch ein tiefes Verständnis sowohl des aktuellen Kontexts als auch aufgabenspezifisches Wissen. Eine Möglichkeit, dieses Wissen bereitzustellen, ist die Verwendung von Trajektoriedaten. Diese Daten, die Abfolgen von Aktionen und Beobachtungen enthalten, können wertvolle Einblicke in die Ausführung von Aufgaben liefern und so den Agenten als eine Art Erfahrungsschatz dienen. Herkömmliche Verfahren zur Trajektorienabfrage konzentrieren sich jedoch hauptsächlich auf oberflächliche Ähnlichkeiten in Text- oder Bildbeschreibungen der Trajektorien. Sie berücksichtigen nicht die tatsächliche Effektivität einer Trajektorie für die jeweilige Aufgabe. Beispielsweise kann eine Trajektorie zwar eine ähnliche Aufgabenbeschreibung aufweisen, aber in einer anderen Umgebung stattfinden oder eine andere Anordnung von Objekten aufweisen. Um dieses Problem zu lösen, wurde ein neuer Ansatz namens "MLLM as ReTriever" (MART) entwickelt. Dieser Ansatz nutzt interaktives Lernen, um die Leistung von verkörperten Agenten zu verbessern. Anstatt sich nur auf oberflächliche Ähnlichkeiten zu verlassen, wird MART mithilfe von Interaktionsdaten feinabgestimmt, um die Effektivität von Trajektorien für eine bestimmte Aufgabe zu bewerten. MART verwendet dabei ein sogenanntes Präferenzlernen. Der Agent interagiert zunächst mit der Umgebung, wobei ihm verschiedene Trajektorien als Referenz dienen. Anhand des Erfolgs oder Misserfolgs des Agenten bei der Ausführung der Aufgabe werden die Trajektorien bewertet und in Präferenzpaare eingeteilt. Diese Paare werden dann verwendet, um ein großes Sprachmodell – in diesem Fall LLaVA – zu optimieren. Um die Trajektoriedaten effizienter zu verarbeiten, wurde außerdem ein Mechanismus namens "Trajectory Abstraction" eingeführt. Dieser Mechanismus nutzt die Fähigkeit von LLMs zur Zusammenfassung, um Trajektorien mit weniger Tokens darzustellen, ohne dabei wichtige Informationen zu verlieren. Experimentelle Ergebnisse in verschiedenen Umgebungen haben gezeigt, dass MART die Erfolgsraten von verkörperten Agenten bei Aufgaben in unbekannten Szenarien deutlich verbessert. Dies liegt daran, dass MART in der Lage ist, die effektivsten Trajektorien aus vergangenen Erfahrungen abzurufen und so den Agenten bei der Entscheidungsfindung zu unterstützen. MART stellt somit einen neuen Ansatz für die multimodale Abfrage in verkörperten Agenten dar. Durch die Feinabstimmung eines allgemeinen LLMs als Retriever, der die Effektivität von Trajektorien bewertet, können diese Agenten effektiver in unbekannten Umgebungen agieren und komplexe Aufgaben erfolgreicher ausführen. ## Quellenangaben - Yue, J., Xu, X., Karlsson, B. F., & Lu, Z. (2024). MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents. arXiv preprint arXiv:2410.03450. http://arxiv.org/abs/2410.03450 - https://arxiv.org/html/2410.03450v1 - https://linnk.ai/insight/machine-learning/interactively-learning-multimodal-retrieval-to-enhance-embodied-agent-performance-in-unseen-environments-the-mart-approach-wOLPhWqe/ - https://arxiv-sanity-lite.com/?rank=pid&pid=2410.03450 - https://bytez.com/docs/arxiv/2410.0345/paper - https://www.researchgate.net/publication/384198657_LEGENT_Open_Platform_for_Embodied_Agents - https://2024.aclweb.org/program/finding_papers/ - http://44.241.247.213/inspect?pid=2410.03450 - https://www.researchgate.net/publication/355023301_Retrieval-Augmented_Generation_for_Knowledge-Intensive_NLP_Tasks - https://github.com/azminewasi/Awesome-LLMs-ICLR-24

Mindverse vs ChatGPT Plus Widget

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

✓

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen

✓

Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning

✓

Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)

✓

Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.