Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von KI-Agenten, die in komplexen und dynamischen Umgebungen agieren und lernen können, stellt eine zentrale Herausforderung in der Forschung dar. Ein entscheidender Aspekt hierbei ist die Fähigkeit von Agenten, Handlungsergebnisse vorherzusagen und Aktionen zu wählen, die ein Belohnungssignal maximieren, das den Fortschritt zum Ziel anzeigt. Traditionelle Ansätze, die auf überwachtem Lernen von Belohnungsmodellen basieren, können jedoch anfällig für Verzerrungen durch Trainingsdaten sein und die Generalisierungsfähigkeit auf neue Ziele und Umgebungen einschränken. Vor diesem Hintergrund konzentriert sich die aktuelle Forschung auf Methoden, die eine robuste Belohnungsvorhersage über verschiedene Domänen hinweg ermöglichen, basierend auf präzisen Weltzustandsrepräsentationen.
In vielen realen Szenarien ist es für Agenten nicht praktikabel, umfangreiche Trial-and-Error-Prozesse durchzuführen, um explizite Belohnungssignale zu erhalten. Dies macht den Einsatz von Weltmodellen, die die Konsequenzen von Aktionen als zukünftige Weltzustände vorhersagen, unerlässlich, um das Lernen von Strategien oder die Planungssuche zu leiten. Um die Zustandsprognosen von Weltmodellen effektiv nutzen zu können, müssen Agenten beurteilen, inwieweit ein vorhergesagter Zustand mit dem Ziel übereinstimmt, typischerweise über eine skalare Belohnung. Die genaue Vorhersage solcher Belohnungen mit effektiver Generalisierung ist ein Forschungsgebiet von grosser Bedeutung.
Der direkte Ansatz, Belohnungsmodelle mittels aufgabenspezifischer Überwachung zu trainieren, kann zu Überanpassung und geringer Generalisierungsfähigkeit in neuen Umgebungen führen. Eine vielversprechende Alternative besteht darin, den Aufgabenfortschritt durch Messung der semantischen Distanz zwischen dem aktuellen Zustand und dem gewünschten Zielzustand abzuschätzen. Dies vermeidet die explizite Belohnungsmodellierung und ermöglicht eine sogenannte Zero-Shot-Planung, also die Planung ohne vorheriges Training für eine spezifische Aufgabe.
Zwei wesentliche Engpässe bei der Verwendung von Weltzustandsdistanzen als Belohnungssignale sind jedoch zu nennen:
Um diese Herausforderungen zu adressieren, wurde eine neue Methode zur Zustandsrepräsentation namens StateFactory vorgestellt. StateFactory ist ein semantisches Faktorisierungs-Framework, das Weltzustände in hierarchische Objekt-Attribut-Strukturen faktorisiert. Unstrukturierte Beobachtungen werden dabei mithilfe grosser Sprachmodelle (LLMs) in atomare semantische Faktoren zerlegt. Die Belohnungssignale werden dann auf natürliche Weise durch die Messung der semantischen Ähnlichkeit zwischen dem aktuellen und dem Zielzustand über eine hierarchische Routing-Methode geschätzt. Dieser Prozess destilliert unstrukturierte Beobachtungen effektiv zu kompakten Abstraktionen und verbessert so die Zero-Shot-Belohnungsgeneralisierung.
Zur feingranularen Bewertung der Belohnungsvorhersage wurde der RewardPrediction Benchmark eingeführt. Dieser umfasst fünf interaktive Umgebungen:
Der Benchmark enthält insgesamt 2.454 einzigartige Trajektorien, jede mit schrittweisen Aktions-Beobachtungs-Paaren und Ground-Truth-Belohnungen. Dies ermöglicht die Bewertung jeder vorhergesagten Belohnung mittels der EPIC-Distanz, einem Mass, das die feingranulare Grösseninformation für eine robuste Planung bewahrt.
Die Evaluierung von StateFactory auf dem RewardPrediction Benchmark zeigt signifikante Vorteile gegenüber etablierten Baselines, sowohl bei überwachten als auch bei repräsentationsfreien Methoden.
Die überlegene Belohnungsvorhersage von StateFactory führt direkt zu einer verbesserten Planungsleistung von Agenten. Durch die Integration der Belohnungssignale von StateFactory in einen ReAct-Agenten (Reasoning + Acting) konnten signifikante Erfolgsraten erzielt werden:
Qualitative Analysen zeigen zudem, dass StateFactory die Agenten befähigt, "Argumentationsblockaden" zu überwinden, indem es eine kontinuierliche Belohnungsführung bietet. Dies ist besonders vorteilhaft für die Planung über längere Horizonte, wo reine Logik oft versagt.
Umfassende Ablationsstudien beleuchten die einzelnen Komponenten von StateFactory und deren Beitrag zur Gesamtleistung:
Die Forschung zeigt, dass strukturierte textbasierte Weltzustandsrepräsentationen eine genaue und generalisierbare Belohnungsvorhersage ermöglichen können. StateFactory, ein Zero-Shot-Framework, das Beobachtungen in hierarchische Objekt-Attribut-Strukturen faktorisiert, erzielt eine überlegene Vorhersagegenauigkeit. Diese zustandsgesteuerten Signale verbessern die Planungsleistung von Agenten erheblich und bieten eine effektive Anleitung für die strukturierte Suche, die auf physischen Beweisen basiert. Die Erkenntnisse aus dieser Arbeit sind von grosser Relevanz für die Weiterentwicklung von KI-Agenten, die in komplexen, dynamischen und textbasierten Umgebungen agieren sollen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen