Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung grosser Sprachmodelle (LLMs) hat deren Anwendungsmöglichkeiten erheblich erweitert. Eine dieser Anwendungen ist die Nutzung von LLMs als sogenannte User-Proxy-Agenten, die menschliche Nutzer in Konversationen simulieren. Diese Agenten dienen sowohl der Bewertung konversationeller Systeme als auch der Generierung von Feinabstimmungsdaten. Allerdings führen naive Anweisungen wie "Verhalte dich wie ein Nutzer" oft zu wortreichen und unrealistischen Äusserungen, was die Notwendigkeit einer prinzipiengeleiteten Bewertung dieser User-Proxy-Agenten unterstreicht. Vor diesem Hintergrund wurde MirrorBench entwickelt, ein reproduzierbares und erweiterbares Benchmarking-Framework, das User-Proxies ausschliesslich auf ihre Fähigkeit hin bewertet, menschenähnliche Nutzeräusserungen in vielfältigen Konversationsaufgaben zu erzeugen.
Die Simulation menschlichen Verhaltens in Dialogsystemen ist ein komplexes Feld. Frühe Benutzersimulatoren waren oft zielgesteuert oder regelbasiert. Aktuelle Entwicklungen nutzen LLM-basierte User-Proxies, um realistischere und offene Interaktionen zu generieren. Während diese Simulatoren das Potenzial LLM-gesteuerter Benutzeragenten für die Erzeugung hochwertiger Dialoge aufzeigen, bleibt die präzise Messung ihrer menschlichen Ähnlichkeit eine Herausforderung. Die reine Aufgabenbewältigung reicht nicht aus; vielmehr ist es entscheidend, wie menschlich die Interaktionen wirken. MirrorBench begegnet dieser Herausforderung, indem es die Bewertung der menschlichen Ähnlichkeit explizit vom Erfolg der zugrunde liegenden Aufgabe entkoppelt. Dies bedeutet, dass der Fokus darauf liegt, wie natürlich und realistisch ein Agent agiert, unabhängig davon, ob er die Konversationsaufgabe perfekt löst.
MirrorBench zeichnet sich durch eine robuste und modulare Architektur aus, die in sechs Schichten unterteilt ist. Diese Struktur gewährleistet eine klare Trennung zwischen Infrastruktur und Bewertungslogik, was die Erweiterbarkeit und Reproduzierbarkeit des Frameworks fördert. Jede Schicht erfüllt spezifische Funktionen:
Diese modulare Struktur ermöglicht es Forschenden und Entwicklern, eigene Agenten und Metriken in das Framework zu integrieren und dabei eine konsistente Orchestrierung und Protokollierung sicherzustellen.
MirrorBench quantifiziert die menschliche Ähnlichkeit von User-Proxies mithilfe von zwei Hauptfamilien von Metriken, die auf menschliches Verhalten ausgerichtet sind:
Diese Metriken bewerten den Wortschatzreichtum und die Wiederholungsmuster der von den Agenten generierten Äusserungen. Da Rohwerte empfindlich auf Sequenzlänge, Domäne und Tokenisierung reagieren, werden die Proxy-Scores anhand der empirischen Verteilung menschlicher Äusserungen aus demselben Datensatz und derselben Tokenisierung normalisiert (Z-Score). Ein Z-Score von 0 weist darauf hin, dass das lexikalische Verhalten des Proxys dem menschlichen Mittelwert entspricht.
Lexikalische Diversität allein kann nicht vollständig erfassen, ob ein simulierter Benutzer "menschlich" wirkt. Menschliche Ähnlichkeit hängt auch von Diskursphänomenen wie Ton, Höflichkeit, Zögern oder Stil ab. MirrorBench integriert daher LLM-basierte Evaluatoren, die das Proxy-Verhalten anhand menschlicher Referenzen und auf höherer Ebene bewerten.
Um die Zuverlässigkeit der Richtersysteme zu erhöhen, können diese mit einem "Self-Consistency"-Parameter (c ≥ 1) mehrfach mit unterschiedlichen Zufallssamen ausgeführt werden, wobei die Ergebnisse gemittelt werden. Zudem werden optionale Kontrollbedingungen wie "Human-Human (HH)" und "Proxy-Proxy (PP)" berechnet, um Richterneigungen aufzudecken und die Scores zu kalibrieren.
Für die Bewertung der User-Proxies wurden vier quelloffene Konversationsdatensätze verwendet, die verschiedene Domänen und Interaktionsmuster abdecken: QULAC, ClariQ, OASST1 und ChatbotArena. Diese Datensätze umfassen insgesamt 795 reale menschliche Konversationen, die einen direkten Vergleich zwischen den vom Proxy generierten und den realen Benutzerverhaltensweisen ermöglichen.
Die Datensätze werden in einem einheitlichen JSONL-Format vorverarbeitet. Für jede Konversation wird eine Benutzerzielbeschreibung mithilfe eines unterstützenden LLM generiert, die die Absicht, das Verhalten, den Ton und die Persona des Benutzers basierend auf der realen Konversation zusammenfasst. Diese Beschreibung dient als Initialisierungsaufforderung für die User-Proxies während der Bewertung.
In den Experimenten wurden fünf verschiedene LLMs als User-Proxies verglichen: GPT-4o, GPT-5, GPT-OSS-120B, Claude-4-Sonnet und Gemini-2.5-Pro. Standardmässig wurde GPT-4o als Assistent und Claude-4-Sonnet als Richter verwendet, um eine vergleichbare Basis für die Bewertung zu schaffen.
MirrorBench bietet ein prinzipiengeleitetes und systemorientiertes Framework zur Bewertung der menschlichen Ähnlichkeit von User-Proxy-Agenten, das explizit vom Erfolg der nachgelagerten Aufgabe entkoppelt ist. Die modulare Architektur, die umfassenden Metriken und die Unterstützung für skalierbare, reproduzierbare Experimente machen es zu einem wertvollen Werkzeug für die Forschung und Entwicklung im Bereich der konversationellen KI.
Die Ergebnisse der empirischen Studien zeigen eine Spannung zwischen Realismus und lexikalischer Diversität in verschiedenen Domänen und unterstreichen die Notwendigkeit einer Kalibrierung und des Einsatzes mehrerer Richter, um die Sensitivität gegenüber der Wahl des Beurteilungsmodells zu adressieren. Telemetrie- und Kostenanalysen beleuchten zudem die praktischen Abwägungen bei gross angelegten Bewertungen.
Zukünftige Arbeiten könnten die Entwicklung von Multi-Richter-Ensembles, die Erweiterung der Metriken um Diskurs- und Interaktionsebenen, die Nutzung breiterer und mehrsprachiger Datensätze sowie die Verbesserung der Berichtsgenerierung umfassen. Ziel ist es, MirrorBench als praktisches Evaluierungs-Framework und standardisierte Benchmark für die Messung des User-Proxy-Realismus zu etablieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen