Neuartiges Framework zur Bewertung der menschlichen Ähnlichkeit von User-Proxy-Agenten

Kategorien:

No items found.

Freigegeben:

January 24, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

MirrorBench ist ein neuartiges, erweiterbares Framework zur Bewertung von User-Proxy-Agenten hinsichtlich ihrer menschlichen Ähnlichkeit.
Es trennt die Bewertung der menschlichen Ähnlichkeit explizit vom Erfolg der zugrunde liegenden Aufgabe.
Das Framework nutzt eine modulare Architektur mit sechs Schichten, die Infrastruktur von Bewertungslogik trennt.
Es bewertet die menschliche Ähnlichkeit anhand von zwei Hauptmetrikfamilien: lexikalische Diversitätsmetriken und LLM-Richter-basierte Realismusmetriken.
Experimente mit verschiedenen LLMs als User-Proxies zeigen, dass Modelle wie Gemini-2.5-Pro und Claude-4-Sonnet eine hohe menschliche Ähnlichkeit aufweisen, während es Spannungen zwischen Realismus und lexikalischer Diversität gibt.
Die Wahl des beurteilenden LLMs (Richter) kann die Ergebnisse signifikant beeinflussen, weshalb Kalibrierung und der Einsatz mehrerer Richter empfohlen werden.
MirrorBench ist quelloffen und bietet eine Befehlszeilenschnittstelle für die Durchführung von Experimenten und die Berichterstattung.

MirrorBench: Ein erweiterbares Framework zur Bewertung der menschlichen Ähnlichkeit von User-Proxy-Agenten

Die fortschreitende Entwicklung grosser Sprachmodelle (LLMs) hat deren Anwendungsmöglichkeiten erheblich erweitert. Eine dieser Anwendungen ist die Nutzung von LLMs als sogenannte User-Proxy-Agenten, die menschliche Nutzer in Konversationen simulieren. Diese Agenten dienen sowohl der Bewertung konversationeller Systeme als auch der Generierung von Feinabstimmungsdaten. Allerdings führen naive Anweisungen wie "Verhalte dich wie ein Nutzer" oft zu wortreichen und unrealistischen Äusserungen, was die Notwendigkeit einer prinzipiengeleiteten Bewertung dieser User-Proxy-Agenten unterstreicht. Vor diesem Hintergrund wurde MirrorBench entwickelt, ein reproduzierbares und erweiterbares Benchmarking-Framework, das User-Proxies ausschliesslich auf ihre Fähigkeit hin bewertet, menschenähnliche Nutzeräusserungen in vielfältigen Konversationsaufgaben zu erzeugen.

Die Herausforderung der menschlichen Ähnlichkeit

Die Simulation menschlichen Verhaltens in Dialogsystemen ist ein komplexes Feld. Frühe Benutzersimulatoren waren oft zielgesteuert oder regelbasiert. Aktuelle Entwicklungen nutzen LLM-basierte User-Proxies, um realistischere und offene Interaktionen zu generieren. Während diese Simulatoren das Potenzial LLM-gesteuerter Benutzeragenten für die Erzeugung hochwertiger Dialoge aufzeigen, bleibt die präzise Messung ihrer menschlichen Ähnlichkeit eine Herausforderung. Die reine Aufgabenbewältigung reicht nicht aus; vielmehr ist es entscheidend, wie menschlich die Interaktionen wirken. MirrorBench begegnet dieser Herausforderung, indem es die Bewertung der menschlichen Ähnlichkeit explizit vom Erfolg der zugrunde liegenden Aufgabe entkoppelt. Dies bedeutet, dass der Fokus darauf liegt, wie natürlich und realistisch ein Agent agiert, unabhängig davon, ob er die Konversationsaufgabe perfekt löst.

Architektur und modulare Gestaltung von MirrorBench

MirrorBench zeichnet sich durch eine robuste und modulare Architektur aus, die in sechs Schichten unterteilt ist. Diese Struktur gewährleistet eine klare Trennung zwischen Infrastruktur und Bewertungslogik, was die Erweiterbarkeit und Reproduzierbarkeit des Frameworks fördert. Jede Schicht erfüllt spezifische Funktionen:

Ausführungs-Backends & Persistenz: Diese Basisschicht unterstützt die Ausführung von Bewertungseinheiten synchron, asynchron oder verteilt (z.B. mit Ray) und verwaltet die dauerhafte Speicherung von Metadaten, Episoden, Metrikwerten und Telemetriedaten in einer SQLite-Datenbank und im Dateisystem.
Kern-Engine: Hier werden stark typisierte Datenmodelle für alle Artefakte (z.B. Nachrichten, Metrikparameter) definiert. Sie analysiert Konfigurationen, erstellt Laufmanifeste zur Reproduzierbarkeit und verwendet ein Metadaten-gesteuertes Registrierungssystem zur Validierung der Komponentenkompatibilität.
Orchestrierung: Der Planer generiert kompatible Bewertungseinheiten (Kombinationen aus User-Proxy, Datensatz, Metrik und Zufallssamen) aus der Jobkonfiguration. Ein Lauf-Controller plant diese Einheiten auf dem ausgewählten Backend, verwaltet Wiederholungsversuche und protokolliert die Ausführungsherkunft. Eine Caching-Schicht reduziert redundante LLM-API-Aufrufe, und eine Beobachtungsschicht bietet strukturiertes Logging und OpenTelemetry-Integration.
Plugin-Komponenten: Diese Schicht beherbergt die modulare Domänenlogik, einschliesslich LLM-Clients (Wrapper für Provider-SDKs), User-Proxy-Adapter (standardisierte Schnittstellen für verschiedene Agenten), Datensätze (normalisierte Loader für diverse Korpora) und Bewertungsmetriken.
Aufgaben-Treiber: Diese Komponenten kodieren die Interaktionsprotokolle zwischen dem User-Proxy und einem Assistentenmodell für spezifische Aufgaben. Der "Mirror Conversation Driver" orchestriert beispielsweise mehrstufige Dialoge, indem er Proxy-Assistent-Interaktionen entsprechend der Struktur und Ziele menschlicher Referenzdialoge synthetisiert.
API & CLI: Die oberste Schicht bietet eine programmatische API-Fassade und eine umfassende Befehlszeilenschnittstelle für die Planung, das Dry-Running, die Ausführung, Berichterstattung und Verwaltung von Bewertungsexperimenten.

Diese modulare Struktur ermöglicht es Forschenden und Entwicklern, eigene Agenten und Metriken in das Framework zu integrieren und dabei eine konsistente Orchestrierung und Protokollierung sicherzustellen.

Metriken zur Quantifizierung menschlicher Ähnlichkeit

MirrorBench quantifiziert die menschliche Ähnlichkeit von User-Proxies mithilfe von zwei Hauptfamilien von Metriken, die auf menschliches Verhalten ausgerichtet sind:

Lexikalische Diversitätsmetriken

Diese Metriken bewerten den Wortschatzreichtum und die Wiederholungsmuster der von den Agenten generierten Äusserungen. Da Rohwerte empfindlich auf Sequenzlänge, Domäne und Tokenisierung reagieren, werden die Proxy-Scores anhand der empirischen Verteilung menschlicher Äusserungen aus demselben Datensatz und derselben Tokenisierung normalisiert (Z-Score). Ein Z-Score von 0 weist darauf hin, dass das lexikalische Verhalten des Proxys dem menschlichen Mittelwert entspricht.

Moving-Average Type-Token Ratio (MATTR): Diese Metrik mildert Verzerrungen durch die Länge, indem sie die Type-Token Ratio (TTR) über ein gleitendes Fenster mittelt.
Yule’s K: Fasst die Wiederholungsrate aus dem Token-Frequenzspektrum zusammen. Ein niedrigerer K-Wert deutet auf einen reichhaltigeren, weniger repetitiven Text hin.
Hypergeometric Distribution Diversity (HD-D): Schätzt die Vokabularvielfalt durch hypergeometrische Stichprobenziehung und ist robust gegenüber Längenvariationen.

LLM-Richter-basierte Realismusmetriken

Lexikalische Diversität allein kann nicht vollständig erfassen, ob ein simulierter Benutzer "menschlich" wirkt. Menschliche Ähnlichkeit hängt auch von Diskursphänomenen wie Ton, Höflichkeit, Zögern oder Stil ab. MirrorBench integriert daher LLM-basierte Evaluatoren, die das Proxy-Verhalten anhand menschlicher Referenzen und auf höherer Ebene bewerten.

GTEval: Relative Realismusbewertung: Vergleicht ein vom Proxy generiertes Transkript mit einer menschlichen Referenz und gibt einen Ähnlichkeitswert zwischen 0 und 1 zurück. Höhere Werte bedeuten, dass der Proxy menschenähnlicher agiert.
Pairwise Indistinguishability (PI): Ein Richter-LLM wählt aus zwei anonymisierten Konversationen (eine vom Proxy, eine menschliche Referenz), welche menschlicher klingt. Eine Kalibrierung hilft, die Präferenz für den Proxy oder die menschliche Basislinie zu quantifizieren.
Rubric-and-Reason (RNR): Eine referenzfreie Metrik, bei der der Richter nur das Proxy-Transkript und eine Rubrik zur Definition von Realismusdimensionen (z.B. Prägnanz, Verhalten, Ton) sieht und ein binäres Urteil ("JA"/"NEIN") abgibt.

Um die Zuverlässigkeit der Richtersysteme zu erhöhen, können diese mit einem "Self-Consistency"-Parameter (c ≥ 1) mehrfach mit unterschiedlichen Zufallssamen ausgeführt werden, wobei die Ergebnisse gemittelt werden. Zudem werden optionale Kontrollbedingungen wie "Human-Human (HH)" und "Proxy-Proxy (PP)" berechnet, um Richterneigungen aufzudecken und die Scores zu kalibrieren.

Datensätze und Experimente

Für die Bewertung der User-Proxies wurden vier quelloffene Konversationsdatensätze verwendet, die verschiedene Domänen und Interaktionsmuster abdecken: QULAC, ClariQ, OASST1 und ChatbotArena. Diese Datensätze umfassen insgesamt 795 reale menschliche Konversationen, die einen direkten Vergleich zwischen den vom Proxy generierten und den realen Benutzerverhaltensweisen ermöglichen.

Die Datensätze werden in einem einheitlichen JSONL-Format vorverarbeitet. Für jede Konversation wird eine Benutzerzielbeschreibung mithilfe eines unterstützenden LLM generiert, die die Absicht, das Verhalten, den Ton und die Persona des Benutzers basierend auf der realen Konversation zusammenfasst. Diese Beschreibung dient als Initialisierungsaufforderung für die User-Proxies während der Bewertung.

In den Experimenten wurden fünf verschiedene LLMs als User-Proxies verglichen: GPT-4o, GPT-5, GPT-OSS-120B, Claude-4-Sonnet und Gemini-2.5-Pro. Standardmässig wurde GPT-4o als Assistent und Claude-4-Sonnet als Richter verwendet, um eine vergleichbare Basis für die Bewertung zu schaffen.

Wichtige Ergebnisse der Experimente:

Konsistenz des Richter-Realismus: Über alle Datensätze hinweg zeigten Gemini-2.5-Pro und Claude-4-Sonnet die höchste menschliche Ähnlichkeit, gefolgt von GPT-4o. GPT-OSS-120B und GPT-5 lagen tendenziell zurück. Die Übereinstimmung der drei Richter-Metriken (GTEval, PI, RNR) deutet auf eine stabile Rangordnung hin.
Spannung zwischen Diversität und Realismus: Die lexikalische Diversität zeigte starke datensatzabhängige Effekte und eine Spannung zum Realismus-Ranking. Während beispielsweise Claude-4-Sonnet und GPT-5 in ClariQ eine höhere lexikalische Diversität als menschliche Nutzer aufwiesen, zeigten alle Proxies in QULAC ein einheitliches Diversitätsdefizit. Gemini-2.5-Pro zeigte die stärkste Diversitätsübereinstimmung mit Menschen über alle Datensätze hinweg.
Richter-Sensitivität: Die Wahl des Richtermodells hatte einen erheblichen Einfluss auf die absoluten Werte und die Rangfolge der Modelle. Dies unterstreicht die Notwendigkeit, Bewertungen mit mehreren Richtern durchzuführen und Kalibrierungsmechanismen (HH/PP-Kontrollen) zu nutzen, um Verzerrungen zu minimieren.
Mensch-Richter-Korrelation: Die Richter-Scores korrelierten positiv mit menschlichen Wahrnehmungen der User-Proxy-Qualität, wobei GTEval eine stärkere Übereinstimmung zeigte als PI.
Telemetrie und Kosten: Die Telemetriedaten zeigten, dass die Token-Nutzung hauptsächlich vom Richter dominiert wird. Die Kosten-Qualitäts-Abwägung verdeutlichte, dass Gemini-2.5-Pro und Claude-4-Sonnet attraktive Pareto-Punkte bieten (gute PI-Werte bei moderaten Kosten), während GPT-5 höhere Kosten bei geringerem PI-Gewinn verursachte.

Fazit und Ausblick

MirrorBench bietet ein prinzipiengeleitetes und systemorientiertes Framework zur Bewertung der menschlichen Ähnlichkeit von User-Proxy-Agenten, das explizit vom Erfolg der nachgelagerten Aufgabe entkoppelt ist. Die modulare Architektur, die umfassenden Metriken und die Unterstützung für skalierbare, reproduzierbare Experimente machen es zu einem wertvollen Werkzeug für die Forschung und Entwicklung im Bereich der konversationellen KI.

Die Ergebnisse der empirischen Studien zeigen eine Spannung zwischen Realismus und lexikalischer Diversität in verschiedenen Domänen und unterstreichen die Notwendigkeit einer Kalibrierung und des Einsatzes mehrerer Richter, um die Sensitivität gegenüber der Wahl des Beurteilungsmodells zu adressieren. Telemetrie- und Kostenanalysen beleuchten zudem die praktischen Abwägungen bei gross angelegten Bewertungen.

Zukünftige Arbeiten könnten die Entwicklung von Multi-Richter-Ensembles, die Erweiterung der Metriken um Diskurs- und Interaktionsebenen, die Nutzung breiterer und mehrsprachiger Datensätze sowie die Verbesserung der Berichtsgenerierung umfassen. Ziel ist es, MirrorBench als praktisches Evaluierungs-Framework und standardisierte Benchmark für die Messung des User-Proxy-Realismus zu etablieren.

Bibliographie

Hathidara, A., Yu, J., Senthil, V., Schreiber, S., & Ankisettipalli, A. B. (2026). MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness. arXiv preprint arXiv:2601.08118.
SAP. (2026). SAP/mirrorbench. GitHub Repository.
TheMoonlight.io. (n.d.). MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness.
Hugging Face. (n.d.). MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness.
alphaXiv. (n.d.). MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness.
Chatpaper.ai. (n.d.). AI Research Papers Daily.