Effiziente Analyse von Interaktionsverläufen in agentischen Systemen mittels des Signals-Frameworks

Kategorien:

No items found.

Freigegeben:

April 6, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Agentische Anwendungen, die auf großen Sprachmodellen (LLMs) basieren, nutzen zunehmend mehrstufige Interaktionsschleifen.
Die Verbesserung dieser Systeme nach der Bereitstellung ist aufgrund des Umfangs und der Nicht-Deterministik von Agenten-Trajektorien eine Herausforderung.
Ein leichtgewichtiges, signalbasiertes Framework namens "Signals" wurde entwickelt, um informative Interaktionstrajektorien effizient zu identifizieren.
"Signals" klassifiziert Trajektorien anhand einer Taxonomie von Interaktions-, Ausführungs- und Umweltsignalen, die ohne Modellaufrufe berechnet werden.
Empirische Validierungen zeigen, dass signalbasiertes Sampling eine höhere Informativitätsrate (82 %) und eine Effizienzsteigerung (1,52x) gegenüber Zufalls- und Heuristik-Sampling bietet.
Das Framework ermöglicht eine gezieltere menschliche Überprüfung und Datenerfassung für die Nachbereitungsoptimierung von agentischen Systemen.

Die rapide Entwicklung von Large Language Models (LLMs) hat zu einer neuen Generation agentischer Anwendungen geführt, die komplexe, mehrstufige Interaktionen mit Benutzern und der Umgebung ermöglichen. Diese "agentischen Systeme" sind nicht nur in der Lage, Anfragen zu verstehen, sondern auch Aktionen auszuführen, zu planen und Feedback zu verarbeiten. Beispiele hierfür reichen von assistierenden Chatbots bis hin zu autonomen Systemen, die Werkzeuge nutzen und auf Umgebungsdaten reagieren. Doch mit der zunehmenden Verbreitung dieser Systeme in realen Anwendungen entstehen auch erhebliche Herausforderungen bei deren kontinuierlicher Verbesserung und Wartung nach der initialen Bereitstellung.

Die Herausforderung der Trajektorien-Analyse in agentischen Systemen

Ein zentrales Problem bei der Optimierung von LLM-basierten Agenten ist die Analyse ihrer Interaktionsverläufe, auch Trajektorien genannt. Diese Trajektorien sind oft voluminös und nicht-deterministisch, was bedeutet, dass selbst bei identischen Startbedingungen unterschiedliche Verläufe entstehen können. Eine manuelle Überprüfung jeder einzelnen Trajektorie durch menschliche Experten ist zeitaufwendig und kostenintensiv. Auch der Einsatz zusätzlicher LLMs zur Bewertung dieser Verläufe erweist sich in der Praxis als zu teuer und langsam, insbesondere im grossen Massstab. Dies führt zu einer Lücke zwischen den umfangreichen Verhaltensdaten, die von Agenten generiert werden, und den Methoden zur Präferenzlernen, die für die Verbesserung der Modelle unerlässlich sind.

Manuelle Überprüfung und ihre Grenzen

Traditionell verlassen sich Entwickler oft auf die manuelle Inspektion von Trajektorien, um Fehlerursachen zu identifizieren und Prompt- oder Tool-Definitionen anzupassen. Diese Methode ist jedoch nicht skalierbar. Agenten können flüssige und freundliche Konversationen führen, während sie gleichzeitig auf Ausführungsebene katastrophal versagen. Zudem ist es schwierig, zuverlässige Indikatoren für unproduktive Schleifen oder frustrierte Benutzer zu finden.

Kosten und Komplexität der LLM-basierten Bewertung

Obwohl "LLM-as-a-judge"-Ansätze vielversprechend sind und in strukturierten Aufgaben eine hohe Übereinstimmung mit menschlichen Präferenzen zeigen, sind sie für die Bewertung jeder einzelnen Trajektorie in einem Produktionssystem zu kostspielig. Frühere Arbeiten zur Dialogqualität, die automatische Qualitätsindikatoren aus Konversationsmerkmalen ableiten, sind oft nicht direkt auf agentische Systeme übertragbar, da diese sowohl eine Diskurs- als auch eine Ausführungsebene umfassen.

"Signals": Ein Framework für effizientes Trajektorien-Triage

Um diese Herausforderungen zu adressieren, wurde ein leichtgewichtiges, signalbasiertes Framework namens "Signals" vorgeschlagen. Dieses Framework zielt darauf ab, informative Trajektorien für die nachgelagerte Analyse und Optimierung zu identifizieren, ohne dabei die Online-Verhaltensweise des Agenten zu beeinflussen oder kostspielige Modellaufrufe zu erfordern. Die Kernidee besteht darin, aus Live-Interaktionen "Signale" zu generieren – deskriptive Marker wiederkehrender Verhaltensmuster –, die als strukturierte Attribute an die Trajektorien angehängt werden.

Die Signal-Taxonomie

Das Framework organisiert diese Signale in einer grobkörnigen Taxonomie, die drei Hauptkategorien umfasst:

1. Interaktionssignale (Lernorientiert)

Diese Signale werden aus der natürlichen Sprache zwischen Benutzer und Agent berechnet und spiegeln wider, wie sich die Interaktion auf der Diskursebene entwickelt. Sie sind lernrelevant, da sie Erfolgs- und Fehlermodi aufzeigen, die für Benutzer direkt erkennbar sind.

Fehlausrichtung: Erfasst semantische oder Absichts-Diskrepanzen, wie Umformulierungen, Korrekturen oder Missverständnisse. Sie zeigen an, dass ein gemeinsames Verständnis noch nicht etabliert wurde.
Stagnation: Beschreibt Fälle, in denen der Diskurs fortgesetzt wird, aber keine sichtbaren Fortschritte erzielt werden, z. B. durch sich wiederholende Antworten oder zirkuläre Erklärungen.
Desengagement: Markiert den Rückzug der kooperativen Absicht, einschliesslich expliziter Abbruchanfragen oder stark negativer Haltungen.
Zufriedenheit: Zeigt eine erfolgreiche Konvergenz und den Abschluss der Interaktion an, z. B. durch Dankesbekundungen oder Erfolgsbestätigungen. Diese Signale dienen dazu, exemplarische Trajektorien zu identifizieren.

2. Ausführungssignale (Lernorientiert)

Diese Signale werden aus strukturierten Laufzeitereignissen abgeleitet, die vom internen Kontrollkreislauf des Agenten ausgegeben werden. Sie sind modalitätsunabhängig, deterministisch und spiegeln das Entscheidungsverhalten des Agenten wider.

Fehler: Erfasst Aktionsversuche, die kein nutzbares oder aufgabenförderndes Ergebnis liefern, ohne die Schuld dem Agenten oder der Umgebung zuzuschreiben.
Schleife: Beschreibt sich wiederholende Ausführungsmuster, bei denen der Agent aktiv bleibt, aber keine Fortschritte erzielt, z. B. Wiederholungsversuche oder Oszillationen zwischen Strategien.

3. Umweltsignale (Diagnoseorientiert)

Umweltsignale erfassen Fehler und Einschränkungen, die aus dem umgebenden System resultieren, nicht aus der internen Politik oder dem Denken des Agenten. Sie sind für die Beobachtbarkeit und Diagnose unerlässlich, aber nicht als Trainingsüberwachung geeignet.

Erschöpfung: Erfasst Grenz- und Infrastrukturbedingungen, wie Kontextüberläufe, Ratenbegrenzungen oder API-Fehler, die das Verhalten unabhängig von der Kompetenz des Agenten beenden oder beeinträchtigen.

Detektionsmechanismen

Die Erkennung von Interaktionssignalen erfolgt mittels leichter Normalisierung und interpretierbarer, fehlertoleranter Abgleiche von Benutzerbeiträgen. Fehlausrichtung, Desengagement und Zufriedenheit werden hauptsächlich durch phrasenbasierte Hinweise ausgelöst, ergänzt durch lokale Ähnlichkeitsprüfungen. Stagnation wird durch einfache Diskurs-Heuristiken erkannt, die Wiederholung und Ineffizienz zusammenfassen. Ausführungsfehler werden durch die Klassifizierung nicht voranschreitender Tool-Ergebnisse und deren Verknüpfung mit der auslösenden Aktion detektiert. Ausführungsschleifen werden mittels Sequenzanalyse über Aufrufströme identifiziert, die wiederholte Aufrufe mit identischen oder systematisch variierenden Eingaben erkennen. Erschöpfung wird aus Tool-Beobachtungen durch die Identifizierung externer Fehler- und Ressourcenlimit-Indikatoren in Systemausgaben erkannt.

Experimentelle Validierung und Ergebnisse

Die Wirksamkeit des "Signals"-Frameworks wurde in einer kontrollierten Anmerkungsstudie auf dem τ-bench-Benchmark evaluiert, der Multiturn-Konversationen zwischen simulierten Benutzern und Tool-ausgestatteten Agenten in zwei Domänen (Fluggesellschaft und Einzelhandel) emuliert. Ziel war es, zu überprüfen, ob signalbasiertes Sampling einen höheren Anteil entwicklerinformativer Trajektorien liefert als Basisstrategien, und dies bei einem festen Annotationsbudget.

Experimenteller Aufbau

Es wurden drei Sampling-Methoden verglichen, wobei jede 100 Trajektorien zog:

Zufällig: Eine gleichmässige Stichprobenziehung aus dem gesamten Trajektorienpool als unvoreingenommene Baseline.
Heuristisch: Trajektorien, die mindestens 10 Benutzernachrichten enthielten, basierend auf der Annahme, dass längere Konversationen komplexer oder fehleranfälliger sind.
Signalbasiert: Trajektorien, die durch die kombinierten Interaktions- und Ausführungssignale ausgewählt wurden. Umweltsignale wurden hierbei ausgeschlossen, da sie hauptsächlich der Diagnose dienen.

Drei erfahrene Annotatoren bewerteten unabhängig voneinander alle 300 Trajektorien hinsichtlich ihrer Informativität für Entwickler und dem Hauptgrund für die Informativität. Die primäre Metrik war die Informativitätsrate: der Anteil der als entwicklerinformativ eingestuften Trajektorien.

Hauptergebnisse

Das signalbasierte Sampling erreichte die höchste Informativitätsrate von 82,0 %. Im Vergleich dazu erreichte das heuristische Sampling 74,0 % und das zufällige Sampling lediglich 54,0 %. Dies bedeutet, dass etwa vier von fünf vom signalbasierten Sampling ausgewählten Trajektorien nützliche diagnostische oder verhaltensbezogene Hinweise lieferten. Der Unterschied zwischen signalbasiertem und zufälligem Sampling war statistisch hochsignifikant.

Effizienzsteigerung

Bei einem festen Budget von 100 Annotationen lieferte das signalbasierte Sampling 82 informative Trajektorien, verglichen mit 74 beim heuristischen und 54 beim zufälligen Sampling. Dies entspricht einem 1,52-fachen Effizienzgewinn pro informativer Trajektorie gegenüber der unvoreingenommenen Baseline.

Belohnungs-stratifizierte Analyse

Die Analyse, stratifiziert nach dem Erfolg (binäre Belohnung) der Trajektorien, zeigte, dass das heuristische Sampling überwiegend fehlgeschlagene Trajektorien (70 %) auswählte, während das signalbasierte Sampling eine ausgewogenere Mischung (52 % fehlgeschlagen) zog. Insbesondere bei erfolgreichen Trajektorien, die dennoch informative Muster wie Richtlinienverstösse oder ineffiziente Tool-Nutzung enthielten, identifizierte das signalbasierte Sampling deutlich mehr informative Fälle (66,7 %) als das heuristische (50,0 %) oder zufällige (41,3 %) Sampling. Dies bestätigt, dass "Signals" echte Informativitätsgewinne pro Trajektorie liefert und nicht nur offensichtliche Fehler überproportional erfasst.

Kategorieverteilung und Domänenrobustheit

Die Verteilung der annotierten Gründe für informative Trajektorien blieb über alle drei Strategien hinweg stabil, was darauf hindeutet, dass das Signal-Framework die Art der aufgedeckten Probleme nicht verzerrt, sondern lediglich mehr davon identifiziert. Zudem zeigte sich die Überlegenheit des signalbasierten Samplings besonders in komplexeren Domänen wie dem Einzelhandel, wo es den grössten marginalen Wert lieferte.

Grenzen und zukünftige Richtungen

Obwohl das "Signals"-Framework vielversprechende Ergebnisse liefert, gibt es gewisse Einschränkungen. Die Experimente wurden auf einem Benchmark mit LLM-simulierten Benutzern durchgeführt, was die Variabilität realer Desengagement- und Zufriedenheitsmuster möglicherweise unterrepräsentiert. Die Taxonomie ist zudem grobkörnig und verhaltensbezogen; sie erfasst keine semantische Korrektheit oder domänenspezifische Richtlinienverstösse. Trajektorien, die sprachlich flüssig, aber faktisch falsch sind, werden vom aktuellen Framework möglicherweise nicht erfasst. Zukünftige Arbeiten könnten die Integration modellbasierter Detektoren oder hybride Architekturen in Betracht ziehen, um die Erkennungsgenauigkeit für subtilere Muster zu verbessern.

Fazit

Das "Signals"-Framework stellt einen bedeutenden Fortschritt in der effizienten Analyse und Optimierung agentischer Systeme dar. Durch die Bereitstellung eines leichtgewichtigen, signalbasierten Ansatzes für das Triage von Interaktionstrajektorien ermöglicht es Entwicklern, informative Verläufe gezielter zu identifizieren und somit den Prozess der Datenerfassung und Modellverbesserung erheblich zu beschleunigen. Die Fähigkeit, relevante Informationen ohne teure Modellaufrufe zu gewinnen, macht dieses Framework besonders praktikabel für den Einsatz in realen Produktionsumgebungen. Dies ebnet den Weg für die Konstruktion hochwertiger Präferenzdaten und die post-deployment Optimierung von LLM-basierten Agenten.

Bibliography

- A. R. Feinstein and D. V. Cicchetti (1990) High agreement but low kappa: i. the problems of two paradoxes.. Journal of clinical epidemiology 43 6, pp. 543–9. - S. Fox, K. Karnawat, M. Mydland, S. T. Dumais, and T. White (2005) Evaluating implicit measures to improve web search. ACM Trans. Inf. Syst. 23 (2), pp. 147–168. - K. L. Gwet (2008) Computing inter-rater reliability and its variance in the presence of high agreement.. The British journal of mathematical and statistical psychology 61 Pt 1, pp. 29–48. - R. Higashinaka, K. Funakoshi, Y. Kobayashi, and M. Inaba (2016-05) The dialogue breakdown detection challenge: task description, datasets, and evaluation metrics. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), N. Calzolari, K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, and S. Piperidis (Eds.), Portorož, Slovenia, pp. 3146–3150. - M. Higgins, D. Widdows, B. A. Hockey, A. Hazare, K. Howell, G. Christian, S. Mathi, C. Brew, A. Maurer, G. Bonev, M. Dunn, and J. Bradley (2024) Actionable conversational quality indicators for improving task-oriented dialog systems. Natural Language Engineering 30 (6). - T. Joachims (2002) Optimizing search engines using clickthrough data. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 133–142. - H. Lightman, V. Kosaraju, Y. Burda, H. Edwards, B. Baker, T. Lee, J. Leike, J. Schulman, I. Sutskever, and K. Cobbe (2024) Let’s verify step by step. In The Twelfth International Conference on Learning Representations. - A. Madaan, N. Tandon, P. Gupta, S. Hallinan, L. Gao, S. Wiegreffe, U. Alon, N. Dziri, S. Prabhumoye, Y. Yang, et al. (2023) Self-refine: iterative refinement with self-feedback. Advances in neural information processing systems 36, pp. 46534–46594. - L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, et al. (2022) Training language models to follow instructions with human feedback. Advances in neural information processing systems 35, pp. 27730–27744. - M. Pan, N. Arabzadeh, R. Cogo, Y. Zhu, A. Xiong, L. A. Agrawal, H. Mao, E. Shen, S. Pallerla, L. Patel, S. Liu, T. Shi, X. Liu, J. Q. Davis, E. Lacavalla, A. Basile, S. Yang, P. Castro, D. Kang, K. Sen, D. Song, J. E. Gonzalez, I. Stoica, M. Zaharia, and M. Ellis (2026) Measuring agents in production. In Agentic AI in the Wild: From Hallucinations to Reliable Autonomy. - R. Rafailov, A. Sharma, E. Mitchell, C. D. Manning, S. Ermon, and C. Finn (2023) Direct preference optimization: your language model is secretly a reward model. In Thirty-seventh Conference on Neural Information Processing Systems. - B. Rombaut, S. Masoumzadeh, K. Vasilevski, D. Lin, and A. E. Hassan (2025) Watson: A cognitive observability framework for the reasoning of llm-powered agents. In 40th IEEE/ACM International Conference on Automated Software Engineering, ASE 2025, Seoul, Korea, Republic of, November 16-20, 2025, pp. 739–751. - T. Schick, J. Dwivedi-Yu, R. Dessi, R. Raileanu, M. Lomeli, E. Hambro, L. Zettlemoyer, N. Cancedda, and T. Scialom (2023) Toolformer: language models can teach themselves to use tools. In Thirty-seventh Conference on Neural Information Processing Systems. - A. Schmitt and S. Ultes (2015) Interaction quality: assessing the quality of ongoing spoken dialog interaction by experts—and how it relates to user satisfaction. Speech Communication 74, pp. 12–36. - N. Shinn, F. Cassano, A. Gopinath, K. Narasimhan, and S. Yao (2023) Reflexion: language agents with verbal reinforcement learning. Advances in neural information processing systems 36, pp. 8634–8652. - G. Wang, Y. Xie, Y. Jiang, A. Mandlekar, C. Xiao, Y. Zhu, L. Fan, and A. Anandkumar (2024) Voyager: an open-ended embodied agent with large language models. Transactions on Machine Learning Research. - S. Yao, N. Shinn, P. Razavi, and K. Narasimhan (2024) τ-Bench: a benchmark for tool-agent-user interaction in real-world domains. - S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. R. Narasimhan, and Y. Cao (2022) React: synergizing reasoning and acting in language models. In The eleventh international conference on learning representations. - A. Zhao, D. Huang, Q. Xu, M. Lin, Y. Liu, and G. Huang (2024) ExpeL: llm agents are experiential learners. In Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024, Thirty-Sixth Conference on Innovative Applications of Artificial Intelligence, IAAI 2024, Fourteenth Symposium on Educational Advances in Artificial Intelligence, EAAI 2024, February 20-27, 2024, Vancouver, Canada, M. J. Wooldridge, J. G. Dy, and S. Natarajan (Eds.), pp. 19632–19642. - L. Zheng, W. Chiang, Y. Sheng, S. Zhuang, Z. Wu, Y. Zhuang, Z. Lin, Z. Li, D. Li, E. Xing, H. Zhang, J. E. Gonzalez, and I. Stoica (2023) Judging LLM-as-a-judge with MT-bench and chatbot arena. In Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track. - M. Zhuge, C. Zhao, D. R. Ashley, W. Wang, D. Khizbullin, Y. Xiong, Z. Liu, E. Chang, R. Krishnamoorthi, Y. Tian, Y. Shi, V. Chandra, and J. Schmidhuber (2025) Agent-as-a-judge: Evaluate agents with agents. In Forty-second International Conference on Machine Learning.