Neuartige adaptive Strategien für KI-Systeme zur Verbesserung der Inferenzzeit

Kategorien:

No items found.

Freigegeben:

November 18, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das Experience-Guided Reasoner (EGuR)-System ermöglicht es KI-Systemen, ihre Problemlösungsstrategien während der Inferenzzeit dynamisch anzupassen.
EGuR generiert massgeschneiderte, vollständige Rechenverfahren, die LLM-Aufrufe, Tools, Sampling-Parameter und Kontrolllogik umfassen.
Das System lernt aus gesammelter Erfahrung und verbessert kontinuierlich die Genauigkeit und Effizienz.
Es besteht aus einem "Guide", der Kandidatenstrategien generiert, und einem "Consolidator", der Ausführungsfeedback integriert.
In Benchmarks erzielte EGuR bis zu 14 % höhere Genauigkeit und reduzierte die Rechenkosten um das bis zu 111-fache.
Im Gegensatz zu bestehenden Methoden, die nur textuelle Eingaben modifizieren, kann EGuR alle Strategiekomponenten anpassen.

Adaptive Inferenzstrategien: Eine neue Ära für agentische KI-Systeme

Die Fähigkeit von KI-Systemen, ihre Problemlösungsansätze basierend auf Interaktionen nach dem Training anzupassen, stellt eine grundlegende Herausforderung dar. Während es bereits Systeme gibt, die zur Inferenzzeit eine Art Gedächtnis aktualisieren und pflegen, sind deren Anpassungsmöglichkeiten oft begrenzt. Sie können in der Regel nur die textuellen Eingaben an ein Sprachmodell (LLM) oder einen Agenten modifizieren, nicht aber Sampling-Parameter ändern, Tools entfernen, System-Prompts anpassen oder zwischen verschiedenen Agenten- und Workflow-Paradigmen wechseln. Flexiblere Systeme erfordern hingegen eine aufwendige Offline-Optimierung und bleiben nach der Bereitstellung statisch. Eine neue Entwicklung namens Experience-Guided Reasoner (EGuR) verspricht hier Abhilfe, indem es massgeschneiderte Strategien dynamisch zur Inferenzzeit generiert, basierend auf gesammelter Erfahrung. Diese Innovation könnte die Art und Weise, wie agentische KI-Systeme komplexe Aufgaben lösen, grundlegend verändern.

EGuR: Ein Überblick über die Architektur

Das EGuR-System basiert auf einer LLM-basierten Meta-Strategie, die in der Lage ist, neue Strategien zu generieren. Dies ermöglicht die Anpassung sämtlicher Strategiekomponenten, einschliesslich Prompts, Sampling-Parameter, Tool-Konfigurationen und Kontrolllogik. EGuR operiert mit zwei Hauptkomponenten:

Der Guide: Diese Komponente generiert mehrere Kandidatenstrategien, die auf dem aktuellen Problem und einer strukturierten Erinnerung an vergangene Erfahrungen basieren. Anstatt schrittweise Entscheidungen zu treffen wie traditionelle Agenten, erstellt der Guide vorab ein vollständiges Rechenverfahren.
Der Consolidator: Er integriert das Feedback der Ausführung, einschliesslich Reasoning-Traces und Verifizierungs-Feedback, um die zukünftige Strategiegenerierung zu verbessern. Der Consolidator pflegt ein strukturiertes Gedächtnis, das erfolgreiche Strategien mit ihren Problemmerkmalen zur Wiederverwendung und Vorlagengenerierung speichert.

Dieser Ansatz ermöglicht die Erzeugung vollständiger, sofort einsatzbereiter Strategien, die für jedes Problem optimiert sind und bei Bedarf zwischengespeichert, abgerufen und ausgeführt werden können, ohne Ressourcen zu verschwenden.

Die Herausforderung der adaptiven Strategien

Moderne KI-Systeme nutzen ausgeklügelte Strategien, um anspruchsvolle Denkaufgaben zu bewältigen. Diese Verfahren umfassen oft LLM-Aufrufe, Tools und Kontrolllogik, die in Frameworks wie SGLang oder DSPy implementiert werden. Ein Beispiel hierfür ist die dynamische Zerlegung von Problemen in Teilziele bei der Lösung mathematischer Olympiade-Aufgaben oder die iterative Selbstkorrektur. Obwohl diese Strategien oft als universell und anpassungsfähig konzipiert sind, bleiben sie zur Inferenzzeit statisch und können nicht aus Erfahrungen lernen. Ein KI-System für mathematische Argumentation würde beispielsweise bei jedem erneuten Auftreten eines bereits gelösten Problems dieselbe aufwendige mehrstufige Zerlegung anwenden, ohne aus früheren Fehlern zu lernen. Die zentrale Herausforderung besteht darin, die Rechenstruktur von Strategien aus Erfahrung anzupassen, um sowohl die Genauigkeit als auch die Effizienz kontinuierlich zu verbessern.

Vergleich mit bestehenden Ansätzen

Bestehende Methoden zur Anpassung von KI-Systemen konzentrieren sich entweder auf die Aufrechterhaltung des Zustands während des Tests oder auf die Anpassung allgemeiner Strategien durch teure Offline-Optimierung. Ansätze wie Dynamic Cheatsheet und Buffer of Thoughts nutzen zwar ein Gedächtnis über Probleme hinweg, dieses dient jedoch lediglich der textuellen Steuerung eines LLM oder Agenten. Sie können keine Sampling-Parameter ändern, Tools hinzufügen oder entfernen oder die Kontrolllogik modifizieren. Offline-Methoden wie ADAS ermöglichen zwar eine flexiblere Strategieanpassung, erfordern jedoch aufwendige Trainingsphasen und bleiben nach der Bereitstellung statisch. EGuR unterscheidet sich grundlegend, indem es eine vollständige Strategiespezifikation für jedes Problem vor der Ausführung generiert. Dies beinhaltet Prompts, Sampling-Parameter, Tool-Verfügbarkeit und Kontrollfluss, massgeschneidert für das jeweilige Problem.

Experimentelle Ergebnisse und deren Implikationen

EGuR wurde auf fünf unterschiedlichen Benchmarks evaluiert: AIME 2025, 3-SAT und drei Big Bench Extra Hard-Aufgaben (Filmempfehlung, Wortsortierung, Objekterkennung). Die Experimente zeigten, dass EGuR die Genauigkeit um bis zu 14 % im Vergleich zu den stärksten Baselines verbessern und gleichzeitig die Rechenkosten um das bis zu 111-fache senken konnte. Beide Metriken verbesserten sich, je mehr Erfahrung das System sammelte.

Genauigkeit und Kosten: EGuR-5 erzielte beispielsweise auf Claude 3.7 Sonnet eine Genauigkeit von 96,0 % bei 3-SAT zu Kosten von 0,152 $, verglichen mit CodeAct (77,0 % Genauigkeit, 0,257 $ Kosten) und Dynamic Cheatsheet (89,9 % Genauigkeit, 76,353 $ Kosten). Dies unterstreicht die Überlegenheit von EGuR im Hinblick auf das Verhältnis von Genauigkeit und Kosten.
Dynamische Strategiegenerierung vs. bestehende Methoden: Die architektonische Flexibilität von EGuR, die vollständige Strategiespezifikationen generiert, ist ein entscheidender Vorteil gegenüber Systemen, die lediglich Eingaben anpassen. EGuR kann beispielsweise den Code-Interpreter entfernen, wenn er die Leistung beeinträchtigt, oder die Temperatur für deterministische Aufgaben anpassen.
Die Bedeutung der vergleichenden Strategiebewertung: Eine Untersuchung des Explorationsniveaus (Anzahl der pro Problem generierten Strategien) zeigte, dass ein höheres Explorationsniveau (z. B. EGuR-5 im Vergleich zu EGuR-1, das nur eine Strategie generiert) zu erheblichen Verbesserungen sowohl der Genauigkeit als auch der Kosteneffizienz führt. Dies belegt die Wichtigkeit des Lernens aus dem Vergleich verschiedener Ansätze.
Lernen neuer und nützlicher Strategien: EGuR lernt, spezifische Bibliotheken für CodeAct-Strategien anzugeben, nützliche Code-Snippets einzufügen und Fehlerbehandlungen hinzuzufügen. Das System lernt auch, wann der Code-Interpreter kontraproduktiv sein kann und wann einfachere LLM-Aufrufe mit detaillierten Anweisungen effektiver sind, wie im Fall der Objekterkennung.

Ausblick und zukünftige Forschungsrichtungen

Die vorgestellten Ergebnisse positionieren EGuR als vielversprechenden Ansatz für die Entwicklung adaptiver und effizienter agentischer KI-Systeme. Trotz der beeindruckenden Erfolge gibt es jedoch auch Einschränkungen, die zukünftige Forschungsrichtungen aufzeigen:

Feedback-Mechanismen: EGuR ist auf Ground-Truth-Feedback von Verifizierern angewiesen. Die Erforschung, ob dieses Feedback durch schwächere Signale, beispielsweise durch LLM-basierte Bewertungen, ersetzt werden kann, ist ein wichtiger Schritt.
Strategiegenerierung bei unbekannten Problemen: Die Effektivität des Systems hängt von den Zero-Shot-Strategiegenerierungsfähigkeiten des Guides ab. Bei unbekannten Problemtypen könnten diese suboptimal sein, was ein Training oder eine Optimierung des Guides durch Reinforcement Learning oder andere Methoden erforderlich machen könnte.
Gedächtnisverwaltung: Der Consolidator nutzt ein LLM zur Gedächtnisverwaltung, was möglicherweise nicht optimal zwischen Gedächtnisgrösse und Informationsnutzen balanciert. Hier könnten Meta-Learning-Ansätze zu einer effektiveren Gedächtnisverwaltung beitragen.

Insgesamt bietet EGuR einen skalierbaren und anpassungsfähigen Ansatz für rechenintensive Aufgaben, der das Potenzial hat, die Entwicklung von KI-Systemen, die dynamisch auf neue Herausforderungen reagieren können, massgeblich voranzutreiben.

Bibliographie

- Stein, A., Trager, M., Bowman, B., Kleinman, M., Chattopadhyay, A., Xia, W., & Soatto, S. (2025). *Experience-Guided Adaptation of Inference-Time Reasoning Strategies*. arXiv preprint arXiv:2511.11519. - Hugging Face. (2025). *Experience-Guided Adaptation of Inference-Time Reasoning Strategies*. Verfügbar unter: https://huggingface.co/papers/2511.11519 - Wu, C., Li, B., Gao, M., & Wang, Z. (2025). *From Efficiency to Adaptivity: A Deeper Look at Adaptive Reasoning in Large Language Models*. arXiv preprint arXiv:2511.10788. - Sui, Y., He, Y., Cao, T., Han, S., Chen, Y., & Hooi, B. (2025). *Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models*. arXiv preprint arXiv:2502.19918. - The Moonlight. (2025). *Review of Inference-Time Scaling Strategies: Reasoning, Search and RAG*. Verfügbar unter: https://www.themoonlight.io/en/review/review-of-inference-time-scaling-strategies-reasoning-search-and-rag - ChatPaper. (2025). *Experience-Guided Adaptation of Inference-Time Reasoning Strategies*. Verfügbar unter: https://chatpaper.com/chatpaper/paper/209551