Selbstverbessernde KI-Agenten durch innovative Verifikationstechniken

Kategorien:

No items found.

Freigegeben:

January 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Deep Research Agents (DRAs) sind entscheidend für die automatisierte Wissensentdeckung und Problemlösung, stehen jedoch vor Herausforderungen hinsichtlich der Zuverlässigkeit ihrer Ergebnisse.
Ein neuer Ansatz, bekannt als "Inference-Time Scaling of Verification", ermöglicht es DRAs, ihre Fähigkeiten durch iterative Verifikation ihrer Ausgaben selbst zu verbessern, basierend auf detaillierten Prüfungsrichtlinien.
Das vorgestellte System DeepVerifier nutzt eine umfassende Taxonomie von DRA-Fehlern, um komplexe Verifikationsaufgaben in kleinere, handhabbare Unterfragen zu zerlegen.
DeepVerifier übertrifft bestehende Baselines bei der Meta-Evaluation um 12 % bis 48 % und führt zu einer Genauigkeitssteigerung von 8 % bis 11 % bei anspruchsvollen Datensätzen.
Ein speziell kuratierter Datensatz, DeepVerifier-4K, wurde entwickelt, um Open-Source-Modellen die Fähigkeit zur Selbstreflexion und -kritik zu vermitteln.
Die Forschung zeigt, dass die Integration dieser Verifikationsfähigkeiten die Gesamtleistung von Agenten signifikant steigert, ohne dass zusätzliches Training erforderlich ist.

Revolutionäre Verifikation: Selbstverbessernde KI-Agenten optimieren Forschungsprozesse

Die rapide Entwicklung von Deep Research Agents (DRAs) – fortschrittlichen KI-Systemen, die auf großen Sprachmodellen (LLMs) und multimodalen Modellen basieren – verändert die automatisierte Wissensentdeckung und die Lösung komplexer Probleme grundlegend. Diese Agenten zeigen beeindruckende Leistungen bei Aufgaben, die mehrstufiges Denken, Web-Navigation, Dateiverarbeitung und die Nutzung von Werkzeugen erfordern. Dennoch bleiben sie anfällig für unzuverlässige Ausgaben, die aus Fehlern wie inkorrekten Aktionen, API-Fehlern oder Halluzinationen resultieren können. Diese Einschränkungen stellen eine erhebliche Hürde für ihren praktischen Einsatz dar.

Eine aktuelle Forschungsarbeit schlägt einen neuartigen Ansatz vor, um diese Herausforderungen zu bewältigen: die "Inference-Time Scaling of Verification". Dieser Ansatz ermöglicht es DRAs, ihre Fähigkeiten durch die iterative Verifikation ihrer Ausgaben selbst zu verbessern. Im Gegensatz zu herkömmlichen Methoden, die sich auf Post-Training zur Leistungssteigerung konzentrieren, liegt der Fokus hier auf der Selbstoptimierung während der Inferenzzeit, geleitet von präzise ausgearbeiteten Prüfungsrichtlinien.

Die Herausforderung der Zuverlässigkeit bei Deep Research Agents

DRAs sind in der Lage, komplexe Aufgaben wie das Auffinden von Informationen, die Analyse von Daten und die Synthese von Berichten zu automatisieren. Proprietäre Frameworks wie OpenAI’s Deep Research und Googles Gemini Deep Research sowie Open-Source-Initiativen wie Hugging Face’s SmolAgents demonstrieren die Leistungsfähigkeit dieser Systeme. Trotz dieser Fortschritte leiden DRAs häufig unter unzuverlässigen Ergebnissen. Beispielsweise könnte ein Agent, der die früheste Veröffentlichung eines Forschers identifizieren soll, sich auf unvollständige Sekundärquellen verlassen und ungenaue Ergebnisse liefern. Bei Aufgaben, die Dutzende von Seiten und Hunderte von Aktionen umfassen, ist eine menschliche Überwachung in Echtzeit nicht praktikabel. Dies unterstreicht die Notwendigkeit skalierbarer, automatisierter Methoden zur Verbesserung der DRA-Zuverlässigkeit und -Leistung.

Ein neues Paradigma: Selbstverbesserung durch Verifikation

Die Forscher schlagen ein dreistufiges Vorgehen zur Selbstverbesserung vor:

Verifikation der generierten Ausgaben.
Erzeugung gezielter Rückmeldungen bei der Erkennung von Fehlern.
Iterative Anpassung mithilfe dieser Rückmeldungen.

Für den ersten Punkt, die Verifikation, wird die Asymmetrie der Verifikation genutzt: Es ist oft einfacher, die Korrektheit einer Lösung zu überprüfen, als sie von Grund auf neu zu generieren. Für den zweiten Punkt werden rubrikbasierte Belohnungen eingesetzt, die strukturierte, diskriminierende Signale liefern. Diese Rubriken werden aus einer automatisch erstellten Taxonomie von DRA-Fehlern abgeleitet.

Die DeepVerifier-Architektur

Das Kernstück des neuen Frameworks ist DeepVerifier, ein auf Rubriken basierender Verifizierer, der die Asymmetrie der Verifikation nutzt. DeepVerifier gliedert sich in drei Hauptmodule:

1. Das Zerlegungsmodul

Dieses Modul zerlegt komplexe Verifikationsprobleme in kleinere, leichter zu handhabende Unterfragen. Der Workflow umfasst drei Schritte:

Zusammenfassung der Trajektorie: Die Historie der Agentenaktionen wird zu einer kompakten, schrittweise indizierten Zusammenfassung verdichtet.
Identifizierung potenzieller Fehler: Anhand einer Fehler-Taxonomie werden Verhaltensweisen identifiziert, die bekannten Fehlermustern entsprechen.
Formulierung von Folgefragen: Es werden gezielte Fragen formuliert, die auf die identifizierten Schwachstellen abzielen und durch externe Evidenz beantwortbar sind.

2. Das Verifikationsmodul

Das Verifikationsmodul ruft sequenziell Antworten auf die von dem Zerlegungsmodul gestellten Folgefragen ab. In den Experimenten der Studie wurde der CK-Pro-Agent als Verifikationsagent eingesetzt. Dieser nutzt einen modularen Multi-Agenten-Ansatz, bei dem ein Hauptagent komplexe Aufgaben in Unteraufgaben zerlegt und an spezialisierte Unteragenten delegiert. Diese Unteragenten interagieren mit spezifischen Ressourcen, führen Suchvorgänge durch oder erstellen Screenshots, indem sie Python-Code generieren.

3. Das Bewertungsmodul (Judge Module)

Der Bewertungsagent beurteilt die ursprüngliche, unbestätigte Antwort des Agenten basierend auf der Trajektorienübersicht, der Liste der potenziellen Fehler, den Folgefragen und deren Antworten. Er liefert eine prägnante Erklärung und vergibt eine Bewertung von 1 (vollständig falsch) bis 4 (vollständig richtig).

DRA-Fehler-Taxonomie: Systematisierung von Fehlern

Um die Verifikationseffektivität zu maximieren, wurde eine umfassende Taxonomie von DRA-Fehlern erstellt. Diese Taxonomie basiert auf der Analyse von 2.997 Agentenaktionen aus dem WebAggregatorQA-Datensatz. Die Fehler werden systematisch in fünf Hauptkategorien und dreizehn Unterkategorien eingeteordnet:

Fehler beim Auffinden von Quellen: Häufigste Fehlerquelle, z.B. Konsultation falscher Evidenz oder reliance auf generische Suchanfragen.
Argumentationsfehler: Vorzeitige Schlussfolgerungen, Fehlinterpretationen oder Halluzinationen.
Problemverständnis und -zerlegung: Missverständnisse von Anweisungen oder Zielabweichungen.
Aktionsfehler: UI-Fehler, Formatfehler oder falsche Modalitätsnutzung.
Max. Schrittgrenze erreicht: Frühe Fehler, die zu langen, unproduktiven Trajektorien führen.

Diese detaillierte Klassifizierung ermöglicht es DeepVerifier, gezieltes Feedback zu generieren und so die Selbstkorrektur des Agenten zu unterstützen.

Experimentelle Ergebnisse und Leistungssteigerung

Die Wirksamkeit von DeepVerifier wurde in umfangreichen Experimenten mit verschiedenen Modellen (Claude-3.7-Sonnet, GPT-4.1, Qwen3-8B) und Benchmarks (GAIA, XBench-DeepSearch, BrowseComp) nachgewiesen.

Effektivität der Verifikation (RQ1): DeepVerifier erzielte eine ausgewogene Präzision-Recall-Balance und übertraf ablatierte Versionen um 12 % bis 48 % im F1-Score und erreichte die höchste Genauigkeit.
Leistungssteigerung durch reflexive Test-Time Scaling (RQ2): Die Integration von DeepVerifier führte zu einer Genauigkeitssteigerung von 8 % bis 11 % bei anspruchsvollen GAIA-Untergruppen und 3 % bis 6 % bei XBench-DeepSearch und BrowseComp. Die Genauigkeit erreichte typischerweise nach etwa vier Feedback-Runden ihren Höhepunkt.
Verbesserung der Reflexionsfähigkeit von Open-Source-Modellen (RQ3): Durch Fine-Tuning des Qwen3-8B-Modells mit dem DeepVerifier-4K-Datensatz (DeepVerifier-8B) wurde eine signifikante Verbesserung der Reflexionsfähigkeiten erreicht. DeepVerifier-8B zeigte eine Genauigkeitssteigerung von 5,5 % im Vergleich zur nicht-reflektierenden Version.

DeepVerifier-4K: Ein Datensatz für reflektierende KI

Um die Reflexionsfähigkeit auch in Open-Source-Modellen zu fördern, wurde DeepVerifier-4K entwickelt. Dieser hochwertige Datensatz für überwachtes Fine-Tuning (SFT) besteht aus 4.646 Prompt-Antwort-Paaren, die speziell für die DRA-Verifikation kuratiert wurden. Er wurde durch die Verifikation von 400 Agenten-Trajektorien mit DeepVerifier und die Filterung auf True-Positive- und True-Negative-Verifikationen erstellt. Diese Beispiele betonen Reflexion und Selbstkritik und ermöglichen es offenen Modellen, robuste Verifikationsfähigkeiten zu entwickeln.

Fazit

Die vorgestellte Forschung bietet einen praktischen und skalierbaren Ansatz zur Verifikation und Selbstevolution von Deep Research Agents. Durch die Kombination einer detaillierten Fehler-Taxonomie, einer asymmetrischen Verifikationsstrategie und eines speziell entwickelten Datensatzes zur Förderung der Reflexion wird die Zuverlässigkeit und Leistung von KI-Agenten signifikant verbessert. Diese Innovationen ebnen den Weg für den breiteren und sichereren Einsatz von KI in komplexen Forschungsumgebungen und tragen dazu bei, das Vertrauen in automatisierte Wissensentdeckung und Problemlösung zu stärken.

Bibliographie

Wan, Y., Fang, T., Li, Z., Huo, Y., Wang, W., Mi, H., Yu, D., & Lyu, M. R. (2026). Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification. arXiv preprint arXiv:2601.15808.
Moonlight. (o. J.). [Literature Review] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification. Abgerufen von https://www.themoonlight.io/review/inference-time-scaling-of-verification-self-evolving-deep-research-agents-via-test-time-rubric-guided-verification
ChatPaper. (o. J.). Self-Evolving Deep Research Agents via Test-Time Rubric-Guided .... Abgerufen von https://chatpaper.com/es/paper/228723
Zhao, E., Awasthi, P., & Gollapudi, S. (2025). Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification. arXiv preprint arXiv:2502.01839.
Hugging Face. (o. J.). Daily Papers. Abgerufen von https://huggingface.co/papers/week/2026-W05
alphaXiv. (o. J.). Explore. Abgerufen von https://alphaxiv.org/
Papers.cool. (o. J.). Artificial Intelligence | Cool Papers - Immersive Paper Discovery. Abgerufen von https://papers.cool/arxiv/cs.AI?show=100
HuggingFace Paper Explorer. (o. J.). Top Last 3 Days. Abgerufen von https://huggingface-paper-explorer.vercel.app/