Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Deep Research Agents (DRAs) – fortschrittlichen KI-Systemen, die auf großen Sprachmodellen (LLMs) und multimodalen Modellen basieren – verändert die automatisierte Wissensentdeckung und die Lösung komplexer Probleme grundlegend. Diese Agenten zeigen beeindruckende Leistungen bei Aufgaben, die mehrstufiges Denken, Web-Navigation, Dateiverarbeitung und die Nutzung von Werkzeugen erfordern. Dennoch bleiben sie anfällig für unzuverlässige Ausgaben, die aus Fehlern wie inkorrekten Aktionen, API-Fehlern oder Halluzinationen resultieren können. Diese Einschränkungen stellen eine erhebliche Hürde für ihren praktischen Einsatz dar.
Eine aktuelle Forschungsarbeit schlägt einen neuartigen Ansatz vor, um diese Herausforderungen zu bewältigen: die "Inference-Time Scaling of Verification". Dieser Ansatz ermöglicht es DRAs, ihre Fähigkeiten durch die iterative Verifikation ihrer Ausgaben selbst zu verbessern. Im Gegensatz zu herkömmlichen Methoden, die sich auf Post-Training zur Leistungssteigerung konzentrieren, liegt der Fokus hier auf der Selbstoptimierung während der Inferenzzeit, geleitet von präzise ausgearbeiteten Prüfungsrichtlinien.
DRAs sind in der Lage, komplexe Aufgaben wie das Auffinden von Informationen, die Analyse von Daten und die Synthese von Berichten zu automatisieren. Proprietäre Frameworks wie OpenAI’s Deep Research und Googles Gemini Deep Research sowie Open-Source-Initiativen wie Hugging Face’s SmolAgents demonstrieren die Leistungsfähigkeit dieser Systeme. Trotz dieser Fortschritte leiden DRAs häufig unter unzuverlässigen Ergebnissen. Beispielsweise könnte ein Agent, der die früheste Veröffentlichung eines Forschers identifizieren soll, sich auf unvollständige Sekundärquellen verlassen und ungenaue Ergebnisse liefern. Bei Aufgaben, die Dutzende von Seiten und Hunderte von Aktionen umfassen, ist eine menschliche Überwachung in Echtzeit nicht praktikabel. Dies unterstreicht die Notwendigkeit skalierbarer, automatisierter Methoden zur Verbesserung der DRA-Zuverlässigkeit und -Leistung.
Die Forscher schlagen ein dreistufiges Vorgehen zur Selbstverbesserung vor:
Für den ersten Punkt, die Verifikation, wird die Asymmetrie der Verifikation genutzt: Es ist oft einfacher, die Korrektheit einer Lösung zu überprüfen, als sie von Grund auf neu zu generieren. Für den zweiten Punkt werden rubrikbasierte Belohnungen eingesetzt, die strukturierte, diskriminierende Signale liefern. Diese Rubriken werden aus einer automatisch erstellten Taxonomie von DRA-Fehlern abgeleitet.
Das Kernstück des neuen Frameworks ist DeepVerifier, ein auf Rubriken basierender Verifizierer, der die Asymmetrie der Verifikation nutzt. DeepVerifier gliedert sich in drei Hauptmodule:
Dieses Modul zerlegt komplexe Verifikationsprobleme in kleinere, leichter zu handhabende Unterfragen. Der Workflow umfasst drei Schritte:
Das Verifikationsmodul ruft sequenziell Antworten auf die von dem Zerlegungsmodul gestellten Folgefragen ab. In den Experimenten der Studie wurde der CK-Pro-Agent als Verifikationsagent eingesetzt. Dieser nutzt einen modularen Multi-Agenten-Ansatz, bei dem ein Hauptagent komplexe Aufgaben in Unteraufgaben zerlegt und an spezialisierte Unteragenten delegiert. Diese Unteragenten interagieren mit spezifischen Ressourcen, führen Suchvorgänge durch oder erstellen Screenshots, indem sie Python-Code generieren.
Der Bewertungsagent beurteilt die ursprüngliche, unbestätigte Antwort des Agenten basierend auf der Trajektorienübersicht, der Liste der potenziellen Fehler, den Folgefragen und deren Antworten. Er liefert eine prägnante Erklärung und vergibt eine Bewertung von 1 (vollständig falsch) bis 4 (vollständig richtig).
Um die Verifikationseffektivität zu maximieren, wurde eine umfassende Taxonomie von DRA-Fehlern erstellt. Diese Taxonomie basiert auf der Analyse von 2.997 Agentenaktionen aus dem WebAggregatorQA-Datensatz. Die Fehler werden systematisch in fünf Hauptkategorien und dreizehn Unterkategorien eingeteordnet:
Diese detaillierte Klassifizierung ermöglicht es DeepVerifier, gezieltes Feedback zu generieren und so die Selbstkorrektur des Agenten zu unterstützen.
Die Wirksamkeit von DeepVerifier wurde in umfangreichen Experimenten mit verschiedenen Modellen (Claude-3.7-Sonnet, GPT-4.1, Qwen3-8B) und Benchmarks (GAIA, XBench-DeepSearch, BrowseComp) nachgewiesen.
Um die Reflexionsfähigkeit auch in Open-Source-Modellen zu fördern, wurde DeepVerifier-4K entwickelt. Dieser hochwertige Datensatz für überwachtes Fine-Tuning (SFT) besteht aus 4.646 Prompt-Antwort-Paaren, die speziell für die DRA-Verifikation kuratiert wurden. Er wurde durch die Verifikation von 400 Agenten-Trajektorien mit DeepVerifier und die Filterung auf True-Positive- und True-Negative-Verifikationen erstellt. Diese Beispiele betonen Reflexion und Selbstkritik und ermöglichen es offenen Modellen, robuste Verifikationsfähigkeiten zu entwickeln.
Die vorgestellte Forschung bietet einen praktischen und skalierbaren Ansatz zur Verifikation und Selbstevolution von Deep Research Agents. Durch die Kombination einer detaillierten Fehler-Taxonomie, einer asymmetrischen Verifikationsstrategie und eines speziell entwickelten Datensatzes zur Förderung der Reflexion wird die Zuverlässigkeit und Leistung von KI-Agenten signifikant verbessert. Diese Innovationen ebnen den Weg für den breiteren und sichereren Einsatz von KI in komplexen Forschungsumgebungen und tragen dazu bei, das Vertrauen in automatisierte Wissensentdeckung und Problemlösung zu stärken.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen