Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Automatisierung komplexer Aufgaben im Internet durch intelligente Agenten stellt ein Forschungsfeld mit erheblichem Potenzial dar. Diese Web-Agenten interagieren typischerweise in Umgebungen, die durch lange Aktionsketten, sequentielle Entscheidungsfindungen und potenziell irreversible Aktionen gekennzeichnet sind. In solchen Szenarien ist die traditionelle, ergebnisbasierte Überwachung oft unzureichend, da sie nur spärliches und verzögertes Feedback liefert und möglicherweise inkorrekte Trajektorien belohnt.
Bestehende Ansätze zur Belohnungsmodellierung für Web-Agenten, sogenannte Process Reward Models (WebPRMs), weisen Limitationen auf. Skalare WebPRMs reduzieren den Fortschritt auf grobe, schwach begründete Signale, die wenig Interpretierbarkeit bieten. Checklisten-basierte WebPRMs wiederum sind anfällig für Änderungen im Layout oder der Semantik von Webseiten und können oberflächlich korrekte Aktionen fälschlicherweise als erfolgreich einstufen, ohne tiefere Einblicke zu ermöglichen.
Zur Bewältigung dieser Herausforderungen wurde WebArbiter entwickelt. Dieses Modell, das von Wissenschaftlern der Ludwig-Maximilians-Universität München vorgestellt wurde, verfolgt einen "Reasoning-First"-Ansatz. Es formuliert die Belohnungsmodellierung als Textgenerierungsaufgabe, die strukturierte Begründungen liefert und mit einem Präferenzurteil abschließt. Dies identifiziert die Aktion, die im aktuellen Kontext am besten zur Aufgabenerfüllung beiträgt.
Das Training von WebArbiter erfolgt in einer zweistufigen Pipeline:
Ein wesentlicher Unterschied zu früheren Methoden liegt in der dynamischen Ableitung von Prinzipien aus der Nutzerabsicht und dem aktuellen Zustand. Diese Prinzipien werden in Begründungsketten integriert, die überprüfen, ob eine Aktion den Aufgabenabschluss fördert. Dadurch werden Belohnungssignale von oberflächlichen Korrelationen in überprüfbare Analysen umgewandelt, was die Robustheit gegenüber Umgebungs- und Seitenvariationen sowie die Genauigkeit der Kreditzuweisung verbessert.
Zur systematischen Bewertung von WebPRMs wurde WebPRMBench eingeführt. Dieser umfassende Benchmark umfasst vier verschiedene Web-Umgebungen mit vielfältigen Aufgaben und hochwertigen Präferenz-Annotationen. Er beinhaltet 1.287 schrittweise Präferenzinstanzen, die jeweils eine korrekte Aktion und vier abgelehnte Alternativen umfassen. Die Aufgaben reichen von alltäglichen Aktivitäten wie Online-Shopping und Forenbeiträgen bis hin zu Unternehmensszenarien wie der Aktualisierung von Zeitplänen in IT-Management-Plattformen.
Die primären Metriken für die Bewertung sind die Pairwise und Best-of-N (BoN) Accuracy.
Umfassende Experimente auf WebPRMBench zeigten, dass WebArbiter-7B eine überlegene Leistung erbringt. Es übertrifft das stärkste Baseline-Modell, GPT-5, um 9,1 Punkte. Im belohnungsgesteuerten Trajektoriensuchlauf auf WebArena-Lite übertrifft es das beste frühere WebPRM um bis zu 7,2 Punkte. Dies unterstreicht seine Robustheit und seinen praktischen Wert bei komplexen Web-Aufgaben in der realen Welt.
Ein Vergleich mit dem Modell WebShepherd verdeutlicht die Stärken von WebArbiter. Während WebShepherd auf Checklisten basiert, die bei dynamischen Layouts oder semantischen Verschiebungen brüchig sein können und oft unnötige Verifizierungsschritte erzwingen, leitet WebArbiter dynamisch Prinzipien ab. Zum Beispiel kann es bei einer klaren Bewertung in einem Suchergebnis-Snippet direkt antworten und unnötige Navigation vermeiden, anstatt eine Überprüfung auf der Produktdetailseite zu fordern.
Für Unternehmen, die auf präzise und effiziente Automatisierung von Web-Aufgaben angewiesen sind, bietet WebArbiter signifikante Vorteile:
Die Forschungsgruppe um Volker Tresp am MCML, die an der Entwicklung von WebArbiter beteiligt war, forscht seit Langem an maschinellem Lernen für relationale, strukturierte Domänen und konzentriert sich auf Wissensgraphen und deren Synergien mit großen Sprachmodellen. Dies untermauert die akademische Tiefe und den Innovationsanspruch hinter solchen Entwicklungen.
Die Entwicklung von WebArbiter stellt einen Fortschritt in der Steuerung von Web-Agenten dar. Die Fähigkeit, Belohnungsmodelle als Textgenerierungsaufgabe zu formulieren und prinzipiengeleitete Begründungen zu liefern, könnte auch auf andere Bereiche der sequenziellen Entscheidungsfindung übertragen werden, in denen spärliche Belohnungen und Teilaussagen eine Herausforderung darstellen. Dies könnte die Entwicklung von noch autonomeren und zuverlässigeren KI-Systemen vorantreiben, die in der Lage sind, komplexe Aufgaben mit menschlicher Präzision und Effizienz zu bewältigen.
Bibliography: - Zhang, Y., Tang, S., Li, Z., Han, Z., & Tresp, V. (2026). WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents. arXiv preprint arXiv:2601.21872. - WebArbiter: A Generative Reasoning Process Reward Model for Web Agents. (n.d.). OpenReview. Retrieved [Current Date] from https://openreview.net/forum?id=canA6Ef0RP - [PDF] A Principle-Guided Reasoning Process Reward Model for Web Agents. (n.d.). OpenReview. Retrieved [Current Date] from https://openreview.net/attachment?id=cJxKPw2UF5&name=pdf - Research Group Volker Tresp - MCML. (n.d.). mcml.ai. Retrieved [Current Date] from https://mcml.ai/research/groups/tresp/ - Daily Papers - Hugging Face. (n.d.). Hugging Face. Retrieved [Current Date] from https://huggingface.co/papers/date/2026-01-30 - Chae, H., Kim, S., Cho, J., Kim, S., Moon, S., Hwangbo, G., Lim, D., Kim, M., Hwang, Y., Gwak, M., Choi, D., Kang, M., Im, G., Cho, B., Kim, H., Han, J. H., Kwon, T., Kim, M., Kwak, B., Kang, D., & Yeo, J. (2025). Web-Shepherd: Advancing PRMs for Reinforcing Web Agents. arXiv preprint arXiv:2505.15277. - [PDF] Reasoning Language Models: A Blueprint. (n.d.). ETH Zurich. Retrieved [Current Date] from https://spcl.inf.ethz.ch/Publications/.pdf/besta-reasoning.pdfLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen