Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Vision von Computer-Nutzungs-Agenten (CUAs), die Software im Auftrag von Anwendern bedienen, hat in den letzten Jahren durch Fortschritte bei multimodalen, auf grossen Sprachmodellen basierenden Agenten erheblich an Bedeutung gewonnen. Diese Agenten versprechen, Routineaufgaben zu automatisieren und komplexe digitale Werkzeuge zugänglicher zu machen. Eine zentrale Herausforderung für den Erfolg solcher Agenten ist das sogenannte "Grounding": die Fähigkeit, Anweisungen in natürlicher Sprache präzise mit den richtigen Bildschirmelementen zu verknüpfen, die angeklickt, eingegeben oder gezogen werden sollen.
Das akkurate Grounding ist von entscheidender Bedeutung. Ohne die korrekte Identifizierung des richtigen Buttons oder Menüpunkts kann selbst ein perfekter Plan nicht ausgeführt werden. Dies führt schnell zu Fehlern und schliesslich zum Scheitern der Aufgabe. Besonders in Desktop-Anwendungen ist das Grounding komplex, da diese Umgebungen oft hochauflösende Displays mit dichten Layouts und visuell ähnlichen Elementen aufweisen. Zudem können Desktop-Anwendungen benutzerspezifische Artefakte enthalten, die während des Trainings nicht berücksichtigt wurden, was die Variabilität und ungesehene Kontexte erhöht. Die Erstellung automatisierter Datensätze für Desktop-Umgebungen mit umfassender Abdeckung erweist sich ebenfalls als schwierig.
Um diese Lücke zu schliessen, wurde GroundCUA eingeführt, ein umfangreicher, von Menschen annotierter Datensatz für das Desktop-Grounding. Dieser Datensatz deckt 87 Anwendungen in 12 Kategorien ab und umfasst 56.000 Screenshots mit über 3,56 Millionen von Menschen verifizierten Annotationen aller Bildschirmelemente. Die Annotationen stammen aus Aufzeichnungen von Aufgaben, die von geschulten Annotatoren durchgeführt wurden, was eine hohe Qualität und dichte Beschriftung der Daten gewährleistet.
GroundCUA zeichnet sich im Vergleich zu bestehenden Datensätzen durch folgende Merkmale aus:
Aus diesen Demonstrationen werden vielfältige Anweisungen generiert, die ein breites Spektrum realer Aufgaben abbilden und hochwertige Daten für das Modelltraining liefern.
Auf der Grundlage von GroundCUA wurde die Modellfamilie GroundNext entwickelt, bestehend aus Vision-Language-Modellen in 3B- und 7B-Skalen. Diese Modelle sind für präzises Grounding in Desktop-Anwendungen konzipiert und werden in zwei Stufen trainiert: zuerst durch überwachtes Fine-Tuning (SFT) auf 700.000 kuratierten Datenpunkten aus GroundCUA und anschliessend durch Reinforcement Learning (RL) zur weiteren Verfeinerung der Leistung.
GroundNext erreicht in fünf Schlüssel-Benchmarks, darunter ScreenSpotPro, OSWorld-G und UI-Vision, Spitzenleistungen. Bemerkenswert ist, dass GroundNext diese Ergebnisse mit weniger als einem Zehntel der Trainingsdaten früherer Arbeiten erzielt (700.000 gegenüber 9 Millionen Datenpunkten bei Modellen wie JEDI). Dies deutet darauf hin, dass hochwertige, gut kuratierte Daten eine höhere Effizienz im Training ermöglichen.
Die RL-Phase verbessert die Grounding-Genauigkeit weiter, ohne auf komplexe Belohnungsstrategien angewiesen zu sein, wie sie oft in anderen RL-getunten Modellen zum Einsatz kommen. Dies unterstreicht die Effektivität der Kombination von SFT mit hochwertigen Daten.
Die Leistungsanalyse zeigt, dass GroundNext-3B nicht nur seine 3B-Pendants deutlich übertrifft, sondern auch viele grössere Modelle, einschliesslich OpenCUA-72B und proprietäre APIs, in agentischen, mehrstufigen Aufgaben auf dem OSWorld-Verified-Benchmark übertrifft oder mit ihnen gleichzieht. Dies demonstriert den praktischen Nutzen der 3B-Modelle für ressourcenbeschränkte Systeme.
GroundNext zeigt zudem eine starke Cross-Plattform-Generalisierung. Obwohl es ausschliesslich auf Desktop-Datensätzen trainiert wurde, erzielt es auch in mobilen und Web-Umgebungen gute Ergebnisse, wie Benchmarks wie MMBench-GUI und ScreenSpot-v2 zeigen.
Die Analyse der RL-Verbesserungen deutet darauf hin, dass Modelle, die während des SFT bereits mit GroundCUA trainiert wurden, geringere Leistungssteigerungen durch RL erfahren. Dies liegt daran, dass GroundCUA bereits eine sehr informative Supervision bietet und weniger Fehler für RL zu korrigieren sind. Die Grösse der RL-Verbesserungen korreliert mit der anfänglichen SFT-Leistung: Stärkere SFT-Modelle erzielen kleinere absolute Gewinne, da sie mit weniger verbleibenden Fehlern starten.
In einem agentischen Setting, das die Fähigkeit von GroundNext zur Bewältigung realistischer, mehrstufiger Aufgaben bewertet, zeigt sich eine bemerkenswerte Leistung. Auf dem OSWorld-Verified-Benchmark, in Kombination mit dem o3-Planer, übertrifft GroundNext-3B (50,6% Gesamt) signifikant Modelle wie OpenCUA-A3B (17,7%) und Kimi-VL-A3B (10,3%). Es übertrifft auch grössere Modelle wie OpenCUA-72B (46,1%) und proprietäre APIs wie Qwen3-VL-Flash (41,6%) und Claude-4-Sonnet (41,4%). Das 3B-Modell erreicht dabei vergleichbare Ergebnisse wie das wesentlich grössere JEDI-7B (50,6% vs. 51,0%) und zeigt in drei von fünf Kategorien (OS, Office, Workflow) eine überlegene Leistung. Dies unterstreicht die hohe praktische Effizienz und Nützlichkeit von GroundNext-3B für reale agentische Systeme.
GroundCUA führt zu den grössten Leistungssteigerungen bei Desktop-Benchmarks, da es hauptsächlich Desktop-Software abdeckt. GroundNext-7B (RL) erzielt die besten Ergebnisse bei UI-V, OSW-G und SSPro. Bei gemischten Datensätzen wie MMBench-GUI zeigt GroundNext eine Verbesserung von 3,66% auf Desktop-Plattformen gegenüber dem zweitbesten Modell, InfiGUI-G1, mit deutlichen Gewinnen unter Linux und macOS. Besonders hervorzuheben sind die Verbesserungen bei der Icon-Erkennung, wo GroundNext die meisten Modelle um durchschnittlich 10,7% auf SSPro übertrifft. Dies ist auf die hohe Dichte von Icons in Desktop-Anwendungen und die Vielfalt in GroundCUA zurückzuführen.
Die Generalisierungsfähigkeit von GroundNext, das primär auf Desktop-Software trainiert wurde, auf mobile und Web-Schnittstellen wurde ebenfalls untersucht. Auf MMBench-GUI erzielt GroundNext-7B (RL) wettbewerbsfähige Ergebnisse in beiden Domänen (89,2% mobil, 81,9% Web). Obwohl GroundCUA eine starke domänenübergreifende Generalisierung ermöglicht, könnte die Ergänzung von Desktop-Daten mit Web- und mobilen Quellen die Leistung weiter verbessern.
Die Verwendung quelloffener Software in GroundCUA trägt zu starken Ergebnissen bei, insbesondere bei der Icon-Erkennung in den Kategorien Office Suite, Development, Creative, Scientific und CAD. Die Vielfalt quelloffener Entwicklungswerkzeuge und Kreativsoftware führt zu signifikanten Verbesserungen, beispielsweise übertrifft das Modell das nächstbeste Modell, InfiGUI-G1-7B, um 15,9% in "Development" und 8,4% in "Creative" bei der Icon-Genauigkeit. Dies deutet darauf hin, dass die Wahl quelloffener Anwendungen in GroundCUA eine breite Anwendbarkeit und robuste Leistung ermöglicht.
GroundCUA stellt einen bedeutenden Fortschritt im Bereich des Desktop-Grounding dar. Durch die Bereitstellung eines umfangreichen, von Menschen annotierten Datensatzes und die Entwicklung der GroundNext-Modellfamilie wird gezeigt, dass hochwertige Daten eine effektivere Grundlage für zuverlässiges Desktop-Grounding bilden als die reine Datenmenge. Die Veröffentlichung des Datensatzes und der Forschungsartefakte soll die Forschung im Bereich des Grounding fördern und die Entwicklung von End-to-End-Computer-Nutzungs-Agenten ermöglichen, die komplexe Aufgaben über diverse Desktop-Anwendungen hinweg ausführen können.
Trotz dieser Fortschritte bleiben Herausforderungen bestehen. Der Datensatz könnte die Vielfalt der Desktop-Software noch nicht vollständig abbilden und statische UI-Zustände erfassen, während dynamische Elemente unberücksichtigt bleiben. Auch die Skalierbarkeit der menschlichen Annotation ist ein begrenzender Faktor. Zukünftige Arbeiten könnten die Entwicklung präziserer und ausdrucksstärkerer Belohnungssignale für RL untersuchen und die Generalisierung über Domänen hinweg weiter verbessern, indem Desktop-Daten mit Web- und mobilen Quellen kombiniert werden. Die in GroundCUA enthaltenen Metadaten auf Plattform- und Kategorieebene bieten zudem Ansatzpunkte für die Forschung im Bereich des kontinuierlichen Lernens und der Anpassung an neue Anwendungen und Interaktionsparadigmen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen