Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Als Senior Specialist Journalist und Analyst für Mindverse ist es unsere Aufgabe, komplexe technologische Entwicklungen präzise und verständlich für Sie aufzubereiten. Heute beleuchten wir eine aktuelle Forschungsarbeit, die sich mit der Effizienz von KI-Anwendungen im Bereich des User Interface (UI) Grounding befasst.
Die Interaktion zwischen Mensch und Computer entwickelt sich stetig weiter, und mit ihr die Anforderungen an künstliche Intelligenz. Eine zentrale Herausforderung in diesem Feld ist das sogenannte UI Grounding. Hierbei geht es um die Fähigkeit von Vision-Language Models (VLMs), spezifische Elemente auf einer grafischen Benutzeroberfläche (GUI) präzise zu lokalisieren, basierend auf einer natürlichen Sprachinstruktion. Während VLMs in den letzten Jahren beeindruckende Fortschritte erzielt haben, insbesondere durch die Verarbeitung hochauflösender Screenshots, stoßen sie dabei auf erhebliche Effizienzprobleme. Ein aktuelles Forschungspapier stellt hierzu eine innovative Lösung vor: FocusUI.
Der Kern des Problems liegt in der Art und Weise, wie aktuelle VLMs visuelle Informationen verarbeiten. Hochauflösende Screenshots, die für ein präzises UI Grounding unerlässlich sind, werden in Tausende von visuellen Token zerlegt. Bei einer 2K-Auflösung können dies beispielsweise bis zu 4700 Token sein. Diese enorme Menge an Daten führt zu einem signifikanten Rechenaufwand und einer Verwässerung der Aufmerksamkeit des Modells. Im Gegensatz dazu konzentrieren sich Menschen bei der Interaktion mit UIs intuitiv auf die relevanten Bereiche. Diesen menschlichen Ansatz versucht FocusUI, in ein KI-Framework zu übersetzen.
FocusUI, entwickelt von einem Team um Mingyu Ouyang und Kevin Qinghong Lin, adressiert zwei Hauptprobleme:
Das Framework von FocusUI basiert auf drei wesentlichen Komponenten:
Diese Komponente generiert eine dichte Überwachung für jeden visuellen Patch, indem sie zwei komplementäre Signale fusioniert:
Diese beiden Scores werden linear kombiniert, um den finalen "Instruction-to-Patch Saliency Score" zu erhalten.
Dieses Modul wird trainiert, um die Saliency (Auffälligkeit) pro Patch basierend auf der fusionierten Überwachung vorherzusagen. Es verwendet Patch-Embeddings vom Vision Encoder und Text-Embeddings der Instruktion vom Sprachmodell. Eine Self-Attention-Schicht verbessert die Merkmale, gefolgt von einer Tanh-Beschränkung und L2-Normalisierung. Die Ähnlichkeiten zwischen Patch- und Text-Embeddings werden berechnet, und die Saliency-Scores pro Patch werden durch Aggregation der Ähnlichkeiten über die Text-Query-Dimensionen erhalten. Das Training erfolgt mittels eines KL-Divergenz-Ziels.
Nach der Auswahl der relevantesten K Patches (basierend auf deren Saliency-Scores) kommt PosPad zum Einsatz. Diese Strategie ersetzt jede zusammenhängende Sequenz verworfener visueller Token durch einen einzigen lernbaren Marker an der letzten Position dieser Sequenz. Dieser Marker bewahrt die Positionskontinuität und ermöglicht es dem Modell, die räumlichen Beziehungen der verbleibenden Token korrekt zu interpretieren. Die Designentscheidung, den Marker am Ende der Sequenz zu platzieren, ist dabei kompatibel mit der Raster-Scan-Reihenfolge, die von Vision Encodern und Multimodal Rotary Position Embedding (M-RoPE) verwendet wird.
Die umfassenden Experimente auf vier UI-Grounding-Benchmarks (ScreenSpot-V2, ScreenSpot-Pro, OS-World-G und UI-Vision) demonstrieren die Effektivität von FocusUI. Es übertrifft GUI-spezifische Baselines und erreicht selbst bei einer Reduzierung der visuellen Token um 30-50% eine hohe Genauigkeit. Beispielsweise konnte FocusUI-7B auf dem ScreenSpot-Pro-Benchmark eine Leistungsverbesserung von 3,7% gegenüber GUI-Actor-7B erzielen. Gleichzeitig reduziert FocusUI-7B bei einer Beibehaltungsrate von nur 30% der visuellen Token den Genauigkeitsabfall auf lediglich 3,2%, während es eine bis zu 1,44-fach schnellere Inferenz und einen um 17% geringeren Spitzen-GPU-Speicherverbrauch ermöglicht. Dies unterstreicht die Fähigkeit von FocusUI, einen exzellenten Kompromiss zwischen Genauigkeit und Effizienz zu bieten.
Ablationsstudien bestätigen zudem die entscheidende Rolle sowohl des fusionierten "Instruction-to-Patch Saliency Score" als auch der PosPad-Strategie für die Aufrechterhaltung der Genauigkeit, insbesondere im Vergleich zu naiven Token-Dropping-Methoden oder allgemeinen Visual Token Pruning-Ansätzen.
FocusUI lässt sich nahtlos in bestehende VLM-Backbones wie Qwen2.5-VL und Qwen3-VL integrieren. Dies zeigt die breite Anwendbarkeit und Skalierbarkeit des Frameworks. Die Forschung ebnet den Weg für effizientere und präzisere KI-Agenten, die in der Lage sind, komplexe grafische Benutzeroberflächen effektiver zu verstehen und mit ihnen zu interagieren. Zukünftige Arbeiten könnten sich auf die Integration der zeitlichen Dimension konzentrieren, da UI-Interaktionen oft mehrere Runden und sequentielle Aktionen umfassen.
Für Unternehmen, die im Bereich der KI-gestützten Automatisierung von Benutzeroberflächen tätig sind, bietet FocusUI einen vielversprechenden Ansatz zur Effizienzsteigerung und Leistungsoptimierung. Die Fähigkeit, relevante visuelle Informationen gezielt zu verarbeiten, während gleichzeitig Ressourcen geschont werden, ist ein entscheidender Faktor für die Skalierbarkeit und Wirtschaftlichkeit solcher Anwendungen.
Wir bei Mindverse beobachten diese Entwicklungen genau und sind bestrebt, Ihnen stets die neuesten Erkenntnisse und deren praktische Implikationen für Ihr Geschäft zu präsentieren.
Bibliography: - Ouyang, M., Lin, K. Q., Shou, M. Z., & Ng, H. T. (2026). FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection. arXiv preprint arXiv:2601.03928. - The Moonlight. (n.d.). Efficient UI Grounding via Position-Preserving Visual Token Selection. Retrieved from https://www.themoonlight.io/en/review/focusui-efficient-ui-grounding-via-position-preserving-visual-token-selection - Ruwan, N. (n.d.). Improving UI Grounding with FocusUI, a Framework for Efficient Visual Token Selection. LinkedIn. Retrieved from https://www.linkedin.com/posts/nishantha-ruwan-15b301b2_focusui-efficient-ui-grounding-via-position-preserving-activity-7415057463009263616-E2uj - Lin, K. Q. (n.d.). Kevin Qinghong Lin @ University of Oxford. Retrieved from https://qhlin.me/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen