Effizienzsteigerung im UI Grounding durch das FocusUI-Framework

Kategorien:

No items found.

Freigegeben:

January 15, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das Forschungsprojekt FocusUI befasst sich mit der Effizienzverbesserung des "UI Grounding" bei Vision-Language Models (VLMs).
UI Grounding ist die Fähigkeit von KI-Modellen, spezifische Elemente auf einer Benutzeroberfläche basierend auf Textanweisungen zu identifizieren.
Hochauflösende Screenshots führen zu einer hohen Anzahl visueller Token, was den Rechenaufwand erhöht und die Aufmerksamkeit des Modells verwässert.
FocusUI schlägt ein Framework vor, das nur die instruktionsrelevantesten visuellen Token auswählt und dabei die Positionskontinuität beibehält.
Die Methode beinhaltet einen "Instruction-to-Patch Saliency Score" und eine neuartige "PosPad"-Strategie zur Erhaltung der Positionsinformationen.
Experimente zeigen, dass FocusUI die Leistung im UI Grounding verbessert und gleichzeitig die Inferenzzeit verkürzt sowie den GPU-Speicherverbrauch reduziert.

Als Senior Specialist Journalist und Analyst für Mindverse ist es unsere Aufgabe, komplexe technologische Entwicklungen präzise und verständlich für Sie aufzubereiten. Heute beleuchten wir eine aktuelle Forschungsarbeit, die sich mit der Effizienz von KI-Anwendungen im Bereich des User Interface (UI) Grounding befasst.

Optimierung des UI Grounding: Eine Analyse des FocusUI-Frameworks

Die Interaktion zwischen Mensch und Computer entwickelt sich stetig weiter, und mit ihr die Anforderungen an künstliche Intelligenz. Eine zentrale Herausforderung in diesem Feld ist das sogenannte UI Grounding. Hierbei geht es um die Fähigkeit von Vision-Language Models (VLMs), spezifische Elemente auf einer grafischen Benutzeroberfläche (GUI) präzise zu lokalisieren, basierend auf einer natürlichen Sprachinstruktion. Während VLMs in den letzten Jahren beeindruckende Fortschritte erzielt haben, insbesondere durch die Verarbeitung hochauflösender Screenshots, stoßen sie dabei auf erhebliche Effizienzprobleme. Ein aktuelles Forschungspapier stellt hierzu eine innovative Lösung vor: FocusUI.

Die Herausforderung: Redundanz und Rechenaufwand

Der Kern des Problems liegt in der Art und Weise, wie aktuelle VLMs visuelle Informationen verarbeiten. Hochauflösende Screenshots, die für ein präzises UI Grounding unerlässlich sind, werden in Tausende von visuellen Token zerlegt. Bei einer 2K-Auflösung können dies beispielsweise bis zu 4700 Token sein. Diese enorme Menge an Daten führt zu einem signifikanten Rechenaufwand und einer Verwässerung der Aufmerksamkeit des Modells. Im Gegensatz dazu konzentrieren sich Menschen bei der Interaktion mit UIs intuitiv auf die relevanten Bereiche. Diesen menschlichen Ansatz versucht FocusUI, in ein KI-Framework zu übersetzen.

FocusUI: Ein Framework für effizientes UI Grounding

FocusUI, entwickelt von einem Team um Mingyu Ouyang und Kevin Qinghong Lin, adressiert zwei Hauptprobleme:

Eliminierung redundanter Token in der visuellen Kodierung: UI-Screenshots bestehen oft aus großen, homogenen Bereichen (z.B. Hintergründe) und vielen sich wiederholenden visuellen Elementen. Diese redundanten Token tragen wenig zur Instruktion bei, belasten aber das System. FocusUI zielt darauf ab, diese irrelevanten oder repetitiven visuellen Token zu identifizieren und deren Gewichtung zu reduzieren.
Erhaltung der Positionskontinuität während der visuellen Token-Auswahl: Herkömmliche Methoden zur Reduzierung visueller Token (Visual Token Pruning) neigen dazu, Token ohne Berücksichtigung ihrer räumlichen Anordnung zu entfernen. Dies führt zum Verlust wichtiger Positionsinformationen, was die Präzision des UI Grounding erheblich beeinträchtigen kann, insbesondere bei feingranularen Lokalisierungsaufgaben.

Die Kernkomponenten von FocusUI

Das Framework von FocusUI basiert auf drei wesentlichen Komponenten:

1. Instruction-to-Patch Saliency Score

Diese Komponente generiert eine dichte Überwachung für jeden visuellen Patch, indem sie zwei komplementäre Signale fusioniert:

Bounding-Box Saliency Score (S_bbox): Für jede Patch-Zelle wird ein Score basierend auf ihrer Überschneidung (Intersection over Union, IoU) mit der Ground-Truth-Bounding-Box zugewiesen. Patches, die vollständig abgedeckt sind, erhalten einen Score von 1, während nicht überlappende Patches einen Score von 0 erhalten. Dies erzeugt einen Abfall des Scores entlang der Begrenzung der Box.
UI-Graph Saliency Score (S_uig): Dieser regelbasierte, instruktionsunabhängige Prior nutzt einen Union-Find-Algorithmus über verbundene Komponenten visueller Patches. Patches gelten als verbunden, wenn ihr L2-Abstand im RGB-Farbraum unter einem bestimmten Schwellenwert liegt. Große homogene Regionen (z.B. leere Hintergründe) erhalten dabei geringere Gewichte, während markante Elemente hervorgehoben werden.

Diese beiden Scores werden linear kombiniert, um den finalen "Instruction-to-Patch Saliency Score" zu erhalten.

2. Lightweight Query-Guided Saliency Scorer

Dieses Modul wird trainiert, um die Saliency (Auffälligkeit) pro Patch basierend auf der fusionierten Überwachung vorherzusagen. Es verwendet Patch-Embeddings vom Vision Encoder und Text-Embeddings der Instruktion vom Sprachmodell. Eine Self-Attention-Schicht verbessert die Merkmale, gefolgt von einer Tanh-Beschränkung und L2-Normalisierung. Die Ähnlichkeiten zwischen Patch- und Text-Embeddings werden berechnet, und die Saliency-Scores pro Patch werden durch Aggregation der Ähnlichkeiten über die Text-Query-Dimensionen erhalten. Das Training erfolgt mittels eines KL-Divergenz-Ziels.

3. PosPad: Erhaltung der Positionskontinuität

Nach der Auswahl der relevantesten K Patches (basierend auf deren Saliency-Scores) kommt PosPad zum Einsatz. Diese Strategie ersetzt jede zusammenhängende Sequenz verworfener visueller Token durch einen einzigen lernbaren Marker an der letzten Position dieser Sequenz. Dieser Marker bewahrt die Positionskontinuität und ermöglicht es dem Modell, die räumlichen Beziehungen der verbleibenden Token korrekt zu interpretieren. Die Designentscheidung, den Marker am Ende der Sequenz zu platzieren, ist dabei kompatibel mit der Raster-Scan-Reihenfolge, die von Vision Encodern und Multimodal Rotary Position Embedding (M-RoPE) verwendet wird.

Experimentelle Ergebnisse und Effizienzgewinne

Die umfassenden Experimente auf vier UI-Grounding-Benchmarks (ScreenSpot-V2, ScreenSpot-Pro, OS-World-G und UI-Vision) demonstrieren die Effektivität von FocusUI. Es übertrifft GUI-spezifische Baselines und erreicht selbst bei einer Reduzierung der visuellen Token um 30-50% eine hohe Genauigkeit. Beispielsweise konnte FocusUI-7B auf dem ScreenSpot-Pro-Benchmark eine Leistungsverbesserung von 3,7% gegenüber GUI-Actor-7B erzielen. Gleichzeitig reduziert FocusUI-7B bei einer Beibehaltungsrate von nur 30% der visuellen Token den Genauigkeitsabfall auf lediglich 3,2%, während es eine bis zu 1,44-fach schnellere Inferenz und einen um 17% geringeren Spitzen-GPU-Speicherverbrauch ermöglicht. Dies unterstreicht die Fähigkeit von FocusUI, einen exzellenten Kompromiss zwischen Genauigkeit und Effizienz zu bieten.

Ablationsstudien bestätigen zudem die entscheidende Rolle sowohl des fusionierten "Instruction-to-Patch Saliency Score" als auch der PosPad-Strategie für die Aufrechterhaltung der Genauigkeit, insbesondere im Vergleich zu naiven Token-Dropping-Methoden oder allgemeinen Visual Token Pruning-Ansätzen.

Integration und Ausblick

FocusUI lässt sich nahtlos in bestehende VLM-Backbones wie Qwen2.5-VL und Qwen3-VL integrieren. Dies zeigt die breite Anwendbarkeit und Skalierbarkeit des Frameworks. Die Forschung ebnet den Weg für effizientere und präzisere KI-Agenten, die in der Lage sind, komplexe grafische Benutzeroberflächen effektiver zu verstehen und mit ihnen zu interagieren. Zukünftige Arbeiten könnten sich auf die Integration der zeitlichen Dimension konzentrieren, da UI-Interaktionen oft mehrere Runden und sequentielle Aktionen umfassen.

Für Unternehmen, die im Bereich der KI-gestützten Automatisierung von Benutzeroberflächen tätig sind, bietet FocusUI einen vielversprechenden Ansatz zur Effizienzsteigerung und Leistungsoptimierung. Die Fähigkeit, relevante visuelle Informationen gezielt zu verarbeiten, während gleichzeitig Ressourcen geschont werden, ist ein entscheidender Faktor für die Skalierbarkeit und Wirtschaftlichkeit solcher Anwendungen.

Wir bei Mindverse beobachten diese Entwicklungen genau und sind bestrebt, Ihnen stets die neuesten Erkenntnisse und deren praktische Implikationen für Ihr Geschäft zu präsentieren.

Bibliography: - Ouyang, M., Lin, K. Q., Shou, M. Z., & Ng, H. T. (2026). FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection. arXiv preprint arXiv:2601.03928. - The Moonlight. (n.d.). Efficient UI Grounding via Position-Preserving Visual Token Selection. Retrieved from https://www.themoonlight.io/en/review/focusui-efficient-ui-grounding-via-position-preserving-visual-token-selection - Ruwan, N. (n.d.). Improving UI Grounding with FocusUI, a Framework for Efficient Visual Token Selection. LinkedIn. Retrieved from https://www.linkedin.com/posts/nishantha-ruwan-15b301b2_focusui-efficient-ui-grounding-via-position-preserving-activity-7415057463009263616-E2uj - Lin, K. Q. (n.d.). Kevin Qinghong Lin @ University of Oxford. Retrieved from https://qhlin.me/