Die Konferenz Conference on Language Modeling (COLM) ist ein wichtiges Ereignis für Forschende und Entwickelnde im Bereich der künstlichen Intelligenz (KI), insbesondere im Bereich der Sprachmodelle. Auf der diesjährigen Konferenz stellte Haotian Zhang, ein Wissenschaftler bei Apple AI/ML, die neueste Version des multimodalen Sprachmodells Ferret, Ferret-v2, vor.
Ferret-v2: Weiterentwicklung im Bereich multimodaler Sprachmodelle
Ferret-v2 baut auf den Stärken seines Vorgängers auf und integriert regionale Informationen nahtlos in große Sprachmodelle (LLMs), um deren Fähigkeiten im Bereich Referenzierung und Grounding zu verbessern. Grounding bezieht sich dabei auf die Fähigkeit eines Modells, sprachliche Ausdrücke mit visuellen Informationen in Beziehung zu setzen.
Ferret-UI: Spezialisierung auf mobile Benutzeroberflächen
Neben Ferret-v2 präsentierte Zhang auch Ferret-UI, eine Weiterentwicklung des Modells, die speziell auf das Verständnis mobiler Benutzeroberflächen (UIs) zugeschnitten ist. Ferret-UI zeichnet sich durch verbesserte Fähigkeiten in den Bereichen Referenzierung, Grounding und Schlussfolgerung aus, die es ihm ermöglichen, effektiv mit UI-Elementen zu interagieren.
Herausforderungen bei der UI-Verarbeitung
Herkömmliche multimodale LLMs haben oft Schwierigkeiten, UI-Bildschirme zu verstehen, da diese im Vergleich zu natürlichen Bildern ein anderes Seitenverhältnis aufweisen und kleinere Objekte wie Symbole und Texte enthalten.
Besondere Merkmale von Ferret-UI
Um diese Herausforderungen zu bewältigen, nutzt Ferret-UI die "Any Resolution"-Technologie, um Details zu vergrößern und verbesserte visuelle Merkmale zu nutzen. Jeder Bildschirm wird basierend auf seinem Seitenverhältnis in zwei Unterbilder unterteilt, die separat kodiert und an die LLMs gesendet werden.
Umfangreiches Training und Evaluierung
Ferret-UI wurde anhand eines umfangreichen Datensatzes trainiert, der verschiedene elementare UI-Aufgaben wie Symbolerkennung, Textsuche und Widget-Auflistung umfasst. Regionale Annotationen in den Trainingsdaten ermöglichen präzises Referenzieren und Grounding.
Darüber hinaus wurde das Modell mit einem Datensatz für komplexere Aufgaben trainiert, darunter detaillierte Beschreibungen, Wahrnehmungs-/Interaktionsdialoge und Funktionsschlüsse.
Die Evaluierung von Ferret-UI erfolgte anhand eines umfassenden Benchmarks, der alle genannten Aufgaben umfasste. Die Ergebnisse zeigten, dass Ferret-UI nicht nur die meisten Open-Source-UI-MLLMs übertrifft, sondern auch GPT-4V bei allen elementaren UI-Aufgaben übertrifft.
Bedeutung für die Zukunft der Mensch-Computer-Interaktion
Die Präsentation von Ferret-v2 und Ferret-UI auf der COLM-Konferenz unterstreicht die rasanten Fortschritte im Bereich der multimodalen Sprachmodelle. Mit ihren verbesserten Fähigkeiten im Bereich Referenzierung, Grounding und Schlussfolgerung ebnen diese Modelle den Weg für eine natürlichere und intuitivere Interaktion zwischen Mensch und Computer. Insbesondere Ferret-UI hat das Potenzial, die Art und Weise, wie wir mit unseren mobilen Geräten interagieren, grundlegend zu verändern.
Bibliographie
- Zhang, Haotian. "Ferret-v2 Presentation at COLM Conference." Conference on Language Modeling, 2024.
- Khaliq, Ahsen. "Apple presents Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs." LinkedIn, 2024.
- Racha, Purna Chander. "Introducing Ferret-UI: Revolutionizing Mobile UI Understanding." LinkedIn, 2024.
- Sannapureddy, Bhaskara Reddy. "Apple presents Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs." LinkedIn, 2024.
- Soquet, Stephanie. "APPLE - UI Understanding · Multimodal Large Language Model (MLLM)." LinkedIn, 2024.