Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Das Allen Institute for AI (Ai2) hat kürzlich die Veröffentlichung von MolmoPoint-GUI auf Hugging Face bekannt gegeben. Dieses spezialisierte Vision-Language Model (VLM) stellt einen Fortschritt im Bereich der grafischen Benutzeroberflächen (GUI)-Automatisierung dar, indem es eine innovative Methode zur Punktbestimmung einführt, die auf Grounding-Tokens statt auf traditionellen Koordinaten basiert. Die Entwicklung verspricht eine präzisere und effizientere Interaktion mit digitalen Schnittstellen und erreicht bemerkenswerte Ergebnisse auf relevanten Benchmarks.
Die Automatisierung von Aufgaben auf grafischen Benutzeroberflächen ist ein zentrales Anwendungsfeld für KI. Bisherige Vision-Language Models (VLMs) zur GUI-Automatisierung stützen sich oft auf die Generierung von Textkoordinaten oder die Zuordnung von Tokens zu Koordinatenbereichen, um spezifische Elemente auf einem Bildschirm zu identifizieren und mit ihnen zu interagieren. Diese Ansätze können jedoch Limitationen aufweisen, insbesondere bei hohen Auflösungen oder komplexen Layouts. Die Notwendigkeit, ein kompliziertes Koordinatensystem zu erlernen und eine hohe Anzahl von Ausgabetokens zu verarbeiten, kann die Effizienz und Robustheit dieser Modelle beeinträchtigen.
MolmoPoint-GUI von Ai2 geht diese Herausforderungen mit einem neuartigen Ansatz an: der Verwendung von Grounding-Tokens. Anstatt explizite Pixelkoordinaten zu generieren, wählt das Modell direkt visuelle Tokens aus, die das Zielkonzept enthalten. Dieser Prozess erfolgt in einem dreistufigen Verfahren:
Diese Methode ist direkter an die interne visuelle Repräsentation des Modells gebunden und erfordert weniger Tokens pro Punkt, was die Dekodierungskosten senkt und die Inferenzlatenz verbessert.
MolmoPoint-GUI-8B, die spezialisierte Version des Modells für die GUI-Punktbestimmung, erzielt auf dem ScreenSpotPro-Benchmark einen Wert von 61,1. Dies stellt einen signifikanten Fortschritt in der Präzision der GUI-Interaktion dar, insbesondere im Vergleich zu früheren Modellen, die auf Textkoordinaten basierten. Die Entwickler betonen, dass die Verwendung von Grounding-Tokens das Lernen für die Modelle erleichtert und die Robustheit über verschiedene Auflösungen hinweg erhöht.
Ein weiterer Vorteil dieser Architektur ist die verbesserte Trainingseffizienz. MolmoPoint-Modelle erreichen die Spitzenleistung schneller während des Vortrainings und zeigen eine höhere Stichprobeneffizienz, selbst mit einer geringeren Anzahl von Trainingsbeispielen. Dies ist besonders relevant für B2B-Anwendungen, bei denen die schnelle Anpassung und Bereitstellung von KI-Modellen entscheidend ist.
Für das Training des GUI-spezialisierten Modells wurde MolmoPoint-GUISyn entwickelt, ein synthetischer Datensatz mit etwa 36.000 hochauflösenden Screenshots von Desktop-, Web- und mobilen Umgebungen. Dieser Datensatz enthält über 2 Millionen annotierte Punkte und wurde durch die Generierung von HTML-Code mittels eines LLM und die Extraktion von Bounding Boxes mithilfe von Browser-Automatisierungstools erstellt. Die Dichte der Annotationen ermöglicht ein effizientes Training.
Die MolmoPoint-Modellreihe umfasst neben MolmoPoint-GUI-8B auch MolmoPoint-8B für allgemeine Bild- und Videoaufgaben sowie MolmoPoint-Vid-4B, optimiert für Videos. Alle Modelle, der Code und die Daten sind Open Source, was die Forschung und Entwicklung in diesem Bereich weiter fördert.
Die Fähigkeit von VLMs, präzise auf visuelle Elemente zu zeigen, ist für eine Vielzahl von Anwendungen von entscheidender Bedeutung:
Die Forschung zeigt, dass Grounding-Tokens eine überlegene Grundlage für multimodale Modelle bieten, die präzise auf visuelle Informationen verweisen müssen. Zukünftige Arbeiten könnten diesen Ansatz auf andere Modalitäten wie Text- oder Audio-Tokens ausweiten, um wichtige Textpassagen hervorzuheben oder auf spezifische Geräusche zu verweisen.
Die Veröffentlichung von MolmoPoint-GUI durch Ai2 auf Hugging Face markiert einen wichtigen Schritt in der Entwicklung von KI-gestützter GUI-Automatisierung. Die verbesserte Präzision, Effizienz und Robustheit, die durch Grounding-Tokens ermöglicht wird, eröffnet neue Möglichkeiten für Unternehmen, komplexe digitale Workflows zu optimieren und die Interaktion mit Software zu revolutionieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen