Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich multimodaler Modelle, die sowohl visuelle Inhalte verstehen als auch generieren können. Traditionell waren diese Modelle jedoch oft rechenintensiv und erforderten große Datenmengen, was ihren Einsatz auf ressourcenbeschränkten Geräten wie Smartphones erschwerte. Eine aktuelle Entwicklung namens Mobile-O, die von einem internationalen Forscherteam vorgestellt wurde, zielt darauf ab, diese Lücke zu schließen und eine effiziente und leistungsstarke multimodale Intelligenz direkt auf mobile Endgeräte zu bringen.
Bestehende multimodale Modelle, die sowohl das Verstehen von Bildern als auch deren Generierung in einer einzigen Architektur vereinen, sind oft sehr komplex. Modelle wie BLIP-3o erfordern beispielsweise Milliarden von Parametern und umfangreiche Trainingsdatensätze. Dies führt zu hohen Anforderungen an Rechenleistung und Speicher, die für den Einsatz auf Edge-Geräten, wie Smartphones, ungeeignet sind. Die Forschung stand somit vor der Frage: Ist es möglich, ein multimodales Modell zu entwickeln, das sowohl effektiv als auch effizient genug für den mobilen Einsatz ist?
Mobile-O präsentiert sich als ein kompaktes Vision-Language-Diffusion-Modell, das speziell für mobile Endgeräte konzipiert wurde. Es zeichnet sich durch einen geringen Speicherbedarf und Echtzeit-Latenzzeiten aus. Im Gegensatz zu früheren Ansätzen, die umfangreiches Vortraining erforderten, erreicht Mobile-O seine Leistungsfähigkeit mit nur wenigen Millionen Vortrainingsbeispielen und sorgfältig kuratierten Post-Training-Daten. Die Kernkomponente des Modells ist der Mobile Conditioning Projector (MCP).
Der MCP ist ein leichtgewichtiger Konnektor, der visuell-sprachliche Merkmale mit einem Diffusionsgenerator verschmilzt. Er nutzt tiefenweise trennbare Faltungen und schichtweise Ausrichtung, um eine effiziente, modalitätsübergreifende Konditionierung mit minimalem Rechenaufwand zu ermöglichen. Im Gegensatz zu herkömmlichen Ansätzen, die lernbare Abfrage-Tokens zwischen dem VLM und dem Bild-Decoder einfügen, verbindet der MCP die Hidden States des VLM direkt mit dem Diffusions-Decoder. Dies reduziert die Anzahl der Parameter und den Bedarf an umfangreichen Vortrainingdaten erheblich.
Mobile-O verwendet ein dreistufiges Trainingsschema, das darauf abzielt, die multimodalen Fähigkeiten schrittweise zu verbessern:
Die Evaluierung von Mobile-O zeigt beeindruckende Ergebnisse. Auf dem GenEval-Benchmark erreicht Mobile-O 74 % und übertrifft damit Modelle wie Show-O und JanusFlow um 5 % bzw. 11 %, während es gleichzeitig 6- bis 11-mal schneller läuft. Im visuellen Verstehen übertrifft Mobile-O diese Modelle im Durchschnitt über sieben Benchmarks um 15,3 % bzw. 5,1 %.
Besonders hervorzuheben ist die Performance auf mobilen Geräten. Auf einem iPhone kann Mobile-O ein 512x512 Bild in etwa 3 Sekunden generieren und visuelles Verstehen in etwa 0,4 Sekunden durchführen. Dies wird durch eine Speicherbelegung von unter 2 GB ermöglicht. Diese Ergebnisse positionieren Mobile-O als ein praktikables Framework für die Echtzeit-Multimodalität auf Edge-Geräten ohne Cloud-Abhängigkeit.
Mobile-O unterstützt neben der Text-zu-Bild-Generierung und dem visuellen Verstehen auch die Bildbearbeitung. Durch die Feinabstimmung auf einer kleinen Menge von Bearbeitungsbeispielen kann das Modell Bilder basierend auf textuellen Anweisungen bearbeiten, wobei globale Szenenstrukturen beibehalten und lokale Änderungen vorgenommen werden. Qualitative Vergleiche zeigen, dass Mobile-O Bilder mit schärferen Details, kohärenteren Layouts und konsistenterer Beleuchtung erzeugt als vergleichbare Modelle. Auch im visuellen Verstehen liefert es genauere und kontextuell kohärentere Antworten, selbst bei komplexen Aufgaben wie dem Extrahieren von Informationen aus dichten Texten auf Buchcovern.
Eine aktuelle Einschränkung von Mobile-O ist die Wiederverwendung desselben leichtgewichtigen LLM als Text-Encoder, anstatt eines dedizierten, größeren Sprachmodells. Dies trägt zwar zur Reduzierung des Speicherbedarfs bei, könnte aber die Ausdruckskraft der Textrepräsentationen im Vergleich zu Modellen mit umfangreicheren Sprach-Backbones begrenzen. Die Integration größerer Modelle ist aufgrund der Speicherbeschränkungen mobiler Geräte derzeit nicht praktikabel.
Trotz dieser Einschränkung stellt Mobile-O einen bedeutenden Schritt in Richtung einer zugänglicheren und effizienteren multimodalen KI dar. Die Forschung hofft, dass Mobile-O zukünftige Entwicklungen im Bereich der Echtzeit-Multimodalität auf Geräten ohne Cloud-Abhängigkeit erleichtern wird.
Die Innovationen von Mobile-O unterstreichen das Potenzial von KI-Modellen, die nicht nur leistungsstark, sondern auch ressourcenschonend sind. Dies eröffnet neue Möglichkeiten für eine Vielzahl von B2B-Anwendungen, von der On-Device-Bildanalyse bis hin zur Echtzeit-Content-Generierung, die bisher nur mit umfangreicher Cloud-Infrastruktur realisierbar waren.
bibliography - Shaker, A., Heakl, A., Muhammad, J., Thawkar, R., Thawakar, O., Li, S., Cholakkal, H., Reid, I., Xing, E. P., Khan, S., & Khan, F. S. (2026). Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device. arXiv preprint arXiv:2602.20161. - Hugging Face. (2026). Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device. Abgerufen von https://huggingface.co/papers/2602.20161 - GitHub. (2026). Amshaker/Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device. Abgerufen von https://github.com/Amshaker/Mobile-O - Mobile-O Project Page. (2026). Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device. Abgerufen von https://amshaker.github.io/Mobile-O/ - AI Research Roundup. (2026). Mobile-O: Understanding and Generating on Mobile. YouTube. Abgerufen von https://www.youtube.com/watch?v=BWBDjDZK9hA
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen