Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der multimodalen Modelle. Diese Modelle sind in der Lage, Informationen aus verschiedenen Quellen wie Text, Bild und Ton zu kombinieren und zu verarbeiten. Ein vielversprechender Ansatz in diesem Bereich ist die Trennung der visuellen Encodierung für Aufgaben des multimodalen Verständnisses und der Generierung.
Herkömmliche multimodale Modelle verwenden oft einen einzigen visuellen Encoder sowohl für das Verständnis als auch für die Generierung von Bildern. Dies kann jedoch zu suboptimalen Ergebnissen führen, da die Anforderungen an die Granularität der Informationen für beide Aufgaben unterschiedlich sind.
Beim multimodalen Verständnis, beispielsweise bei der Bildbeschreibung, liegt der Fokus auf der Extraktion semantischer Informationen auf hoher Ebene, wie z.B. Objektkategorien oder visuelle Attribute. Die Modelle müssen komplexe Zusammenhänge zwischen den Bildelementen erkennen und in Textform wiedergeben. Für diese Aufgabe ist eine semantische Repräsentation auf hoher Ebene erforderlich.
Im Gegensatz dazu steht bei der visuellen Generierung, z.B. bei der Text-zu-Bild-Synthese, die detaillierte Darstellung von Texturen, Formen und räumlichen Beziehungen im Vordergrund. Hierfür ist eine feingranulare Encodierung auf niedriger Ebene notwendig, die die feinen Details und Strukturen des Bildes erfassen kann.
Die Trennung der visuellen Encodierung in zwei separate Pfade bietet eine elegante Lösung für dieses Problem. Ein Pfad konzentriert sich auf die Extraktion semantischer Informationen für das multimodale Verständnis, während der andere Pfad auf die Erfassung feingranularer Details für die visuelle Generierung spezialisiert ist.
Dieser Ansatz bietet mehrere Vorteile. Erstens ermöglicht er die Verwendung spezialisierter Encoder, die optimal auf die jeweilige Aufgabe abgestimmt sind. So können beispielsweise vortrainierte Sprachmodelle für die semantische Encodierung und Convolutional Neural Networks für die Erfassung visueller Details eingesetzt werden.
Zweitens erhöht die Trennung der Encodierung die Flexibilität und Erweiterbarkeit des Modells. Zusätzliche Modalitäten, wie z.B. 3D-Punktwolken, Audiodaten oder sogar taktile Informationen, können durch Hinzufügen weiterer spezialisierter Encoder integriert werden.
Ein vielversprechendes Modell, das diesen Ansatz verfolgt, ist Janus. Janus verwendet zwei separate visuelle Encoder, die durch eine gemeinsame Transformer-Architektur miteinander verbunden sind. Der Transformer, eine Architektur, die ursprünglich für die Verarbeitung natürlicher Sprache entwickelt wurde, hat sich als äußerst effektiv bei der Modellierung von Beziehungen zwischen verschiedenen Datenmodalitäten erwiesen.
In Benchmarks für multimodales Verständnis und visuelle Generierung übertrifft Janus vergleichbare Modelle gleicher Größe. Bei Aufgaben des Verständnisses schneidet es sogar besser ab als einige größere, aufgabenspezifische Modelle.
Die Entwickler von Janus heben die hohe Flexibilität und einfache Erweiterbarkeit des Modells hervor. Durch die Entkopplung der visuellen Encodierung können die am besten geeigneten Encoder für Verständnis- und Generierungsaufgaben ausgewählt werden, ohne Kompromisse eingehen zu müssen.
Die Trennung der visuellen Encodierung ist ein vielversprechender Ansatz für die Entwicklung leistungsstarker, multimodaler KI-Modelle. Sie ermöglicht die Integration spezialisierter Encoder, erhöht die Flexibilität und eröffnet neue Möglichkeiten für die Kombination verschiedener Datenmodalitäten. Modelle wie Janus zeigen das Potenzial dieses Ansatzes und ebnen den Weg für eine neue Generation multimodaler Universalmodelle.
Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo. Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation. [Internet]. 2024. [Zugriff am 19. Oktober 2024]; Verfügbar unter: https://arxiv.org/abs/2410.13848 Maximilian Schreiner. Janus combines multimodal understanding and visual generation through innovative architecture. [Internet]. The Decoder. 2024. [Zugriff am 19. Oktober 2024]; Verfügbar unter: https://the-decoder.com/ Asif Razzaq. DeepSeek AI Releases Janus: A 1.3B Multimodal Model with Image Generation Capabilities. [Internet]. Facebook. 2024. [Zugriff am 19. Oktober 2024]; Verfügbar unter: https://m.facebook.com/groups/DeepNetGroup/posts/2315895308803338/ H Su, C-A Hurd Price, L Jing, Q Tian, J Liu, K Qian. Janus particles: design, preparation, and biomedical applications. [Internet]. Mater Today Bio. 2019. [Zugriff am 19. Oktober 2024];4:100033. Verfügbar unter: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7061647/ Umut Sulubacak, Ozan Caglayan, Stig-Arne Grönroos, Aku Rouhe, Desmond Elliott, Lucia Specia & Jörg Tiedemann. Multimodal machine translation through visuals and speech. Mach Transl 34, 97–147 (2020). Verfügbar unter: https://doi.org/10.1007/s10590-020-09250-0 Carl Andersen, Theresa Swift. The Janus System: A Bridge to New Prolog Applications. In: Prolog: The Next 50 Years. Springer Nature Switzerland; 2023. Verfügbar unter: https://www.springerprofessional.de/en/the-janus-system-a-bridge-to-new-prolog-applications/25504784