Das Wichtigste in Kürze
- InternVL-U ist ein vereinheitlichtes multimodales Modell (UMM) mit 4 Milliarden Parametern, das Fähigkeiten in den Bereichen Verständnis, Schlussfolgerung, Generierung und Bearbeitung vereint.
- Das Modell wurde entwickelt, um ein Gleichgewicht zwischen starkem semantischem Verständnis und leistungsstarken Generierungsfähigkeiten zu finden, was oft einen Kompromiss in UMMs darstellt.
- InternVL-U nutzt ein modulares Design mit entkoppelten visuellen Repräsentationen und integriert ein hochmodernes Multimodales Großes Sprachmodell (MLLM) mit einem spezialisierten MMDiT-basierten visuellen Generierungs-Head.
- Ein zentraler Bestandteil ist eine umfassende Datenpipelinesynthese, die auf Aufgaben mit hoher semantischer Dichte abzielt, wie Text-Rendering und wissenschaftliche Schlussfolgerungen, unter Nutzung von Chain-of-Thought (CoT).
- Trotz seiner relativ geringen Parameterzahl (4 Milliarden) übertrifft InternVL-U laut vorliegenden Studien Modelle, die dreimal größer sind, in verschiedenen Generierungs- und Bearbeitungsaufgaben, während es gleichzeitig starke multimodale Verständnis- und Schlussfolgerungsfähigkeiten beibehält.
Die Landschaft der Künstlichen Intelligenz wird zunehmend von multimodalen Modellen geprägt, die in der Lage sind, Informationen aus verschiedenen Quellen wie Text und Bildern zu verarbeiten. Ein aktueller technischer Bericht stellt InternVL-U vor, ein vereinheitlichtes multimodales Modell (UMM), das darauf abzielt, fortschrittliche Fähigkeiten in den Bereichen Verständnis, Schlussfolgerung, Generierung und Bearbeitung innerhalb eines einzigen, effizienten Frameworks zu vereinen.
Die Herausforderung vereinheitlichter multimodaler Modelle
Vereinheitlichte multimodale Modelle (UMMs), die sowohl das Verstehen als auch das Generieren von Inhalten über verschiedene Modalitäten hinweg integrieren, stehen oft vor einem grundlegenden Dilemma: dem inhärenten Kompromiss zwischen der Aufrechterhaltung eines starken semantischen Verständnisses und dem Erwerb leistungsstarker Generierungsfähigkeiten. Während einige Modelle exzellent im Verstehen von komplexen Zusammenhängen sind, fällt es ihnen möglicherweise schwer, qualitativ hochwertige und präzise Inhalte zu generieren. Umgekehrt können Modelle mit herausragenden Generierungsfähigkeiten Schwierigkeiten haben, tiefgreifende semantische Bedeutungen zu erfassen.
Lösungsansatz von InternVL-U
InternVL-U begegnet dieser Herausforderung durch einen spezifischen Designansatz. Das Modell wurde als leichtgewichtiges UMM mit 4 Milliarden Parametern konzipiert, das diese Fähigkeiten innerhalb eines vereinheitlichten Frameworks demokratisieren soll. Die Entwicklung von InternVL-U basiert auf drei leitenden Prinzipien:
- Vereinheitlichte Kontextmodellierung: Hierbei werden visuelle und sprachliche Token in einen gemeinsamen latenten Raum projiziert, um komplexe semantische Abhängigkeiten zu erfassen.
- Modalitätsspezifisches modulares Design: Dieser Ansatz berücksichtigt, dass verschiedene Modalitäten unterschiedliche statistische Eigenschaften besitzen.
- Entkoppelte visuelle Repräsentationen: Dies ermöglicht es, das hochrangige semantische Verständnis von Bildern von der detailreichen Pixelrekonstruktion für die Generierung zu trennen.
Durch die Integration eines hochmodernen Multimodalen Großen Sprachmodells (MLLM) mit einem spezialisierten MMDiT-basierten visuellen Generierungs-Head strebt InternVL-U an, die Lücke zwischen ästhetischer Generierung und hochrangiger Intelligenz zu schließen.
Architektur und Trainingsstrategie
Modellarchitektur
Die Architektur von InternVL-U ist modular aufgebaut. Im Gegensatz zu Ansätzen, die einen homogenen Verarbeitungspfad für alle Modalitäten erzwingen, verfolgt InternVL-U die Philosophie, dass unterschiedliche Modalitäten eine maßgeschneiderte Behandlung erfordern, um Effizienz und Leistung zu maximieren.
- Kontext-Phase: Visuelle und sprachliche Token werden in einen gemeinsamen latenten Raum projiziert, wobei ein vereinheitlichtes autoregressives Paradigma mit kausalem Masking verwendet wird.
- Generative Ziele: Für Text wird ein autoregressives Modell verwendet, während für Bilder ein kontinuierlicher multivariater Wahrscheinlichkeitsraum mittels Flow Matching modelliert wird. Dies ermöglicht es dem Modell, die Stärken der autoregressiven Sprachmodellierung für Text beizubehalten und gleichzeitig die hochpräzisen Generierungsfähigkeiten diffusionsbasierter Methoden für Bilder zu nutzen.
- Strukturelle Effizienz: Um Parameter- und FLOPs-Verschwendung zu minimieren, wird ein encoder-basiertes MLLM (basierend auf einem vortrainierten ViT) verwendet, um visuelle Informationen effizient zu aggregieren, bevor sie in den vereinheitlichten latenten Raum gelangen. Ein dedizierter Generierungs-Head, basierend auf der Multimodal Diffusion Transformer (MMDiT)-Architektur, übernimmt die Bildgenerierung.
- Entkoppelte visuelle Repräsentationen: Für das Verständnis werden hochrangige semantische Merkmale aus Rohpixeln extrahiert. Für die Generierung wird ein separates Variational Autoencoder (VAE) verwendet, der Bilder in einen für die Synthese geeigneten latenten Raum komprimiert.
Visual Generation Head
Der Visual Generation Head von InternVL-U ist detailliert konzipiert. Er verwendet duale Projektoren, um die Merkmalsverteilungen der multimodalen Hidden States (Kontext) und der VAE-Bildlatenten (Ziel) anzugleichen. Ein Dual-Stream MMDiT Block mit Gated Attention sorgt für eine effiziente Interaktion zwischen den Streams und integriert einen Gating-Mechanismus zur Verbesserung der Nichtlinearität. Unified MSRoPE (Multimodal Scalable Rotary Positional Embeddings) mit Auflösungsinterpolation kodiert Positionsinformationen und adressiert das Problem der Kachel-Artefakte bei hohen Auflösungen.
Trainingsstrategie
InternVL-U wird über eine dreistufige progressive Trainingsstrategie optimiert:
- Stufe 1 (MLP Warmup): Hier wird der MLP-Projektor aufgewärmt, der die visuelle und sprachliche Repräsentation verbindet.
- Stufe 1.5 (ViT inkrementelles Lernen, optional): Diese Stufe verbessert die Fähigkeit des Vision Encoders, visuelle Merkmale zu extrahieren, insbesondere für seltene Domänen.
- Stufe 2 (Full Model Instruction Tuning): Das gesamte Modell wird auf hochwertigen multimodalen Instruktionsdatensätzen trainiert, wobei strenge Qualitätskontrollen angewendet werden, um Rauschen zu minimieren.
Zusätzlich werden Trainingstechniken wie zufällige JPEG-Kompression zur Vermeidung von Overfitting und Loss Reweighting zur Ausbalancierung der Beiträge von Antworten unterschiedlicher Länge eingesetzt.
Datensynthese und Chain-of-Thought (CoT)
Um die Leistungsfähigkeit von InternVL-U weiter zu steigern, wurde eine umfassende Datenpipelinesynthese entwickelt. Diese Pipeline zielt auf Aufgaben mit hoher semantischer Dichte ab und nutzt den Chain-of-Thought (CoT)-Ansatz, um abstrakte Benutzerabsichten mit feinkörnigen visuellen Generierungsdetails besser abzugleichen. Die Pipeline umfasst verschiedene Datentypen:
- Text-Rendering- und Bearbeitungsdaten: Eine vollautomatische Pipeline deckt bilinguale Typografie und lokale Konsistenzbearbeitung ab, um das Fehlen symbolischer Präzision in generativen Modellen zu beheben.
- Wissenschaftliche Generierungs- und Bearbeitungsdaten: Für wissensintensive wissenschaftliche Szenarien werden programmatische Tools (z.B. GeoGebra, SVG) und akademische Korpora genutzt, um strukturierte visuell-textuelle Daten zu erstellen.
- Spatial-zentrierte Daten: Diese Daten verbessern das räumliche Verständnis des Modells, indem sie Szenarien wie Festkörpergeometrie, Multi-View-CAD und räumliche Rotation von 3D-Objekten abdecken.
- Humor-zentrierte Daten: Memes und humorvolle Inhalte werden synthetisiert, um die Fähigkeit des Modells zur Generierung und Bearbeitung von Bildern mit Humor, Satire und kulturellen Informationen zu verbessern.
Der "Reasoning-centric"-Ansatz transformiert vage Anweisungen in ausführbare Schritte, die Planung und Einschränkungen enthalten, was einen Sprung vom einfachen Befolgen von Anweisungen zu einer tiefen Intent-Ausrichtung ermöglicht.
Experimentelle Evaluierung
Die Evaluierung von InternVL-U erfolgte in verschiedenen Bereichen, um seine Leistungsfähigkeit umfassend zu bewerten.
Multimodales Verständnis und Schlussfolgern
InternVL-U wurde auf 7 weit verbreiteten MLLM-Benchmarks getestet, darunter MME-P, SEED, ChartQA, OCRBench, MMMU, MathVerse und LogicVista. Die Ergebnisse zeigen, dass InternVL-U eine robuste Leistung erbringt und vergleichbare UMMs, wie Janus-Pro und Ovis-U1, übertrifft. Trotz seiner kompakten Architektur (2B+1.7B Parameter) liefert es Schlussfolgerungsfähigkeiten, die mit dem deutlich größeren BAGEL-Modell vergleichbar sind, insbesondere bei MMMU. Dies deutet darauf hin, dass die vereinheitlichte Trainingsstrategie die starken visuell-sprachlichen Verständnisfähigkeiten von reinen Verständnis-Baselines effektiv beibehält.
Text-zu-Bild-Generierung
Für die Text-zu-Bild-Generierung wurde InternVL-U auf GenEval, DPG-Bench, TIIF und OneIG für die allgemeine Bewertung, LongText und CVTG-2k für die Text-Rendering-Qualität sowie WISE und GenExam für wissensintensive Generierung getestet.
- Allgemeine Bildgenerierung: InternVL-U erreicht die höchste Gesamtpunktzahl (0.85) unter den bestehenden vereinheitlichten Modellen auf GenEval und übertrifft die meisten spezialisierten Generierungsmodelle. Auf DPG-Bench zeigt es eine stärkere Leistung bei globalen und Entitätsdimensionen.
- Text-zentrierte Bildgenerierung: Auf CVTG-2k erreicht InternVL-U eine durchschnittliche Wortgenauigkeit von 0.623, was eine Spitzenleistung unter den UMMs darstellt. Auf LongText-Bench demonstriert es robuste mehrsprachige Textgenerierung mit hohen Werten in Englisch und Chinesisch, was frühere Mängel vereinheitlichter Modelle bei der lesbaren Textdarstellung behebt.
- Wissensbasierte Bildgenerierung: Mit CoT erzielt InternVL-U erhebliche Leistungssteigerungen (von 0.46 auf 0.58 Gesamtpunkte) auf WISE und übertrifft andere vereinheitlichte Baselines. Auf GenExam erreicht es die höchsten Werte unter den UMMs, insbesondere in Physik, Chemie und Biologie, was seine Fähigkeit zur wissenschafts-zentrierten Bildgenerierung bestätigt.
Bildbearbeitung
Die Bildbearbeitungsfähigkeiten wurden auf ImgEdit, GEdit-Bench und RISEBench sowie einem neuen Text-zentrierten Benchmark namens TextEdit bewertet.
- Allgemeine Bildbearbeitung: InternVL-U zeigt auf ImgEdit eine wettbewerbsfähige Bearbeitungskompetenz, wobei die CoT-Modelle eine Gesamtpunktzahl von 3.82 erreichen. Auf GEdit-Bench erzielt es einen Durchschnittswert von 6.66, der Baselines wie BAGEL und Ovis-U1 übertrifft. Die Anwendung der CoT-Strategie verbessert die Leistung weiter auf 6.88.
- Text-zentrierte Bildbearbeitung: Auf TextEdit demonstriert InternVL-U eine überlegene Leistung mit einem F1-Score von 0.71, was mit kommerziellen Modellen wie Nano Banano Pro vergleichbar ist. Bei MLLM-basierten Evaluierungen erreicht es einen Durchschnittswert von 0.88 bei Bildern aus realen Szenen.
- Schlussfolgerungsbasierte Bildbearbeitung: Die Einführung der CoT-Strategie führt zu einer bemerkenswerten Leistungssteigerung auf RISEBench (von 3.6 auf 9.4), womit InternVL-U sowohl Open-Source-Baselines als auch spezialisierte Generierungsmodelle übertrifft.
Die Ergebnisse zeigen, dass InternVL-U nicht nur in wissensintensiver Generierung und Bearbeitung hervorragend ist, sondern auch eine wettbewerbsfähige Leistung bei multimodalen Verständnis- und Schlussfolgerungs-Benchmarks beibehält.
Fazit
InternVL-U repräsentiert einen Fortschritt in der Entwicklung vereinheitlichter multimodaler Modelle. Durch die Kombination eines modularen Designs mit einer fortschrittlichen Datenpipelinesynthese und der Nutzung von Chain-of-Thought-Ansätzen konnte ein Modell entwickelt werden, das leistungsstarke Funktionen in den Bereichen Verständnis, Schlussfolgerung, Generierung und Bearbeitung bietet. Die Ergebnisse deuten darauf hin, dass InternVL-U ein robustes Fundament für die Weiterentwicklung umfassender, omnifähiger, AGI-orientierter UMMs darstellen könnte.
Es bleibt abzuwarten, wie sich diese Technologie in zukünftigen Anwendungen und weiteren Forschungsarbeiten entwickeln wird. Die "Demokratisierung" dieser Fähigkeiten durch effiziente und zugängliche Modelle ist ein wichtiger Schritt zur breiteren Anwendung multimodaler KI-Systeme.
Bitte beachten Sie, dass die hier präsentierten Informationen auf einem technischen Bericht basieren und weitere Validierungen und unabhängige Überprüfungen im wissenschaftlichen Diskurs üblich sind.
***
Bibliographie
- Tian, C., Yang, D., Chen, G., Cui, E., Wang, Z., Duan, Y., Yin, P., Chen, S., Yang, G., Liu, M., Zhu, Z., Fan, Z., Gu, L., Wang, H., Wei, Q., Yin, J., Yang, X., Zhong, Z., Qin, Q., Xin, Y., Fu, B., Liu, Y., Ge, J., Guo, Q., Luo, G., Li, H., Qiao, Y., Chen, K., & Zhang, H. (2026). InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing. arXiv. Abgerufen von https://arxiv.org/abs/2603.09877
- OpenGVLab/InternVL-U. (o. J.). GitHub. Abgerufen von https://github.com/OpenGVLab/InternVL-U
- Tian, C. (o. J.). Paper page - InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing. Hugging Face. Abgerufen von https://huggingface.co/papers/2603.09877
- Yang, Y., Tian, H., Shi, Y., Xie, W., Zhang, Y.-F., Dong, Y., Hu, Y., Wang, L., He, R., Shan, C., Fu, C., & Tan, T. (2025). A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges. TechRxiv. Abgerufen von https://d197for5662m48.cloudfront.net/documents/publicationstatus/290060/preprint_pdf/6da27c93134f892297c4365ec17ce686.pdf
- Huang, Z., Zhuang, S., Fu, C., Yang, B., Zhang, Y., Sun, C., Zhang, Z., Wang, Y., Li, C., & Zha, Z.-J. (2025). WeGen: A Unified Model for Interactive Multimodal Generation as We Chat. CVPR. Abgerufen von https://openaccess.thecvf.com/content/CVPR2025/papers/Huang_WeGen_A_Unified_Model_for_Interactive_Multimodal_Generation_as_We_CVPR_2025_paper.pdf
- LU, H. (2024, 10. Dezember). InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks. Medium. Abgerufen von https://medium.com/@jiangmen28/internvl-scaling-up-vision-foundation-models-and-aligning-for-generic-visual-linguistic-tasks-d30a0da03623
- Chen, Z., Wang, W., Cao, Y., Liu, Y., Gao, Z., Cui, E., Zhu, J., Ye, S., Tian, H., Liu, Z., Gu, L., Wang, X., Li, Q., Reng, Y., Chen, Z., Luo, J., Wang, J., Jiang, T., Wang, B., He, C., Shi, B., Zhang, X., Lv, H., Wang, Y., Shao, W., Chu, P., Tu, Z., He, T., Wu, Z., Deng, H., Ge, J., Chen, K., Zhang, K., Wang, L., Dou, M., Lu, L., Zhu, X., Lu, T., Lin, D., Qiao, Y., Dai, J., & Wang, W. (o. J.). Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling. arXiv. Abgerufen von https://arxiv.org/html/2412.05271?_immersive_translate_auto_translate=1
- CVPR 2025 Open Access Repository. (o. J.). Abgerufen von http://openaccess.thecvf.com/content/CVPR2025/html/Wang_LaVin-DiT_Large_Vision_Diffusion_Transformer_CVPR_2025_paper.html