KI für Ihr Unternehmen – Jetzt Demo buchen

Youtu-VL: Fortschritte in der visuellen Sprachverarbeitung durch vereinheitlichte autoregressive Supervision

Kategorien:
No items found.
Freigegeben:
January 29, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Youtu-VL ist ein Rahmenwerk, das die Limitierungen bestehender Vision-Language Models (VLMs) bei der feinkörnigen visuellen Informationsverarbeitung adressiert.
    • Es führt das Vision-Language Unified Autoregressive Supervision (VLUAS)-Paradigma ein, das visuelle Signale als Ziel und nicht nur als Eingabe behandelt.
    • Durch die direkte Integration visueller Token in den Vorhersagestrom ermöglicht Youtu-VL eine vereinheitlichte autoregressive Supervision für visuelle Details und sprachliche Inhalte.
    • Das Modell kann visuell-zentrierte Aufgaben ohne aufgabenspezifische Ergänzungen ausführen und erreicht dabei eine hohe Leistung bei multimodalen und visuell-zentrierten Aufgaben.
    • Umfassende Evaluierungen auf 30 visuell-zentrierten und 45 allgemeinen multimodalen Benchmarks belegen die Effektivität von Youtu-VL.

    Die rapide Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren zu bemerkenswerten Fortschritten geführt, insbesondere im Bereich der multimodalen Modelle. Vision-Language Models (VLMs), die Text- und Bildinformationen integrieren, sind dabei ein zentrales Forschungsfeld. Trotz signifikanter Erfolge in der multimodalen Verarbeitung weisen herkömmliche VLM-Architekturen oft Defizite bei der Erfassung und Verarbeitung feinkörniger visueller Details auf, was zu einer eher groben multimodalen Verständnisfähigkeit führt. Diese Einschränkung resultiert häufig aus einem trainingsbedingten Bias, bei dem visuelle Signale primär als passive, konditionale Eingaben und nicht als primäre Überwachungsziele behandelt werden.

    Youtu-VL: Eine Neuausrichtung der multimodalen Architektur

    Um diese Herausforderungen zu überwinden, wurde das Rahmenwerk Youtu-VL entwickelt. Es basiert auf dem Paradigma der Vision-Language Unified Autoregressive Supervision (VLUAS), das den Optimierungsansatz grundlegend ändert: von "Vision-als-Eingabe" zu "Vision-als-Ziel". Dieser Paradigmenwechsel, bei dem visuelle Token direkt in den Vorhersagestrom integriert werden, ermöglicht eine vereinheitlichte autoregressive Supervision, die sowohl feine visuelle Details als auch sprachliche Inhalte berücksichtigt.

    Die VLUAS-Methode im Detail

    Das Kernstück von Youtu-VL ist die Erweiterung des konventionellen Text-Lexikons zu einem vereinheitlichten Bild-Text-Vokabular. Dies wird durch einen spezialisierten Vision-Tokenisierer erreicht, der Bilder in eine Sequenz diskreter Indizes umwandelt. Diese Indizes dienen als Vorhersageziele, wodurch das visuelle Lernen in die gleiche "Nächste-Token-Vorhersage"-Form wie das Sprachmodellieren überführt wird. Dies ermöglicht eine direkte, token-level-basierte Supervision für dichte Vorhersagen mittels Kreuzentropie.

    Ein entscheidender Aspekt des Vision-Tokenisierers ist seine Fähigkeit, sowohl hochrangige semantische Konzepte als auch feine räumliche Strukturen zu bewahren. Dies wird durch einen synergetischen Vision-Tokenisierer erreicht, der semantische Merkmale mit geometrischen Strukturen fusioniert. Hierbei werden zwei eingefrorene fundamentale Encoder genutzt: SigLIP-2 für sprachlich-ausgerichtete Semantik und DINOv3 für grenzkonsistente lokale Korrespondenzen. Durch einen Kreuz-Aufmerksamkeitsmechanismus werden diese Merkmale fusioniert und dann quantisiert, um ein lernbares Codebook zu erstellen. Die Optimierung des Tokenisierers erfolgt mittels einer zusammengesetzten Zielfunktion, die die perzeptuelle Wiedergabetreue und die Nutzung des Codebooks ausbalanciert, wobei ein pixelweises Rekonstruktions-Loss bewusst vermieden wird, um einen "Textur-Bias" zu verhindern.

    Visuell-zentrierte Aufgaben mit Standardarchitektur

    Youtu-VL erweitert dieses vereinheitlichte Paradigma auf eine umfassende Suite visuell-zentrierter Aufgaben, ohne die Notwendigkeit aufgabenspezifischer Module. Diese Fähigkeiten werden in zwei Ströme unterteilt: textbasierte Vorhersage und dichte Vorhersage. Für textbasierte Aufgaben wie Objekterkennung und visuelles Grounding generiert das Modell präzise Bounding Boxes direkt als textuelle Token. Bei pixelbasierten Aufgaben wie semantischer Segmentierung und Tiefenschätzung kommen die nativen Logit-Repräsentationen des Modells zum Einsatz. Dieser Ansatz ermöglicht hochwertige dichte Vorhersagen direkt aus den Roh-Logits, was die Inferenz-Pipeline vereinheitlicht und einem Standard-VLM ermöglicht, nahtlos zwischen High-Level-Reasoning und Low-Level-Perzeption zu wechseln.

    Trainingsstrategie und Datensätze

    Das Training von Youtu-VL folgt einem progressiven, mehrstufigen Rezept. Es beginnt mit der Etablierung einer robusten Sprachgrundlage (Stufen 1 und 2), gefolgt von multimodalem Foundation Pre-training (Stufe 3) und kulminiert in einer vielseitigen Aufgabenanpassung (Stufe 4). Während der Stufen 3 und 4 kommt eine Dual-Stream-Supervisionsstrategie zum Einsatz: Für allgemeine multimodale Daten wird ein autoregressiver visueller Rekonstruktions-Loss angewendet, der das Modell zwingt, visuelle Token als intrinsische Generierungsziele neben Text vorherzusagen. Für visuell-zentrierte Daten wird ein spezialisierter Loss integriert, der feinkörnige dichte Perzeptionsfähigkeiten ermöglicht.

    Die Trainingsdaten umfassen eine breite Palette, darunter:

    • Visuell-zentrierte Daten: Textdaten, die aus offenen Datensätzen und internen/synthetischen Daten für Aufgaben wie visuelles Grounding, Objekterkennung, Polygon-basierte Segmentierung, Objekterkennung und menschliche Pose-Schätzung generiert wurden.
    • Dicht gelabelte Daten: Abgeleitet aus Open-Source-Datensätzen und synthetischen Daten für semantische Segmentierung, Instanz- und Referenzsegmentierung sowie Tiefenschätzung.
    • Open-World-Szenarien: Eine Datenpipeline, die massive visuell-zentrierte Daten durch zwei parallele Zweige verarbeitet, um Objekterkennung, Segmentierung und Tiefenschätzung in offenen Szenen zu unterstützen.
    • Bildunterschriften und Wissensdaten: Eine umfangreiche Sammlung von Bild-Text-Paaren, die durch mehrstufige Filterprotokolle, konzeptbasiertes Sampling, Mining seltener Klassen und wissensinjizierte Rekaptionierung optimiert wurde.
    • OCR-Daten: Hochwertige Datensätze für optische Zeichenerkennung und Diagrammverständnis, die sowohl bestehende Daten integrieren als auch durch LLMs und VLMs synthetisiert und verfeinert werden.
    • STEM-Daten: Ein Datensatz zur Verbesserung der Fähigkeiten in bildbasierter Analyse und Argumentation in wissenschaftlichen, technischen, ingenieurwissenschaftlichen und mathematischen Kontexten, der durch mehrdimensionale Qualitätsfilterung, Synthese und Konsistenzprüfung sowie visuell-fundierte Fragenexpansion erstellt wird.
    • GUI-Daten: Kontinuierliches Pre-training mit Datenströmen für granulare Perzeption und Grounding sowie sequenzielle Interaktions-Trajektorien, um agentische Fähigkeiten für autonome GUI-Interaktion zu ermöglichen.
    • Reine Textdaten: Zur Bewahrung der sprachlichen Fähigkeiten des Modells werden auch Textdaten aus dem Mid-Training von Youtu-LLM verwendet.

    Leistungsanalyse und Evaluierung

    Youtu-VL wurde umfassend auf 30 visuell-zentrierten und 45 allgemeinen multimodalen Benchmarks evaluiert. Diese Evaluierung deckt eine Vielzahl von Aufgaben ab, darunter Grounding, Detektion, Klassifikation, Zählung, Segmentierung, Tiefenschätzung, Pose-Schätzung, visuelle Fragebeantwortung, OCR und GUI-Operationen.

    Visuell-zentrierte Aufgaben

    Bei visuell-zentrierten Aufgaben zeigt Youtu-VL eine herausragende Leistung:

    • Visuelles Grounding: Erreicht einen durchschnittlichen Score von 91,8 % über alle RefCOCO-Splits, was die Fähigkeit zur präzisen Lokalisierung von Objekten belegt.
    • Objekterkennung: Erzielt 47,1 % mAP auf COCO, ohne zusätzliche Köpfe oder Modifikationen, und erreicht vergleichbare Leistungen wie größere, aufgabenspezifische Modelle.
    • Semantische Segmentierung: Liefert direkt dichte Vorhersagen aus den Output-Logits der visuellen Token und übertrifft dabei signifikant andere visuell-zentrierte Modelle wie GiT auf dem ADE20k-Datensatz mit 54,2 mIoU.
    • Referenzsegmentierung: Nutzt einen "Grounding-then-Segmentation"-Ansatz, um präzise Segmentierungsmasken basierend auf Textbeschreibungen zu generieren, und erreicht dabei Spitzenleistungen unter vergleichbaren Modellen.
    • Tiefenschätzung: Sagt dichte Tiefenkarten direkt aus monokularen Bildern voraus und erzielt auf NYUv2 eine δ1 von 90,4 %, was die Fähigkeit zur 3D-Informationsverarbeitung demonstriert.
    • Menschliche Pose-Schätzung: Regressiert Keypoint-Koordinaten innerhalb eines einzigen generativen Frameworks und erreicht auf MPII 89,1 % (PCKh@0.5), vergleichbar mit spezialisierten Methoden.
    • Bildklassifikation: Erreicht auf ImageNet-ReaL eine Top-1-Genauigkeit von 89,3 %, was die Effizienz bei der Objekterkennung unterstreicht.
    • Objektzählung: Liefert genaue numerische Zählungen von Objekten und erreicht auf CountBench eine Genauigkeit von 88,6 %.

    Allgemeine multimodale Aufgaben

    Bei allgemeinen multimodalen Aufgaben zeigt Youtu-VL ebenfalls eine durchweg starke Leistung oder übertrifft führende Modelle vergleichbarer Größe:

    • Allgemeine visuelle Fragebeantwortung (VQA): Zeigt konsistent starke Leistungen auf Benchmarks wie MMBench (83,9 % auf Englisch, 83,6 % auf Chinesisch) und MMStar, was eine effektive Integration von visueller Perzeption und Wissensgrundlage widerspiegelt.
    • Multimodales Reasoning & Mathematik: Erzielt starke Ergebnisse auf reasoning-orientierten Benchmarks wie VisuLogic (25,7 %) und VLMs Are Blind (88,9 %), was robuste visuelle Reasoning-Fähigkeiten belegt. Auch bei mathematischen Aufgaben wie MathVerse (56,5 %) zeigt es formidable Leistungen.
    • Halluzinationsunterdrückung: Demonstriert eine signifikant reduzierte Tendenz zur Halluzination auf Benchmarks wie HallusionBench (59,1 %), was auf eine stärkere Verankerung der Vorhersagen in visuellen Beweisen hindeutet.
    • OCR-bezogenes Verständnis & Dokumenten-QA: Liefert starke Leistungen bei OCR-zentrierten Benchmarks, insbesondere in Szenarien, die ein höheres semantisches Verständnis und Reasoning über erkannte Texte erfordern.
    • Multi-Bild- & Real-World-Verständnis: Erreicht auf RealWorldQA einen Score von 74,6, was eine robuste Kompetenz im Umgang mit hochauflösenden Fotos mit kleinen Objekten und komplexen Objekt-Szenen-Interaktionen anzeigt.
    • GUI Agent: Erreicht State-of-the-Art-Leistungen auf Benchmarks wie ScreenSpot Pro und OSWorld (38,8 % Erfolgsrate), was eine überlegene Grounding-to-Action-Zuordnung demonstriert.
    • Text-zentrierte Aufgaben: Obwohl der Fokus auf multimodalen Fähigkeiten liegt, behält Youtu-VL eine funktionale Baseline für textuelle Interaktionen bei, mit Raum für zukünftige Verbesserungen.

    Fazit und Ausblick

    Youtu-VL stellt einen fundamentalen Wandel in der Optimierungslandschaft für Vision-Language Models dar. Durch die Einführung des VLUAS-Paradigmas wird der textdominante Optimierungs-Bias traditioneller Architekturen gemildert. Der Übergang von einer statischen "Vision-als-Eingabe"-Abhängigkeit zu einem generativen "Vision-als-Ziel"-Ansatz motiviert das Modell, sowohl feinkörnige visuelle Details als auch hochrangige sprachliche Semantik gleichzeitig vorherzusagen, wodurch die Lücke zwischen grobem Verständnis und dichter Perzeption geschlossen wird.

    Die Ergebnisse zeigen, dass dieses vereinheitlichte Ziel einer Standard-VLM-Architektur ermöglicht, diverse visuell-zentrierte Aufgaben nativ auszuführen, ohne auf aufgabenspezifische Decoder oder Hilfsköpfe angewiesen zu sein. Dies deutet darauf hin, dass eine hochpräzise sensorische Perzeption innerhalb eines einzigen generalistischen Transformers Ende-zu-Ende modelliert werden kann. Youtu-VL dient nicht nur als wettbewerbsfähige Baseline, sondern als grundlegender Bauplan für die nächste Generation generalistischer visueller Agenten.

    Trotz der beeindruckenden Leistungen bestehen weiterhin Herausforderungen. Die Granularität der visuellen Repräsentation bleibt ein Engpass für hochpräzise Aufgaben bei niedriger Auflösung. Die Leistung des Modells bei spezialisierten geometrie-bewussten Aufgaben (z.B. Tiefen- und Pose-Schätzung) ist noch durch die Sensitivität gegenüber Sensor-Intrinsika und die Vielfalt der Trainingsverteilungen begrenzt. Auch die hochrangigen kognitiven Fähigkeiten, insbesondere im komplexen mathematischen Reasoning und der dichten Wissensabfrage, erfordern weitere Optimierung. Die Adressierung dieser grundlegenden Einschränkungen bleibt ein Schlüsselziel für die zukünftige Entwicklung des Youtu-VL-Frameworks.

    Bibliographie

    - Wei, Z., Li, Y., Kan, Z., Jiang, X., Long, Z., Liu, S., ... & Li, X. (2026). Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision. arXiv preprint arXiv:2601.19798. - Lu, J., Qin, J., Qiao, L., Li, Y., Dai, X., Ke, B., ... & Tan, X. (2026). Youtu-LLM: Unlocking the native agentic potential for lightweight large language models. arXiv preprint arXiv:2512.24618. - Tschannen, M., Gritsenko, A., Wang, X., Naeem, M. F., Alabdulmohsin, I., Parthasarathy, N., ... & Zhai, X. (2025). Siglip 2: Multilingual vision-language encoders with improved semantic understanding, localization, and dense features. arXiv preprint arXiv:2502.14786. - Siméoni, O., Vo, H. V., Seitzer, M., Baldassarre, F., Oquab, M., Jose, C., ... & Bojanowski, P. (2025). Dinov3. arXiv preprint arXiv:2508.10104. - Shi, F., Luo, Z., Ge, Y., Yang, Y., Shan, Y., & Wang, L. (2025). Scalable image tokenization with index backpropagation quantization. arXiv preprint arXiv:2412.02692. - Bai, S., Cai, Y., Chen, R., Chen, K., Chen, X., Cheng, Z., ... & Zhu, K. (2025). Qwen3-VL technical report. arXiv preprint arXiv:2511.21631. - Wang, H., Tang, H., Jiang, L., Shi, S., Naeem, M. F., Li, H., ... & Wang, L. (2024). Git: Towards generalist vision transformer through universal language interface. European Conference on Computer Vision. - Cheng, B., Misra, I., Schwing, A. G., Kirillov, A., & Girdhar, R. (2022). Masked-attention mask transformer for universal image segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. - Yu, L., Poirson, P., Yang, S., Berg, A. C., & Berg, T. L. (2016). Modeling context in referring expressions. European Conference on Computer Vision. - Tang, H., Xie, C., Wang, H., Bao, X., Weng, T., Li, P., ... & Wang, L. (2025). Ufo: A unified approach to fine-grained visual perception via open-ended language interface. arXiv preprint arXiv:2503.01342. - Wu, J., Zhong, M., Xing, S., Lai, Z., Liu, Z., Chen, Z., ... & Lu, T. (2024). Visionllm v2: An end-to-end generalist multimodal large language model for hundreds of vision-language tasks. Advances in Neural Information Processing Systems. - Silberman, N., Hoiem, D., Kohli, P., & Fergus, R. (2012). Indoor segmentation and support inference from rgbd images. European Conference on Computer Vision. - Cai, Z., Yeh, C. F., Xu, H., Liu, Z., Meyer, G., Lei, X., ... & Shi, Y. (2025). Depthlm: Metric depth from vision language models. arXiv preprint arXiv:2509.25413. - Piccinelli, L., Sakaridis, C., Yang, Y. H., Segu, M., Li, S., Abbeloos, W., & Van Gool, L. (2025). Unidepthv2: Universal monocular metric depth estimation made simpler. arXiv preprint arXiv:2502.20110. - Andriluka, M., Pishchulin, L., Gehler, P., & Schiele, B. (2014). 2d human pose estimation: New benchmark and state of the art analysis. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - Xu, Y., Zhang, J., Zhang, Q., & Tao, D. (2022). Vitpose: Simple vision transformer baselines for human pose estimation. Advances in Neural Information Processing Systems. - Wang, D., Xuan, S., & Zhang, S. (2024). Locllm: Exploiting generalizable human keypoint localization via large language model. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. - Beyer, L., Hénaff, O. J., Kolesnikov, A., Zhai, X., & van den Oord, A. (2020). Are we done with imagenet?. arXiv preprint arXiv:2006.07159. - Paiss, R., Ephrat, A., Tov, O., Zada, S., Mosseri, I., Irani, M., & Dekel, T. (2023). Teaching clip to count to ten. Proceedings of the IEEE/CVF International Conference on Computer Vision. - Acharya, M., Kafle, K., & Kanan, C. (2019). Tallyqa: Answering complex counting questions. Proceedings of the AAAI Conference on Artificial Intelligence. - Wu, J., Hu, X., Wang, Y., Pang, B., & Soricut, R. (2024). Omni-smola: Boosting generalist multimodal models with soft mixture of low-rank experts. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. - Fu, C., Chen, P., Shen, Y., Qin, Y., Zhang, M., Lin, X., ... & Zheng, X. (2023). Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394. - Chen, L., Li, J., Dong, X., Zhang, P., Zang, Y., Chen, Z., ... & Lin, D. (2024). Are we on the right way for evaluating large vision-language models?. arXiv preprint arXiv:2403.20330. - Liu, Y., Duan, H., Zhang, Y., Li, B., Zhang, S., Zhao, W., ... & Liu, Z. (2023). Mmbench: Is your multi-modal model an all-around player?. arXiv preprint arXiv:2307.06281. - Yue, X., Ni, Y., Zhang, K., Zheng, T., Liu, R., Zhang, G., ... & AGI, E. (2024). Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. - Zhu, N., Dong, Y., Wang, T., Li, X., Deng, S., Wang, Y., ... & Huang, H. (2025). Cvbench: Benchmarking cross-video synergies for complex multimodal reasoning. arXiv preprint arXiv:2508.19542. - Lu, P., Mishra, S., Xia, T., Qiu, L., Chang, K. W., Zhu, S. C., ... & Kalyan, A. (2022). Learn to explain: Multimodal reasoning via thought chains for science question answering. NeurIPS. - Li, B., Ge, Y., Li, Y., Ge, Y., Zhang, R., & Shan, Y. (2023). Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125. - Yu, W., Yang, Z., Li, L., Wang, J., Lin, K., Liu, Z., ... & Wang, L. (2024). Mm-vet: Evaluating large multimodal models for integrated capabilities. ICML. - Rahmanzadehgervi, P., Bolton, L., Taesiri, M. R., & Nguyen, A. T. (2025). Vision language models are blind: Failing to translate detailed visual features into words. arXiv preprint arXiv:2407.06581. - Xu, W., Wang, J., Wang, W., Chen, Z., Zhou, W., Yang, A., ... & Lu, L. (2025). Visulogic: A benchmark for evaluating visual reasoning in multi-modal large language models. arXiv preprint arXiv:2504.15279. - Zhang, R., Jiang, D., Zhang, Y., Lin, H., Guo, Z., Qiu, P., ... & Qiao, Y. (2024). Mathverse: Does your multi-modal llm truly see the diagrams in visual math problems?. European Conference on Computer Vision. - Lu, P., Bansal, H., Xia, T., Liu, J., Li, C., Hajishirzi, H., ... & Gao, J. (2024). Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. ICLR. - Xiao, Y., Sun, E., Liu, T., & Wang, W. (2024). Logicvista: Multimodal llm logical reasoning benchmark in visual contexts. arXiv preprint arXiv:2407.04973. - Guan, T., Liu, F., Wu, X., Xian, R., Li, Z., Liu, X., ... & Zhou, T. (2023). Hallusionbench: An advanced diagnostic suite for entangled language hallucination & visual illusion in large vision-language models. - Li, Y., Du, Y., Zhou, K., Wang, J., Zhao, W. X., & Wen, J. R. (2023). Evaluating object hallucination in large vision-language models. arXiv preprint arXiv:2305.10355. - Kembhavi, A., Salvato, M., Kolve, E., Seo, M., Hajishirzi, H., & Farhadi, A. (2016). A diagram is worth a dozen images. ArXiv, abs/1603.07396. - Mathew, M., Karatzas, D., & Jawahar, C. V. (2021). Docvqa: A dataset for vqa on document images. WACV. - Singh, A., Natarajan, V., Shah, M., Jiang, Y., Chen, X., Batra, D., ... & Rohrbach, M. (2019). Towards vqa models that can read. CVPR. - Masry, A., Long, D. X., Tan, J. Q., Joty, S., & Hoque, E. (2022). Chartqa: A benchmark for question answering about charts with visual and logical reasoning. arXiv preprint arXiv:2203.10244. - Liu, Y., Li, Z., Huang, M., Yang, B., Yu, W., Li, C., ... & Bai, X. (2023). Ocrbench: On the hidden mystery of ocr in large multimodal models. arXiv preprint arXiv:2305.07895. - Li, K., Meng, Z., Lin, H., Luo, Z., Tian, Y., Ma, J., ... & Chua, T. S. (2025). Screenspot-pro: Gui grounding for professional high-resolution computer use. Proceedings of the 33rd ACM International Conference on Multimedia. - Xie, T., Zhang, D., Chen, J., Li, X., Zhao, S., Cao, R., ... & Shin, D. (2024). Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments. Advances in Neural Information Processing Systems.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen