Innovative Fortschritte in der Dokumentenintelligenz durch das Qianfan-OCR Modell von Baidu Research

Kategorien:

No items found.

Freigegeben:

March 19, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

Qianfan-OCR ist ein neues, vereinheitlichtes End-to-End-Modell von Baidu Research für die Dokumentenintelligenz.
Es integriert Dokumentenanalyse, Layout-Analyse und semantisches Verständnis in einer einzigen Vision-Language-Architektur.
Das Modell verwendet 4 Milliarden Parameter und kann Bilder direkt in Markdown konvertieren.
Eine Schlüsselinnovation ist "Layout-as-Thought", eine optionale Denkphase, die explizite Layout-Informationen generiert, um die Genauigkeit bei komplexen Dokumenten zu verbessern.
Qianfan-OCR übertrifft in spezialisierten OCR-Benchmarks wie OmniDocBench v1.5 und OlmOCR Bench andere End-to-End-Modelle.
Es zeigt auch starke Leistungen in allgemeinen OCR- und Dokumentenverständnisaufgaben, insbesondere bei der Schlüsselinformationsgewinnung (KIE).
Die End-to-End-Architektur bietet Vorteile bei der Verarbeitungsgeschwindigkeit (Inferenz-Durchsatz) und reduziert die Komplexität der Bereitstellung im Vergleich zu traditionellen Pipeline-Systemen.

Revolution in der Dokumentenintelligenz: Vorstellung des Qianfan-OCR Modells

Die Verarbeitung und das Verständnis von Dokumenten stellen Unternehmen weiterhin vor Herausforderungen. Traditionelle Optical Character Recognition (OCR)-Systeme, die oft aus mehreren Stufen bestehen, sind zwar präzise, leiden jedoch unter Ineffizienzen und dem Verlust visueller Kontexte. Allgemeine Vision-Language-Modelle (VLMs) bieten zwar breite multimodale Fähigkeiten, sind aber häufig nicht für die spezifischen Anforderungen der strukturierten Dokumentenanalyse optimiert. Eine neue Entwicklung von Baidu Research, das Qianfan-OCR Modell, zielt darauf ab, diese Lücke zu schließen, indem es eine vereinheitlichte End-to-End-Lösung für die Dokumentenintelligenz präsentiert.

Ein Paradigmenwechsel: Die End-to-End-Architektur von Qianfan-OCR

Qianfan-OCR ist ein 4-Milliarden-Parameter umfassendes Vision-Language-Modell, das die Dokumentenanalyse, die Layout-Analyse und das semantische Verständnis innerhalb einer einzigen Architektur vereint. Im Gegensatz zu herkömmlichen mehrstufigen OCR-Pipelines, die separate Module für Layout-Erkennung, Texterkennung und Sprachverständnis verketten, konvertiert Qianfan-OCR Bilder direkt in Markdown. Dies ermöglicht eine breite Palette prompt-gesteuerter Aufgaben, von der strukturierten Dokumentenanalyse und Tabellenextraktion bis hin zum Diagrammverständnis, der Dokumentenbeantwortung und der Schlüsselinformationsgewinnung (KIE) – alles innerhalb eines einzigen Modells.

Die Herausforderung der expliziten Layout-Analyse und die Lösung: „Layout-as-Thought“

Eine praktische Einschränkung von End-to-End-OCR-Systemen ist der potenzielle Verlust einer expliziten Layout-Analyse, einer Funktion, auf die Benutzer von Pipeline-Systemen zur Elementlokalisierung und Typklassifizierung angewiesen sind. Qianfan-OCR begegnet dieser Herausforderung mit der Einführung von „Layout-as-Thought“. Hierbei handelt es sich um eine optionale Denkphase, die durch spezielle Tokens ausgelöst wird. Während dieser Phase generiert das Modell strukturierte Layout-Repräsentationen, einschließlich Begrenzungsrahmen, Elementtypen und Lesereihenfolge, bevor es die endgültigen Ausgaben produziert.

Dieser Mechanismus dient zwei Hauptzwecken:

Er ermöglicht die Wiederherstellung der Layout-Analysefunktionalität innerhalb des End-to-End-Paradigmas, wodurch Benutzer räumliche Verankerungsergebnisse direkt erhalten können.
Er führt zu gezielten Genauigkeitsverbesserungen bei Dokumenten mit komplexen Layouts, unübersichtlichen Elementen oder nicht-standardisierten Lesereihenfolgen, wo strukturelle Vorkenntnisse zur Behebung von Erkennungsmehrdeutigkeiten beitragen.

Architektur und Trainingsdaten

Qianfan-OCR basiert auf der multimodalen Brückenarchitektur von Qianfan-VL und besteht aus drei Kernkomponenten:

Vision Encoder: Nutzt Qianfan-ViT mit einem AnyResolution-Design, das Eingabebilder dynamisch in Kacheln zerlegt und so variable Auflösungen bis zu 4K unterstützt. Dies ist entscheidend für OCR-Aufgaben mit dichten Texten und komplexen Layouts.
Language Model Backbone: Verwendet Qwen3-4B mit 4,0 Milliarden Parametern, das eine Balance zwischen Inferenzfähigkeit und Bereitstellungseffizienz bietet.
Cross-Modal Adapter: Eine leichtgewichtige MLP, die visuelle Merkmale des Encoders in den Embedding-Raum des Sprachmodells projiziert und so eine effektive cross-modale Ausrichtung gewährleistet.

Ein wesentlicher Aspekt der Entwicklung von Qianfan-OCR war die Erstellung umfangreicher, qualitativ hochwertiger Trainingsdaten. Es wurden sechs Datensynthese-Pipelines entwickelt, die verschiedene Aspekte der Dokumentenintelligenz abdecken:

Dokumentenparsing
Schlüsselinformationsgewinnung (KIE)
Komplexe Tabellen
Diagrammverständnis
Formelerkennung
Mehrsprachige OCR

Insbesondere die Datenerstellung für „Layout-as-Thought“ involvierte die Generierung von Trainingsdaten, bei denen das Modell vor der endgültigen Ausgabe strukturierte Layout-Analysen innerhalb von Tokens erzeugt. Dies umfasste Begrenzungsrahmen, Element-Labels und Inhaltszusammenfassungen als Zwischenschritte, die in speziellen Tags eingeschlossen waren.

Trainingsstrategie: Mehrstufiges progressives Training

Qianfan-OCR nutzt eine bewährte mehrstufige progressive Trainingsmethodik. Diese baut die Modellfähigkeiten systematisch auf, beginnend mit der grundlegenden cross-modalen Ausrichtung bis hin zu fortgeschrittenen Schlussfolgerungsaufgaben. Die Anpassung für OCR-Szenarien liegt in der Zusammensetzung des Datenmixes, wobei OCR-spezifische Domänen signifikant verstärkt wurden, während der allgemeine Trainingsrahmen beibehalten wurde. Der Trainingsprozess gliedert sich in vier Stufen:

Cross-Modal Alignment: Etabliert grundlegende Vision-Language-Ausrichtung mit Adapter-Training.
Foundational OCR Training: Entwickelt umfassende OCR-Fähigkeiten mit einem OCR-lastigen Datenmix.
Domain-Specific Enhancement: Gezielte Verbesserung für unternehmenskritische OCR-Domänen.
Instruction Tuning and Reasoning Enhancement: Deckt ein umfassendes Spektrum von Dokumentenintelligenzaufgaben ab, einschließlich Dokumentenparsing und Layout-Analyse.

Ablationsstudien haben die Wirksamkeit dieser mehrstufigen Strategie bestätigt, wobei eine Kombination aus generischen und domänenspezifischen Daten die besten Ergebnisse liefert.

Evaluierung und Ergebnisse

Qianfan-OCR wurde umfassend anhand eines multidimensionalen Evaluierungsrahmens bewertet, der vier Schlüsselkategorien umfasst:

Spezialisierte OCR-Modell-Benchmarks: Hierzu gehören OmniDocBench v1.5 und OlmOCR Bench. Qianfan-OCR erreichte auf OmniDocBench v1.5 mit 93,12 Punkten und auf OlmOCR Bench mit 79,8 Punkten die höchsten Werte unter allen End-to-End-Modellen.
Allgemeine OCR-Fähigkeits-Benchmarks: Evaluierung auf OCRBench und OCRBench v2. Qianfan-OCR erzielte auf OCRBench den höchsten Wert (880) und zeigte eine starke Leistung bei der chinesischen Texterkennung auf OCRBenchv2.
Dokumentenverständnis-Benchmarks: Umfasst Aufgaben wie DocVQA, ChartQA und CharXiv. Qianfan-OCR zeigte hier besondere Stärken bei Diagramm- und akademischen Schlussfolgerungsaufgaben. Es wurde festgestellt, dass zweistufige OCR+LLM-Pipeline-Systeme bei Aufgaben, die räumliche und visuelle Argumentation erfordern, erheblich schlechter abschneiden, insbesondere bei der Diagramminterpretation, wo Layout-Informationen unerlässlich sind.
Schlüsselinformationsgewinnung (KIE): Qianfan-OCR erreichte den höchsten durchschnittlichen Gesamtwert von 87,9 über fünf öffentliche KIE-Benchmarks hinweg und übertraf damit kommerzielle Modelle wie Gemini-3.1-Pro und Qwen3-VL-235B.

Die Analyse von „Layout-as-Thought“ zeigte, dass dieser Mechanismus gezielte Vorteile bei strukturell komplexen Dokumenten bietet, während er bei einfacheren Dokumenten möglicherweise zu einem geringfügigen Leistungsabfall führen kann. Dies unterstreicht die Bedeutung einer situationsabhängigen Aktivierung der Denkphase.

Inferenz-Durchsatz und Bereitstellungseffizienz

Neben der Genauigkeit ist der Inferenz-Durchsatz ein kritischer Faktor für die Produktion. Qianfan-OCR mit W8A8-Quantisierung erreicht einen Durchsatz von 1,024 Seiten pro Sekunde (PPS) auf einer einzelnen NVIDIA A100 GPU, was mit führenden Pipeline-Systemen vergleichbar ist und diese in einigen Fällen übertrifft. Dieser wettbewerbsfähige Durchsatz ist auf die GPU-zentrierte Berechnung und effizientes Batching der End-to-End-Architektur zurückzuführen. Die geringere Komplexität der Bereitstellung, da es sich um ein Standardproblem der Einzelmodell-Bereitstellung handelt, reduziert den Aufwand für die Implementierung und die Kosten für die Leistungsoptimierung.

Einschränkungen und zukünftige Forschungsrichtungen

Trotz der beeindruckenden Ergebnisse gibt es noch Bereiche für zukünftige Verbesserungen. Die Wirksamkeit von „Layout-as-Thought“ bei anderen Aufgaben als dem Dokumentenparsing muss noch weiter untersucht werden. Die Integration von Layout-Elementen in den Argumentationsprozess könnte natürlicher gestaltet werden, beispielsweise durch den Einsatz von Reinforcement Learning, um eine aufgabenadaptive Layout-Argumentation zu ermöglichen.

Die ultimative Leistungsgrenze von rein End-to-End-Architekturen ist ebenfalls eine offene Frage, die weitere architektonische Innovationen und Skalierungsgesetze erfordert. Hinsichtlich der Bereitstellungseffizienz begrenzt der 4-Milliarden-Parameter-Fußabdruck von Qianfan-OCR die Implementierung in ressourcenbeschränkten Umgebungen. Zukünftige Arbeiten könnten sich auf Wissensdestillation und Pruning konzentrieren, um kompaktere Varianten für eine breitere Bereitstellung zu entwickeln. Darüber hinaus bestehen Einschränkungen bei Video-OCR, 3D-Text auf gekrümmten Oberflächen und hochstilisierter künstlerischer Handschrift, die weitere Forschungsrichtungen für die Erweiterung der vereinheitlichten Architektur darstellen.

Fazit

Qianfan-OCR stellt einen bedeutenden Fortschritt in der Dokumentenintelligenz dar, indem es eine vereinheitlichte End-to-End-Lösung bietet, die Texterkennung, Layout-Analyse und semantisches Verständnis in einer einzigen Vision-Language-Architektur vereint. Die Einführung von „Layout-as-Thought“ adressiert eine zentrale Herausforderung von End-to-End-Systemen und verbessert die Genauigkeit bei komplexen Dokumenten. Die erzielten Ergebnisse, insbesondere die Überlegenheit bei spezialisierten OCR-Benchmarks und der Schlüsselinformationsgewinnung, demonstrieren das Potenzial dieser Architektur. Die empirischen Belege, dass zweistufige OCR+LLM-Pipelines bei Aufgaben, die räumliche und visuelle Argumentation erfordern, erheblich schlechter abschneiden, unterstreichen den Vorteil der Beibehaltung des visuellen Kontexts während des gesamten Verarbeitungsprozesses. Qianfan-OCR ist über die Baidu AI Cloud Qianfan Plattform öffentlich zugänglich und bietet Unternehmen einen leistungsstarken Partner für ihre Dokumentenverarbeitungsbedürfnisse.

Bibliographie

- Ainslie, J., Lee-Thorp, J., de Jong, M., Zemlyanskiy, Y., Lebrón, F., & Sanghai, S. (2023). GQA: training generalized multi-query transformer models from multi-head checkpoints. arXiv preprint arXiv:2305.13245. - AllenAI. (2024). OlmOCR-bench: a comprehensive ocr evaluation benchmark. https://huggingface.co/datasets/allenai/olmOCR-bench - Bai, J., Bai, S., Yang, S., Wang, S., Tan, S., Wang, P., Lin, J., Zhou, C., & Zhou, J. (2023). Qwen-vl: a versatile vision-language model for understanding, localization, text reading, and beyond. arXiv preprint arXiv:2308.12966. - Bai, S., Chen, K., Liu, X., Wang, J., Ge, W., Song, S., Dang, K., Wang, P., Wang, S., Tang, J., et al. (2025). Qwen2.5-vl technical report. arXiv preprint arXiv:2502.13923. - Blecher, L., Cucurull, G., Scialom, T., & Stojnic, R. (2023). Nougat: neural optical understanding for academic documents. arXiv preprint arXiv:2308.13418. - Chen, Y., Zhang, L., Liu, H., et al. (2024a). OCRBench: on the hidden mystery of ocr in large multimodal models. arXiv preprint arXiv:2305.07895. - Chen, Z., Wu, J., Wang, W., Su, W., Chen, G., Xing, S., Zhong, M., Zhang, Q., Zhu, X., Lu, L., et al. (2024b). Internvl: scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238. - Cui, C., Sun, T., Lin, M., Gao, T., Zhang, Y., Liu, J., Wang, X., Zhang, Z., Zhou, C., Liu, H., et al. (2025a). Paddleocr 3.0 technical report. arXiv preprint arXiv:2507.05595. - Cui, C., Sun, T., Lin, M., Gao, T., Zhang, Y., Liu, J., Wang, X., Zhang, Z., Zhou, C., Liu, H., et al. (2025b). PaddleOCR-vl: boosting multilingual document parsing via a 0.9b ultra-compact vision-language model. arXiv preprint arXiv:2510.14528. - Cui, C., Sun, T., Liang, S., Gao, T., Zhang, Z., Liu, J., Wang, X., Zhou, C., Liu, H., Lin, M., Zhang, Y., Zhang, Y., Liu, Y., Yu, D., & Ma, Y. (2026). PaddleOCR-vl-1.5: towards a multi-task 0.9b vlm for robust in-the-wild document parsing. - Dong, D., Zheng, M., Xu, D., Zhuang, B., Zhang, W., Luo, C., Wang, H., Zhao, Z., Li, J., Li, Y., Zhong, H., Liu, M., Chen, J., Li, S., Tian, L., Feng, Y., Li, X., Jiang, D., Chen, Y., Xu, Y., Qin, D., Feng, C., Wang, D., Zhang, H., Ha, J., He, J., Zhai, Y., Zheng, C., Mao, J., Chen, J., Yao, R., Yuan, Z., Wu, J., Xie, G., & Shen, D. (2025). Qianfan-vl: domain-enhanced universal vision-language models. arXiv preprint arXiv:2509.18189. - Duan, H., Yang, J., Qiao, Y., Fang, X., Chen, L., Liu, Y., Dong, X., Zang, Y., Zhang, P., Wang, J., et al. (2024). Vlmevalkit: an open-source toolkit for evaluating large multi-modality models. In Proceedings of the 32nd ACM International Conference on Multimedia, pp. 11198–11201. - Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2024). Visual instruction tuning. Advances in neural information processing systems 36. - Masry, A., Long, D. X., Tan, J. Q., Joty, S., & Hoque, E. (2022). Chartqa: a benchmark for question answering about charts with visual and logical reasoning. arXiv preprint arXiv:2203.10244. - Masry, A., Islam, M. S., Ahmed, M., Bajaj, A., Kabir, F., Kartha, A., Laskar, M. T. R., Rahman, M., Rahman, S., Shahmohammadi, M., et al. (2025). ChartQAPro: a more diverse and challenging benchmark for chart question answering. arXiv preprint arXiv:2504.05506. - Mathew, M., Karatzas, D., & Jawahar, C. (2021). Docvqa: a dataset for vqa on document images. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pp. 2200–2209. - Ouyang, L., Yuan, B., Yao, Z., Li, F., Wu, J., Gao, L., Zhang, Z., Liu, H., Liu, Y., Zhang, B., et al. (2024). OmniDocBench: benchmarking diverse pdf document parsing with comprehensive annotations. arXiv preprint arXiv:2412.07626. - Poznanski, J., Chandu, K., Schwenk, D., Lo, K., Groeneveld, D., Kinney, R., Soldaini, L., Magnusson, I., & Ammar, W. (2025). OlmOCR: unlocking trillions of tokens in pdfs with vision language models. arXiv preprint arXiv:2502.18443. - Rodriguez, J., Jian, X., Panigrahi, S. S., Zhang, T., Feizi, A., Puri, A., Kalkunte, A., Savard, F., Masry, A., Nayak, S., et al. (2024). Bigdocs: an open dataset for training multimodal models on document and code tasks. arXiv preprint arXiv:2412.04626. - Singh, A., Natarajan, V., Shah, M., Jiang, Y., Chen, X., Batra, D., Parikh, D., & Rohrbach, M. (2019). Towards vqa models that can read. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 8317–8326. - Wang, Z., Xia, M., He, L., Chen, H., Liu, Y., Zhu, R., Liang, K., Wu, X., Liu, H., Malladi, S., Chevalier, A., Arora, S., & Chen, D. (2024). CharXiv: charting gaps in realistic chart understanding in multimodal llms. arXiv preprint arXiv:2406.18521. - Wei, H., Kong, C., Liang, J., Chen, Z., Xie, Z., Cui, C., Li, S., Xu, Y., Chen, E., Zhao, J., et al. (2024). General ocr theory: towards ocr-2.0 via a unified end-to-end model. arXiv preprint arXiv:2409.01704. - Wei, H., Sun, Y., & Li, Y. (2025). DeepSeek-ocr: contexts optical compression. arXiv preprint arXiv:2510.18234. - Wei, H., Sun, Y., & Li, Y. (2026). DeepSeek-ocr 2: visual causal flow. - Zhang, B., & Sennrich, R. (2019). Root mean square layer normalization. In Advances in Neural Information Processing Systems, Vol. 32. - Zhu, J., Wang, W., Chen, Z., Liu, Z., Ye, S., Gu, L., Tian, H., Duan, Y., Su, W., Shao, J., et al. (2025). Internvl3: exploring advanced training and test-time recipes for open-source multimodal models. arXiv preprint arXiv:2504.10479.