Multimodales OCR: Ein neuer Ansatz zur umfassenden Dokumentenanalyse

Kategorien:

No items found.

Freigegeben:

March 16, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Multimodales OCR (MOCR) stellt einen Paradigmenwechsel in der Dokumentenanalyse dar, indem es nicht nur Text, sondern auch Grafiken wie Diagramme und Symbole als strukturierte, wiederverwendbare Ausgaben verarbeitet.
Das System dots.mocr, ein 3B-Parameter-Modell, erreicht auf Benchmarks im Dokumenten-Parsing eine hohe Leistung und übertrifft Open-Source-Systeme.
Im Bereich des strukturierten Grafik-Parsings zeigt dots.mocr eine höhere Rekonstruktionsqualität als Gemini 3 Pro bei Image-to-SVG-Benchmarks.
Ein datengetriebener Trainingsansatz mit einer umfassenden Daten-Engine aus PDFs, gerenderten Webseiten und nativen SVG-Assets ermöglicht die Skalierbarkeit des Systems.
Die Evaluierung erfolgt über ein automatisiertes Framework namens OCR Arena, das auf dem "LLM-as-a-Judge"-Prinzip basiert, um die Qualität komplexer Ausgaben zu bewerten.

Die fortschreitende Digitalisierung und die zunehmende Komplexität von Dokumenten stellen Unternehmen vor Herausforderungen bei der effizienten Extraktion und Verarbeitung von Informationen. Traditionelle Optical Character Recognition (OCR)-Systeme konzentrieren sich primär auf die Texterkennung und behandeln grafische Elemente oft als isolierte Bildbereiche. Dies führt zu einem Verlust an strukturellen und semantischen Informationen, die in Diagrammen, Tabellen und anderen visuellen Komponenten enthalten sind. Angesichts der wachsenden Bedeutung von großen Sprachmodellen (LLMs) und multimodalen Modellen entsteht die Notwendigkeit für umfassendere Ansätze im Dokumenten-Parsing, die Text und Grafiken integriert verarbeiten können. Ein neuer Forschungsansatz, Multimodal OCR (MOCR), zielt darauf ab, diese Lücke zu schließen und eine ganzheitliche Dokumentenanalyse zu ermöglichen.

Das Paradigma des Multimodalen OCR (MOCR)

Multimodales OCR (MOCR) repräsentiert einen erweiterten Ansatz zur Dokumentenanalyse, der über die reine Texterkennung hinausgeht. Ziel ist es, sämtliche informationstragenden Elemente eines Dokuments, sowohl textuelle als auch grafische, in einer einheitlichen, strukturierten und wiederverwendbaren Form zu erfassen. Dazu gehören nicht nur Text und Layout-Strukturen, sondern auch komplexe Grafiken wie Diagramme, Icons und UI-Komponenten. Im Gegensatz zu herkömmlichen OCR-Pipelines, die grafische Bereiche oft als einfache Bildausschnitte behandeln, interpretiert MOCR visuelle Elemente als erstklassige Parsing-Ziele und wandelt sie in wiederverwendbare, strukturierte Ausgaben um, beispielsweise in renderbaren SVG-Code.

Dieses Paradigma bietet mehrere Vorteile:

Umfassende Rekonstruktion: MOCR rekonstruiert sowohl Text als auch Grafiken als strukturierte Ausgaben, was eine präzisere und originalgetreuere Dokumentenrekonstruktion ermöglicht.
End-to-End-Training: Das System unterstützt ein End-to-End-Training über heterogene Dokumentenelemente hinweg. Dies erlaubt Modellen, semantische Beziehungen zwischen textuellen und visuellen Komponenten zu nutzen.
Wiederverwendbare Supervision: Zuvor verworfene Grafiken werden in wiederverwendbare Code-Level-Supervision umgewandelt. Dies erschließt multimodale Supervision, die in bestehenden Dokumenten eingebettet ist.

Die praktische Umsetzung dieses Paradigmas erfordert jedoch die Bewältigung spezifischer Herausforderungen, insbesondere im Hinblick auf die Skalierbarkeit. Dazu gehören die Knappheit von Supervision für Grafiken, die nicht-eindeutigkeit renderbarer Programme und die Notwendigkeit einer präzisen visuellen Verankerung in Verbindung mit der Generierung langer, strukturierter Sequenzen.

dots.mocr: Eine technische Implementierung

Um die Herausforderungen des MOCR-Paradigmas zu adressieren, wurde das System dots.mocr entwickelt. Es handelt sich um ein kompaktes Modell mit 3 Milliarden Parametern, das durch gestuftes Vortraining und überwachtes Fine-Tuning trainiert wurde. Die Architektur von dots.mocr basiert auf drei Hauptkomponenten:

Hochauflösender Vision Encoder

Der Vision Encoder ist ein von Grund auf neu trainiertes 1,2 Milliarden Parameter starkes Backbone. Dieses Design stellt sicher, dass der Encoder Merkmalsrepräsentationen entwickelt, die nativ für das Dokumenten-Parsing optimiert sind. Dies ermöglicht die gemeinsame Modellierung von dichtem Text und geometrieempfindlichen visuellen Symbolen wie Diagrammen und Schaltplänen. Die Architektur ist darauf ausgelegt, hochauflösende Eingaben von bis zu 11 Megapixeln zu verarbeiten, was für die Erhaltung feiner Details und die räumliche Kohärenz über eine gesamte Seite hinweg unerlässlich ist.

Strukturierter Sprachdecoder

Als autoregressiver Decoder wird Qwen2.5-1.5B eingesetzt. Die Wahl dieses Modells berücksichtigt das Kapazitäts- und Kosten-Verhältnis für das vereinheitlichte MOCR-Parsing. Kleinere Modelle könnten Schwierigkeiten haben, heterogene Seiteninhalte (Text, Layoutstrukturen, visuelle Symbole) gleichzeitig zu verarbeiten und lange, hochstrukturierte Ausgaben wie SVG-Programme in einem einzigen autoregressiven Dekodierungsprozess zu generieren. Größere Decoder würden hingegen die Trainings- und Inferenzkosten erheblich erhöhen.

Trainingsstrategie und Daten-Engine

Die Trainingsstrategie von dots.mocr ist datengesteuert und erfolgt in drei aufeinanderfolgenden Phasen:

Stufe 1 (Visuell-sprachliche Schnittstelle): Etablierung einer stabilen visuell-sprachlichen Schnittstelle durch allgemeines visuelles Training, um die zuverlässige Verarbeitung visueller Token durch das Sprachmodell zu gewährleisten.
Stufe 2 (Breites Vortraining): Umfassendes Vortraining auf einer Mischung aus allgemeinen visuellen Daten und textspezifischer Dokumenten-Parsing-Supervision, um eine starke textzentrische Parsing-Grundlage und visuelle Robustheit aufzubauen.
Stufe 3 (MOCR-spezifische Ziele): Verlagerung des Schwerpunkts auf MOCR-spezifische Ziele, indem der Anteil allgemeiner visueller Daten reduziert und der Fokus auf multimodales Dokumenten-Parsing verstärkt wird, einschließlich der Bild-zu-SVG-Generierung.

Die Daten-Engine, die für das Training von dots.mocr verwendet wird, ist umfassend und stützt sich auf vier komplementäre Quellen:

PDF-Dokumente: Für das text- und sprachbasierte Seiten-Parsing.
Web-basierte Seiten: Gerendert als Bilder mit strukturellen Signalen.
Native SVG-Assets: Für die Bild-zu-SVG-Supervision.
Allgemeine Daten: Zur Aufrechterhaltung einer breiten Robustheit und Verwendbarkeit.

Diese Daten-Engine ermöglicht ein vereinheitlichtes Training über Text-Parsing und visuell-symbolisches Parsing hinweg und wandelt zuvor rasterbasierte Grafiken in wiederverwendbare Programmsupervision für MOCR um.

Leistungsbewertung und Benchmarks

Die Leistungsfähigkeit von dots.mocr wurde umfassend anhand verschiedener Benchmarks bewertet, die sowohl das Dokumenten-Parsing als auch das strukturierte Grafik-Parsing umfassen. Ein zentrales Element der Evaluation ist das automatisierte Framework OCR Arena.

OCR Arena: Ein LLM-gestütztes Bewertungsframework

Herkömmliche Metriken wie die Wortfehlerrate (WER) oder die normalisierte Editierdistanz (NED) sowie strukturbezogene Scores wie TEDS für Tabellen und CDM für Formeln sind oft unzureichend, um die tatsächliche End-to-End-Qualität komplexer Markdown-OCR-Ausgaben widerzuspiegeln. Sie basieren auf regelbasierten Vergleichen mit der Ground Truth und sind anfällig für geringfügige, aber semantisch äquivalente Serialisierungen. Um diese Einschränkungen zu überwinden, wurde OCR Arena entwickelt. Es ist ein automatisiertes Bewertungsframework, das auf dem "LLM-as-a-Judge"-Paradigma basiert. Ein leistungsstarkes Vision-Language-Modell (z.B. Gemini 3 Flash) bewertet dabei Paare von Modellausgaben, die auf demselben Originaldokumentbild und den generierten Markdown-Transkriptionen basieren. Es wird beurteilt, welches Ergebnis die Treue, Struktur und Formatierung besser bewahrt, oder ein Unentschieden deklariert, wenn beide vergleichbar sind.

Um die Integrität des Benchmarking zu gewährleisten und Verzerrungen zu minimieren, wird ein symmetrisches Evaluationsprotokoll angewendet. Jede paarweise Vergleich zwischen Modell A und Modell B wird in zwei separaten Durchläufen durchgeführt, wobei die Präsentationsreihenfolge der Modelle variiert wird. Ein Modell erhält nur dann einen Sieg zugesprochen, wenn die Entscheidung des Judges in beiden Durchläufen konsistent bleibt. Die Ergebnisse von Tausenden von paarweisen Vergleichen werden mithilfe des Elo-Bewertungssystems zu einer einheitlichen Rangliste zusammengeführt, um eine dynamische und skalierbare Bewertung zu ermöglichen. Das finale Elo-Rating wird durch Bootstrap-Resampling statistisch abgesichert, indem 1.000 Iterationen der Elo-Berechnung mit zufällig gemischter Kampfhistorie durchgeführt werden.

Ergebnisse im Dokumenten-Parsing

Auf Dokumenten-Parsing-Benchmarks wie olmOCR-Bench, OmniDocBench (v1.5) und XDocParse erzielt dots.mocr die stärkste Elo-Leistung unter den Open-Source-Modellen. Dies deutet auf eine durchweg hohe Qualität des Text- und Sprach-Parsings hin. Gemini 3 Pro nimmt in diesem Vergleich den ersten Platz ein. Insbesondere auf olmOCR-Bench erreicht dots.mocr die beste Gesamtpunktzahl und die höchsten Werte in Kategorien wie ArXiv, "Old scans math", Tabellen und "Multi column". Dies unterstreicht die Fähigkeit des Modells, auch in anspruchsvollen Dokumentenbereichen präzise Ergebnisse zu liefern.

Ergebnisse im strukturierten Grafik-Parsing

Im Bereich des strukturierten Grafik-Parsings wurde dots.mocr auf einem vielfältigen Satz von Benchmarks evaluiert, darunter allgemeine Vektorgrafiken (UniSVG), wissenschaftliche Diagramme (ChartMimic), Webseiten- und UI-Layouts (Design2Code), Prüfungsdiagramme (GenExam), wissenschaftliche Abbildungen (SciGen) und chemische Strukturdiagramme (ChemDraw). Das Modell dots.mocr-svg, eine Variante von dots.mocr, die stärker auf visuell-sprachliche Daten trainiert wurde, erzielt dabei die beste Gesamtleistung über alle Datensätze hinweg. Es übertrifft OCRVerse und zeigt eine höhere Rekonstruktionsqualität als Gemini 3 Pro bei Image-to-SVG-Benchmarks. Die Verbesserungen sind besonders deutlich bei struktursensiblen Aufgaben wie ChartMimic und ChemDraw, während die Leistung bei Layouts und wissenschaftlichen Abbildungen stark bleibt.

Allgemeine VQA-Evaluierung

Trotz der primären Ausrichtung auf multimodales strukturiertes Parsing zeigt dots.mocr auch eine hohe Wettbewerbsfähigkeit bei der allgemeinen Vision-Language-Fähigkeit. Auf Benchmarks wie CharXiv, OCR Reasoning, InfoVQA, DocVQA und ChartQA erzielt dots.mocr durchweg starke Ergebnisse. Dies deutet darauf hin, dass die Vereinheitlichung des Dokumenten-Parsings mit einem breiteren VLM-Training die allgemeine Leistung nicht beeinträchtigt. Das Modell bewahrt breite visuelle Verankerungs- und Argumentationsfähigkeiten über das reine Parsing hinaus, was sich in soliden Leistungen auf OCRBench, AI2D, CountBenchQA und RefCOCO widerspiegelt.

Ausblick und Implikationen

Das Multimodale OCR (MOCR) eröffnet neue Perspektiven für die Dokumentenanalyse und die Konstruktion großer multimodaler Vortrainingskorpora. Die Fähigkeit, Dokumentengrafiken in Bild-Code-Paare umzuwandeln, bietet eine skalierbare Pipeline zur Erzeugung von präzisen Bild-, Code- und Text-Tripeln. Diese können als steuerbare und perturbierbare Trainingsdaten dienen, deren Umfang lediglich durch die Anzahl verfügbarer Dokumente begrenzt wird.

Obwohl die aktuelle Arbeit das Grafik-Parsing als Bild-zu-SVG-Konvertierung realisiert, ist das MOCR-Paradigma nicht auf eine spezifische Repräsentation beschränkt. Zukünftige Erweiterungen könnten andere Programmbereiche wie TikZ für wissenschaftliche Abbildungen, D3.js für interaktive Visualisierungen, CAD-Formate für technische Zeichnungen oder domänenspezifisches Markup für chemische Strukturen und Schaltpläne umfassen. Die Möglichkeit, ganze Webseiten mit vielfältigen Layouts, eingebetteten Grafiken und mehrsprachigen Inhalten zu parsen, erweitert zudem den Pool an verfügbaren Trainingsdaten erheblich über herkömmliche PDF-zentrierte Korpora hinaus.

Auf Systemebene bietet MOCR auch neue Möglichkeiten für die Datenkonstruktion und -evaluierung. Die Daten-Engine zeigt, dass eine prinzipielle Normalisierung, kombiniert mit renderbasierter Verifikation, die Herausforderung nicht-eindeutiger Programmziele bewältigen kann. Die Skalierung dieser Qualitätskontrollmechanismen durch engere Render-Verifikationsschleifen, Belohnungsmodell-Filterung und sich selbst verbessernde Datenkuratierung bietet einen klaren Weg zu weiteren Verbesserungen. Darüber hinaus bietet das OCR Arena-Framework eine praktische Alternative zu anfälligen regelbasierten Metriken. Ähnliche Richter-basierte Evaluierungsprotokolle könnten zunehmend wichtiger werden, da die Komplexität und Repräsentationsvielfalt von Parsing-Ausgaben wächst.

Zusammenfassend lässt sich sagen, dass MOCR das Dokumenten-Parsing von der reinen Textextraktion zu einem strukturierten Verständnis aller informationstragenden Elemente erweitert. Durch die Umwandlung visueller Symbole in wiederverwendbaren, renderbaren strukturierten Code wird eine neue Quelle der Supervision erschlossen, die für Reasoning und maschinelles Lernen genutzt werden kann. Dies erweitert nicht nur den Umfang des Dokumenten-Parsings, sondern erhöht auch die Menge an nutzbarer Supervision, die aus großen Dokumentenkorpora extrahiert werden kann. Es deutet auf einen Wandel hin zu einem dokumenten-nativen multimodalen Parsing, das die gesamte visuelle Sprache des menschlichen Wissens erfasst.

Bibliography - Zheng, H., Li, Y., Zhang, K., Xin, L., Zhao, G., Liu, H., Chen, J., Lou, J., Qiu, J., Fu, Q., Yang, R., Jiang, S., Luo, W., Su, W., Zhang, W., Zhu, X., Li, Y., Ma, Y., Chen, Y., Yu, Z., Yang, G., Zhang, C., Zhang, L., Liu, Y., & Bai, X. (2026). Multimodal OCR: Parse Anything from Documents. arXiv preprint arXiv:2603.13032. - Khaliq, A. (2026). Multimodal OCR Parse Anything from Documents. LinkedIn Post. - OCR Arena. (n.d.). OCR Model Leaderboard. Retrieved from https://www.ocrarena.ai/leaderboard - Reddit. (n.d.). We made the most comprehensive, open-source OCR benchmark. Retrieved from https://www.reddit.com/r/opensource/comments/1iu8uud/we_made_the_most_comprehensive_opensource_ocr/ - F22 Labs. (2026). How Good Is LightOnOCR-2-1B for Document OCR and Parsing? Retrieved from https://www.f22labs.com/blogs/how-good-is-lightonocr-2-1b-for-document-ocr-and-parsing/ - Poznanski, J., Soldaini, L., & Lo, K. (2025). olmOCR 2: Unit Test Rewards for Document OCR. arXiv preprint arXiv:2510.19817v1. - Liu, Z. (n.d.). Computer Vision and Pattern Recognition. papers.cool. Retrieved from https://papers.cool/arxiv/cs.CV