ExStrucTiny Neuer Benchmark zur strukturierten Informationsgewinnung aus Dokumentenbildern

Kategorien:

No items found.

Freigegeben:

February 13, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

ExStrucTiny ist ein neuer Benchmark für die strukturierte Informationsgewinnung aus Dokumentenbildern.
Er zielt darauf ab, Einschränkungen bestehender Datensätze in Bezug auf Entitätsextraktion, Relationsextraktion und visuelle Frage-Antwort-Systeme zu überwinden.
Der Benchmark wurde entwickelt, um die Fähigkeiten von Vision-Language Models (VLMs) bei der Verarbeitung unterschiedlicher Dokumenttypen und flexibler Schemata zu bewerten.
ExStrucTiny integriert manuelle und synthetische, menschlich validierte Stichproben, um eine breitere Palette von Dokumenttypen und Extraktionsszenarien abzudecken.
Die Analyse von VLMs auf ExStrucTiny zeigt Herausforderungen in der Schemaanpassung, der Unterspezifikation von Abfragen und der Lokalisierung von Antworten auf.
Geschlossene Modelle zeigen eine höhere Leistung und Robustheit, während die Leistung offener Modelle mit zunehmender Größe korreliert.
Die Lokalisierungsgenauigkeit und die Fähigkeit, strukturierte Ausgaben zu generieren, bleiben für alle Modelle eine Herausforderung.

ExStrucTiny: Ein neuer Benchmark für die strukturierte Informationsgewinnung aus Dokumentenbildern

Die automatisierte Verarbeitung und Analyse von Dokumenten stellt in vielen Branchen, von der Finanzwelt bis zum Gesundheitswesen, einen kritischen Engpass dar. Unternehmensdokumente wie Formulare, Berichte und Rechnungen enthalten entscheidende Informationen, die für nachgelagerte Anwendungen wie Datenarchivierung, automatisierte Workflows und Analysen extrahiert werden müssen. Während Vision-Language Models (VLMs) in etablierten Benchmarks zum Dokumentenverständnis gute Leistungen erbringen, ist ihre Fähigkeit zur ganzheitlichen, feinkörnigen strukturierten Extraktion über diverse Dokumenttypen und flexible Schemata hinweg bislang nicht umfassend untersucht worden.

Bestehende Datensätze für die Key Entity Extraction (KEE), Relation Extraction (RE) und Visual Question Answering (VQA) weisen oft Einschränkungen auf, die durch eng gefasste Entitätsontologien, einfache Abfragen oder homogene Dokumenttypen gekennzeichnet sind. Diese Einschränkungen übersehen häufig den Bedarf an anpassungsfähiger und strukturierter Extraktion in realen Anwendungsszenarien. Um diese Lücken zu schließen, wurde ExStrucTiny eingeführt, ein neuartiger Benchmark-Datensatz für die strukturierte Informationsgewinnung (IE) aus Dokumentenbildern. Dieser Benchmark vereint Aspekte der KEE, RE und VQA und zielt darauf ab, die Leistung generalistischer Modelle in komplexen Extraktionsaufgaben zu bewerten.

Methodik und Datensatzentwicklung

ExStrucTiny wurde durch eine innovative Pipeline entwickelt, die manuelle Annotationen mit synthetischen, menschlich validierten Stichproben kombiniert. Dieser Ansatz ermöglicht es, eine größere Vielfalt an Dokumenttypen und Extraktionsszenarien abzudecken. Der Datensatz umfasst 304 Abfrage-Antwort-Paare (Queries-Answers, QAs) für geschlossene und bedarfsgesteuerte IE und erstreckt sich über 110 mehrseitige Dokumente. Die Dokumente stammen aus verschiedenen Quellen, darunter Formulare (FUNSD), Finanzberichte (TAT-DQA), Präsentationen (SlideVQA) und Screenshots von Webseiten (VisualMRC), um eine maximale Vielfalt in Layout, Länge und Inhalt zu gewährleisten.

Aufgabenformulierung

Die strukturierte Extraktionsaufgabe in ExStrucTiny unterscheidet sich von traditionellen Benchmarks durch die Anforderung an Modelle, mehrere Informationsteile gemäß variabler, benutzerdefinierter Schemata zu extrahieren und zu organisieren, anstatt einer festen Entitätsontologie zu folgen. Jedes Abfrage-Antwort-Paar besteht aus:

- Einem Satz von Dokumentenbildern. - Einer Eingabeaufforderung (String), die die zu extrahierenden Entitäten entweder als beschreibenden Text oder als Schema zur Befüllung spezifiziert. - Einer Ground Truth strukturierten Ausgabe (String), die die extrahierten Textwerte, ihre Seitenziffern und Bounding Boxes enthält. Die Ausgabe erfolgt in einem JSON-Format, das die Darstellung von Beziehungen zwischen Entitäten und die Kompatibilität mit Industriestandards ermöglicht.

Manuelle und synthetische Datenannotation

Ein anfänglicher Teil von ExStrucTiny wurde manuell annotiert, um geschlossene und bedarfsgesteuerte IE-Abfragen abzudecken. Dies umfasste drei Abfragetypen: geschlossene Abfragen mit einfachem Text, geschlossene Abfragen mit Schema und bedarfsgesteuerte Abfragen mit einfachem Text. Die Annotationen wurden mit strengen Richtlinien erstellt, um realistische und herausfordernde Szenarien zu gewährleisten, wie z.B. die Anforderung mehrerer zusammenhängender Entitäten, das Vorhandensein fehlender Entitäten und eine begrenzte lexikalische Überlappung mit dem Dokumenttext.

Um den Datensatz in größerem Maßstab zu erweitern, wurde ein großes Vision-Language Model (VLM), Gemini-2.5-Flash-Thinking, zur synthetischen Generierung von QAs eingesetzt. Diese synthetisch generierten Daten wurden anschließend durch verschiedene Augmentierungsströme angereichert, um beispielsweise die lexikalische Überlappung zu reduzieren oder Szenarien mit fehlenden Informationen zu simulieren. Eine manuelle Validierung durch Experten stellte die Korrektheit und Konsistenz der synthetischen Daten sicher.

Evaluierungsmetriken

Zur Bewertung der Modellvorhersagen auf ExStrucTiny wird die Leistung in vier Dimensionen bewertet: Strukturvorhersage, Textentnahme, Seitenlokalisierung und Bounding Box-Vorhersage. Eine semantische Abbildungsmethode dient dazu, die Ground Truth-Extraktionen mit den vorhergesagten Ausgaben abzugleichen, um die inhärente Vielfalt in der strukturierten Ausgabegenerierung zu berücksichtigen. Standardmetriken wie Recall, Precision und F1-Score werden für die übereinstimmenden Entitäten berechnet, ergänzt durch ANLS (Normalized Levenshtein Similarity) für die Textähnlichkeit, Seiten-Genauigkeit für die Lokalisierung und Intersection over Union (IoU) für die Bounding Box-Überlappung.

Experimente und Ergebnisse

Die Evaluierung umfasste eine Reihe von geschlossenen und offenen VLMs unterschiedlicher Größe und Architektur. Die Ergebnisse der Textentnahme (ANLS) zeigten einen deutlichen Leistungsunterschied zwischen geschlossenen und offenen Modellen, wobei die geschlossenen Modelle durchweg besser abschnitten. Innerhalb der offenen Modelle korrelierte die Leistung positiv mit der Modellgröße.

Herausforderungen bei komplexen Abfragen

Besonders herausfordernd erwiesen sich Abfragen mit Schema und bedarfsgesteuerte Abfragen. Die Leistung war bei diesen Typen durchweg niedriger als bei einfachen Textabfragen. Dies liegt an der Komplexität von Schema-Abfragen, die oft dreimal so viele Entitäten anfordern, und der Unterspezifikation von bedarfsgesteuerten Abfragen, die ein tiefgreifendes Verständnis und die Interpretation impliziter Referenzen erfordern.

Offene Modelle zeigten zudem eine Abnahme der Extraktionsqualität mit zunehmender Anzahl der zu extrahierenden Werte, während geschlossene Modelle eine stabilere Leistung beibehielten. Dies könnte auf Unterschiede in den Trainingsdaten oder der Architektur zurückzuführen sein.

Manuelle vs. synthetische Daten

Es zeigte sich eine geringfügige Leistungslücke zwischen manuell generierten und synthetischen Daten, wobei Modelle bei manuell erstellten QAs im Durchschnitt schlechter abschnitten. Dies deutet darauf hin, dass manuelle QAs etwas schwieriger sind. Eine Verzerrung zugunsten des zur Generierung der synthetischen Daten verwendeten Gemini-2.5-Flash-Modells konnte nicht festgestellt werden, was die Wirksamkeit der rigorosen manuellen Bearbeitung und Validierung unterstreicht.

Reformulierungen und unbeantwortbare Anfragen

Die Analyse der Leistung nach synthetischen Kategorien (grundlegende, unbeantwortbare und reformulierte Abfragen) zeigte, dass VLMs Schwierigkeiten haben, korrekt zu identifizieren, wann eine angeforderte Entität fehlt. Bei reformulierten Abfragen, die eine geringere lexikalische Überlappung mit den Quelldokumenten aufweisen, sank die ANLS-Leistung ebenfalls erheblich, was auf eine Sensibilität gegenüber Synonymen und eine geringere lexikalische Überlappung hinweist.

Beitrag visueller Informationen

Ein Vergleich mit einer rein textbasierten Baseline (OCR-Text) zeigte, dass visuelle Hinweise die Leistung der strukturierten IE erheblich verbessern. Die textbasierte Variante führte zu einer etwa 10% geringeren ANLS-Leistung, insbesondere bei bedarfsgesteuerten Abfragen.

Lokalisierung und Strukturausgabe

Die Modelle hatten Schwierigkeiten mit der Lokalisierung von Antworten (Bounding Box IoU und Seiten-Genauigkeit), was darauf hindeutet, dass korrekte Textvorhersagen nicht zwangsläufig eine korrekte räumliche Verankerung bedeuten. Auch die Generierung gültiger und strukturell korrekter Ausgaben bleibt eine Herausforderung, obwohl größere Modelle tendenziell mehr gültige Extraktionsblätter produzieren.

Kontextabhängige Leistung

Die Modelle zeigten konsistente Schwierigkeiten in Diagrammen und Freitext-Kontexten. Die geringere Leistung bei Diagrammen war erwartungsgemäß, da diese weniger strukturiert sind und visuelle Attribute als Ablenker wirken können. Bei Freitext könnte dies auf Abfragen zurückzuführen sein, die Werte in dichten Seiten mit viel nicht-relevantem Inhalt und plausiblen, aber falschen Übereinstimmungen ansprechen.

Fazit und Ausblick

ExStrucTiny bietet einen umfassenden Benchmark für die strukturierte Informationsgewinnung aus visuell reichen Dokumenten, der die Beschränkungen früherer Datensätze überwindet und reale Extraktionsanforderungen besser widerspiegelt. Die Ergebnisse zeigen, dass geschlossene VLMs derzeit in Bezug auf Recall und Robustheit führend sind, während die Leistung offener Modelle mit ihrer Größe skaliert. Dennoch stehen alle Modelle vor Herausforderungen bei komplexen Abfragen und der Lokalisierung von Antworten, insbesondere in unstrukturierten Kontexten wie Diagrammen und Freitext. Diese Erkenntnisse unterstreichen die bestehenden Lücken in den Fähigkeiten aktueller Modelle. Es wird erwartet, dass diese Arbeit weitere Forschung anpassungsfähigerer, robusterer und semantisch fundierter Extraktionsmodelle für reale Anwendungen anregt.

Einschränkungen und zukünftige Richtungen

Trotz seiner Stärken weist ExStrucTiny einige Einschränkungen auf. Die Verwendung von ANLS für die Textevaluierung kann bei bestimmten Datentypen wie Zahlen und Datumsangaben suboptimal sein, da zeichenbasierte Ähnlichkeit die Extraktionsqualität möglicherweise nicht genau widerspiegelt. Zukünftige Arbeiten sollten alternative Metriken für diese Fälle untersuchen. Der Benchmark ist derzeit ausschließlich auf Englisch und bewertet die IE-Leistung nicht in anderen Sprachen. Schließlich stützt sich die Schema-Mapping-Phase auf ein rein textbasiertes LLM, um Ground Truth- und vorhergesagte Extraktionsblätter abzugleichen. Obwohl effektiv, ist dieser Ansatz langsamer als programmatische Lösungen und liefert möglicherweise keine perfekten Mappings. Die Behebung dieser Einschränkungen in zukünftigen Arbeiten wird den Nutzen dieses Benchmarks für die Dokumentenintelligenzforschung weiter stärken.

Bibliography

- Sibue, M., Muñoz Garza, A., Mensah, S., Shetty, P., Ma, Z., Liu, X., & Veloso, M. (2026). ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images. arXiv preprint arXiv:2602.12203. - Hugging Face. (2026, February 13). Daily Papers. Retrieved from https://huggingface.co/papers/date/2026-02-13 - Hugging Face. (n.d.). HuggingFace Papers - Top Last 3 Days. Retrieved from https://huggingface-paper-explorer.vercel.app/ - Lee, T., Liang, P., Mai, Y., Roberts, J. S., Wong, C. H., & Yasunaga, M. (2025). Image2Struct: Benchmarking Structure Extraction for Vision-Language Models. NeurIPS 2024 Track on Datasets and Benchmarks. - Hasan, M. (2025). Benchmarking Extraction of Structured Data from Templatized Documents. University of California, Berkeley. - Bai, F., Kang, J., Stanovsky, G., Freitag, D., Dredze, M., & Ritter, A. (2024). Schema-Driven Information Extraction from Heterogeneous Tables. Findings of the Association for Computational Linguistics: EMNLP 2024. - Liao, H., RoyChowdhury, A., Li, W., Bansal, A., Zhang, Y., Tu, Z., Satzoda, R. K., Manmatha, R., & Mahadevan, V. (2023). DocTr: Document Transformer for Structured Information Extraction in Documents. arXiv preprint arXiv:2307.07929. - Yu, W., Zhang, C., Cao, H., Hua, W., Li, B., Chen, H., ... & Bai, X. (2023). ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich Document Images. arXiv preprint arXiv:2306.03287.