Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die automatisierte Verarbeitung und Analyse von Dokumenten stellt in vielen Branchen, von der Finanzwelt bis zum Gesundheitswesen, einen kritischen Engpass dar. Unternehmensdokumente wie Formulare, Berichte und Rechnungen enthalten entscheidende Informationen, die für nachgelagerte Anwendungen wie Datenarchivierung, automatisierte Workflows und Analysen extrahiert werden müssen. Während Vision-Language Models (VLMs) in etablierten Benchmarks zum Dokumentenverständnis gute Leistungen erbringen, ist ihre Fähigkeit zur ganzheitlichen, feinkörnigen strukturierten Extraktion über diverse Dokumenttypen und flexible Schemata hinweg bislang nicht umfassend untersucht worden.
Bestehende Datensätze für die Key Entity Extraction (KEE), Relation Extraction (RE) und Visual Question Answering (VQA) weisen oft Einschränkungen auf, die durch eng gefasste Entitätsontologien, einfache Abfragen oder homogene Dokumenttypen gekennzeichnet sind. Diese Einschränkungen übersehen häufig den Bedarf an anpassungsfähiger und strukturierter Extraktion in realen Anwendungsszenarien. Um diese Lücken zu schließen, wurde ExStrucTiny eingeführt, ein neuartiger Benchmark-Datensatz für die strukturierte Informationsgewinnung (IE) aus Dokumentenbildern. Dieser Benchmark vereint Aspekte der KEE, RE und VQA und zielt darauf ab, die Leistung generalistischer Modelle in komplexen Extraktionsaufgaben zu bewerten.
ExStrucTiny wurde durch eine innovative Pipeline entwickelt, die manuelle Annotationen mit synthetischen, menschlich validierten Stichproben kombiniert. Dieser Ansatz ermöglicht es, eine größere Vielfalt an Dokumenttypen und Extraktionsszenarien abzudecken. Der Datensatz umfasst 304 Abfrage-Antwort-Paare (Queries-Answers, QAs) für geschlossene und bedarfsgesteuerte IE und erstreckt sich über 110 mehrseitige Dokumente. Die Dokumente stammen aus verschiedenen Quellen, darunter Formulare (FUNSD), Finanzberichte (TAT-DQA), Präsentationen (SlideVQA) und Screenshots von Webseiten (VisualMRC), um eine maximale Vielfalt in Layout, Länge und Inhalt zu gewährleisten.
Die strukturierte Extraktionsaufgabe in ExStrucTiny unterscheidet sich von traditionellen Benchmarks durch die Anforderung an Modelle, mehrere Informationsteile gemäß variabler, benutzerdefinierter Schemata zu extrahieren und zu organisieren, anstatt einer festen Entitätsontologie zu folgen. Jedes Abfrage-Antwort-Paar besteht aus:
- Einem Satz von Dokumentenbildern. - Einer Eingabeaufforderung (String), die die zu extrahierenden Entitäten entweder als beschreibenden Text oder als Schema zur Befüllung spezifiziert. - Einer Ground Truth strukturierten Ausgabe (String), die die extrahierten Textwerte, ihre Seitenziffern und Bounding Boxes enthält. Die Ausgabe erfolgt in einem JSON-Format, das die Darstellung von Beziehungen zwischen Entitäten und die Kompatibilität mit Industriestandards ermöglicht.Ein anfänglicher Teil von ExStrucTiny wurde manuell annotiert, um geschlossene und bedarfsgesteuerte IE-Abfragen abzudecken. Dies umfasste drei Abfragetypen: geschlossene Abfragen mit einfachem Text, geschlossene Abfragen mit Schema und bedarfsgesteuerte Abfragen mit einfachem Text. Die Annotationen wurden mit strengen Richtlinien erstellt, um realistische und herausfordernde Szenarien zu gewährleisten, wie z.B. die Anforderung mehrerer zusammenhängender Entitäten, das Vorhandensein fehlender Entitäten und eine begrenzte lexikalische Überlappung mit dem Dokumenttext.
Um den Datensatz in größerem Maßstab zu erweitern, wurde ein großes Vision-Language Model (VLM), Gemini-2.5-Flash-Thinking, zur synthetischen Generierung von QAs eingesetzt. Diese synthetisch generierten Daten wurden anschließend durch verschiedene Augmentierungsströme angereichert, um beispielsweise die lexikalische Überlappung zu reduzieren oder Szenarien mit fehlenden Informationen zu simulieren. Eine manuelle Validierung durch Experten stellte die Korrektheit und Konsistenz der synthetischen Daten sicher.
Zur Bewertung der Modellvorhersagen auf ExStrucTiny wird die Leistung in vier Dimensionen bewertet: Strukturvorhersage, Textentnahme, Seitenlokalisierung und Bounding Box-Vorhersage. Eine semantische Abbildungsmethode dient dazu, die Ground Truth-Extraktionen mit den vorhergesagten Ausgaben abzugleichen, um die inhärente Vielfalt in der strukturierten Ausgabegenerierung zu berücksichtigen. Standardmetriken wie Recall, Precision und F1-Score werden für die übereinstimmenden Entitäten berechnet, ergänzt durch ANLS (Normalized Levenshtein Similarity) für die Textähnlichkeit, Seiten-Genauigkeit für die Lokalisierung und Intersection over Union (IoU) für die Bounding Box-Überlappung.
Die Evaluierung umfasste eine Reihe von geschlossenen und offenen VLMs unterschiedlicher Größe und Architektur. Die Ergebnisse der Textentnahme (ANLS) zeigten einen deutlichen Leistungsunterschied zwischen geschlossenen und offenen Modellen, wobei die geschlossenen Modelle durchweg besser abschnitten. Innerhalb der offenen Modelle korrelierte die Leistung positiv mit der Modellgröße.
Besonders herausfordernd erwiesen sich Abfragen mit Schema und bedarfsgesteuerte Abfragen. Die Leistung war bei diesen Typen durchweg niedriger als bei einfachen Textabfragen. Dies liegt an der Komplexität von Schema-Abfragen, die oft dreimal so viele Entitäten anfordern, und der Unterspezifikation von bedarfsgesteuerten Abfragen, die ein tiefgreifendes Verständnis und die Interpretation impliziter Referenzen erfordern.
Offene Modelle zeigten zudem eine Abnahme der Extraktionsqualität mit zunehmender Anzahl der zu extrahierenden Werte, während geschlossene Modelle eine stabilere Leistung beibehielten. Dies könnte auf Unterschiede in den Trainingsdaten oder der Architektur zurückzuführen sein.
Es zeigte sich eine geringfügige Leistungslücke zwischen manuell generierten und synthetischen Daten, wobei Modelle bei manuell erstellten QAs im Durchschnitt schlechter abschnitten. Dies deutet darauf hin, dass manuelle QAs etwas schwieriger sind. Eine Verzerrung zugunsten des zur Generierung der synthetischen Daten verwendeten Gemini-2.5-Flash-Modells konnte nicht festgestellt werden, was die Wirksamkeit der rigorosen manuellen Bearbeitung und Validierung unterstreicht.
Die Analyse der Leistung nach synthetischen Kategorien (grundlegende, unbeantwortbare und reformulierte Abfragen) zeigte, dass VLMs Schwierigkeiten haben, korrekt zu identifizieren, wann eine angeforderte Entität fehlt. Bei reformulierten Abfragen, die eine geringere lexikalische Überlappung mit den Quelldokumenten aufweisen, sank die ANLS-Leistung ebenfalls erheblich, was auf eine Sensibilität gegenüber Synonymen und eine geringere lexikalische Überlappung hinweist.
Ein Vergleich mit einer rein textbasierten Baseline (OCR-Text) zeigte, dass visuelle Hinweise die Leistung der strukturierten IE erheblich verbessern. Die textbasierte Variante führte zu einer etwa 10% geringeren ANLS-Leistung, insbesondere bei bedarfsgesteuerten Abfragen.
Die Modelle hatten Schwierigkeiten mit der Lokalisierung von Antworten (Bounding Box IoU und Seiten-Genauigkeit), was darauf hindeutet, dass korrekte Textvorhersagen nicht zwangsläufig eine korrekte räumliche Verankerung bedeuten. Auch die Generierung gültiger und strukturell korrekter Ausgaben bleibt eine Herausforderung, obwohl größere Modelle tendenziell mehr gültige Extraktionsblätter produzieren.
Die Modelle zeigten konsistente Schwierigkeiten in Diagrammen und Freitext-Kontexten. Die geringere Leistung bei Diagrammen war erwartungsgemäß, da diese weniger strukturiert sind und visuelle Attribute als Ablenker wirken können. Bei Freitext könnte dies auf Abfragen zurückzuführen sein, die Werte in dichten Seiten mit viel nicht-relevantem Inhalt und plausiblen, aber falschen Übereinstimmungen ansprechen.
ExStrucTiny bietet einen umfassenden Benchmark für die strukturierte Informationsgewinnung aus visuell reichen Dokumenten, der die Beschränkungen früherer Datensätze überwindet und reale Extraktionsanforderungen besser widerspiegelt. Die Ergebnisse zeigen, dass geschlossene VLMs derzeit in Bezug auf Recall und Robustheit führend sind, während die Leistung offener Modelle mit ihrer Größe skaliert. Dennoch stehen alle Modelle vor Herausforderungen bei komplexen Abfragen und der Lokalisierung von Antworten, insbesondere in unstrukturierten Kontexten wie Diagrammen und Freitext. Diese Erkenntnisse unterstreichen die bestehenden Lücken in den Fähigkeiten aktueller Modelle. Es wird erwartet, dass diese Arbeit weitere Forschung anpassungsfähigerer, robusterer und semantisch fundierter Extraktionsmodelle für reale Anwendungen anregt.
Trotz seiner Stärken weist ExStrucTiny einige Einschränkungen auf. Die Verwendung von ANLS für die Textevaluierung kann bei bestimmten Datentypen wie Zahlen und Datumsangaben suboptimal sein, da zeichenbasierte Ähnlichkeit die Extraktionsqualität möglicherweise nicht genau widerspiegelt. Zukünftige Arbeiten sollten alternative Metriken für diese Fälle untersuchen. Der Benchmark ist derzeit ausschließlich auf Englisch und bewertet die IE-Leistung nicht in anderen Sprachen. Schließlich stützt sich die Schema-Mapping-Phase auf ein rein textbasiertes LLM, um Ground Truth- und vorhergesagte Extraktionsblätter abzugleichen. Obwohl effektiv, ist dieser Ansatz langsamer als programmatische Lösungen und liefert möglicherweise keine perfekten Mappings. Die Behebung dieser Einschränkungen in zukünftigen Arbeiten wird den Nutzen dieses Benchmarks für die Dokumentenintelligenzforschung weiter stärken.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen