Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die digitale Transformation hat die Art und Weise, wie Unternehmen und Forschungseinrichtungen mit Informationen umgehen, grundlegend verändert. Dokumente, ob Geschäftsberichte, wissenschaftliche Publikationen oder Verträge, bilden das Rückgrat vieler Prozesse. Die präzise und effiziente Extraktion sowie Interpretation von Daten aus diesen Dokumenten ist daher von entscheidender Bedeutung. In diesem Kontext stellt GutenOCR eine bemerkenswerte Entwicklung dar, die das Potenzial hat, die optische Zeichenerkennung (OCR) und das Verständnis von Dokumenten auf eine neue Ebene zu heben. Als spezialisiertes Vision-Language-Frontend bietet es eine integrierte Lösung für das Lesen, Erkennen und Verorten von Text in komplexen Dokumenten.
Herkömmliche OCR-Systeme sind darauf ausgelegt, Text aus Bildern zu extrahieren. Ihre Stärken liegen in der Umwandlung von Pixeln in lesbaren Text. Allerdings stoßen sie an ihre Grenzen, wenn es um das Verständnis der strukturellen Beziehungen innerhalb eines Dokuments geht. Tabellen, Diagramme, Checkboxen oder handschriftliche Anmerkungen werden oft als isolierte Textelemente behandelt, ohne ihren Kontext oder ihre visuelle Verknüpfung zu berücksichtigen. Dies führt zu einem Verlust an kritischen Informationen und erschwert die weitere automatisierte Verarbeitung.
Selbst fortschrittliche Ansätze, die große Sprachmodelle (LLMs) mit OCR kombinieren, um das Textverständnis zu verbessern, weisen Defizite auf. Während sie in der Lage sind, aus extrahiertem Text Schlussfolgerungen zu ziehen, mangelt es ihnen häufig an einer präzisen Verankerung der Informationen im Originaldokument. Dies kann zu sogenannten "Halluzinationen" führen, bei denen Modelle plausible, aber faktisch falsche Antworten generieren, weil ihnen der visuelle Kontext fehlt.
Hier setzt GutenOCR an. Es handelt sich um eine Familie von Vision-Language-Modellen, die auf den Architekturen Qwen2.5-VL-3B und Qwen2.5-VL-7B aufbauen. Der Kernansatz besteht darin, Dokumente nicht nur als Text, sondern als strukturierte visuelle Repräsentationen zu behandeln. Dies ermöglicht es den Modellen, sowohl den Textinhalt als auch dessen räumliche Anordnung und visuelle Beziehungen zu erfassen.
Die GutenOCR-Modelle wurden auf einer breiten Palette von Daten trainiert, darunter Geschäftsdokumente, wissenschaftliche Artikel und synthetische Grounding-Daten. Dies befähigt sie, eine Vielzahl von Dokumententypen und -layouts zu verarbeiten. Die Modelle bieten eine einheitliche, prompt-basierte Schnittstelle, über die Benutzer verschiedene Aufgaben ausführen können:
Ein zentrales Ergebnis der Entwicklung von GutenOCR ist die signifikante Leistungssteigerung gegenüber den zugrunde liegenden Basismodellen. GutenOCR-7B konnte beispielsweise den zusammengesetzten Grounded-OCR-Score seines Qwen2.5-VL-7B-Backbone-Modells auf einem umfangreichen Testdatensatz von 10.500 Geschäfts- und Wissenschaftsseiten mehr als verdoppeln (von 0,40 auf 0,82). Dies deutet auf eine erhebliche Verbesserung bei der regionalen und zeilenbasierten OCR sowie der Erkennungsrate von Texten hin.
Die Fähigkeit von GutenOCR, visuelle und räumliche Kontexte zu bewahren und extrahierte Elemente exakt im Dokument zu verorten, ist für eine Vielzahl von B2B-Anwendungen von hohem Wert. Dazu gehören:
Die Modelle von GutenOCR nutzen ein spezifisches System-Prompt, um Ausgabeformate (z.B. JSON, normalisierte Begrenzungsrahmen) zu steuern. Dieser Prompt wird automatisch durch die Chat-Vorlage injiziert. Das System ist in der Lage, verschiedene Aufgaben durch spezifische Prompt-Vorlagen zu steuern. Beispielsweise kann die Ausgabe als einfacher Text, im Markdown-Format oder als strukturiertes JSON erfolgen, was die Integration in nachgelagerte Systeme erleichtert.
Obwohl GutenOCR signifikante Fortschritte in der Dokumentenverarbeitung erzielt, zeigen sich in bestimmten Bereichen noch Kompromisse. Dazu gehören die seitenweite Linearisierung, d.h. die korrekte Reihenfolge der Textblöcke über die gesamte Seite, sowie die Verarbeitung von farbgesteuerter OCR und Layouts, die reich an mathematischen Formeln sind. Diese Aspekte bieten weiterhin Raum für zukünftige Forschung und Optimierung.
Die Vision-Language-Modelle von GutenOCR stellen einen wichtigen Schritt in Richtung eines agentenbasierten Dokumentenverständnisses dar. Sie ermöglichen nicht nur die Extraktion von Informationen, sondern auch deren Verankerung im visuellen Kontext des Originaldokuments. Dies minimiert Halluzinationen und erhöht die Vertrauenswürdigkeit der generierten Antworten, was für geschäftskritische Anwendungen von großer Bedeutung ist.
Die Entwicklung von GutenOCR zeigt, dass die Integration von visueller Wahrnehmung und Sprachverständnis in KI-Modellen entscheidend ist, um die Komplexität realer Dokumente zu bewältigen. Mit der kontinuierlichen Verbesserung dieser Technologien können Unternehmen und Forschungseinrichtungen zukünftig noch präzisere, verifizierbare und handlungsrelevante Erkenntnisse aus ihren Dokumentenbeständen gewinnen.
Die Möglichkeit, mit einem System zu interagieren, das nicht nur Antworten liefert, sondern diese auch visuell im Originaldokument belegen kann, schafft eine neue Grundlage für Vertrauen und Effizienz in der automatisierten Dokumentenverarbeitung.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen