Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die digitale Transformation hat die Notwendigkeit einer effizienten Umwandlung von Dokumenten in maschinenlesbare Daten drastisch erhöht. In diesem Kontext präsentiert LightOn mit LightOnOCR-2-1B eine Entwicklung, die das Potenzial hat, die optische Zeichenerkennung (OCR) sowie das Dokumentenverständnis neu zu definieren. Dieses 1-Milliarde-Parameter-Modell ist ein multilinguales Vision-Language-Modell (VLM), das einen end-to-end Ansatz verfolgt und damit traditionelle OCR-Pipelines überwindet.
Traditionelle OCR-Systeme basieren oft auf mehrstufigen Pipelines, die verschiedene Komponenten für Layoutanalyse, Texterkennung, Tabellenextraktion und Lesereihenfolge-Rekonstruktion umfassen. Während diese Ansätze in vielen Szenarien effektiv sein können, sind sie anfällig für Fehler, schwierig anzupassen und erfordern bei der Anpassung an neue Dokumenttypen oder -verteilungen oft erhebliche manuelle Eingriffe und zusätzliche Annotationen.
LightOnOCR-2-1B hingegen integriert diese Schritte in ein einziges, vereinheitlichtes Modell. Es lernt die Extraktion direkt von den Pixeln zu strukturiertem Text, was den technischen Aufwand reduziert und eine kontinuierliche Verbesserung sowie Spezialisierung durch einfaches Fine-Tuning ermöglicht. Dies eliminiert die Notwendigkeit, jede Stufe einer Pipeline neu zu konfigurieren.
Die Architektur von LightOnOCR-2-1B ist ein kompaktes VLM, das aus drei Hauptkomponenten besteht:
Die Initialisierung von robusten vortrainierten Komponenten ermöglicht es LightOnOCR, starke visuelle Repräsentationen und multilinguale Sprachmodellierungsfähigkeiten zu erben, was die Übertragung auf OCR mit reduzierten Trainingskosten erleichtert.
Ein wesentlicher Faktor für die verbesserte Leistung von LightOnOCR-2-1B ist der umfangreichere und sauberere Trainingsdatensatz. Das Modell wurde auf einer umfassenden Mischung aus OCR-Datensätzen trainiert, die primär durch Destillation erstellt wurde. Ein leistungsfähigeres Vision-Language-Modell (Qwen3-VL-235B-A22B-Instruct) wurde als "Lehrer" eingesetzt, um natürlich geordnete Transkriptionen aus gerenderten PDF-Seiten zu erzeugen. Dies führte zu einer präziseren mathematischen Notation und weniger Formatierungsartefakten.
Der Datensatz deckt eine breite Palette ab, darunter Scans, französische Dokumente und wissenschaftliche PDFs, und wurde durch eine verbesserte Datenkuratierungspipeline ergänzt. Die Einschluss von Dokumentenregions-Ausschnitten und expliziten Leerseitenbeispielen trug dazu bei, das Modell an verschiedene Formate anzupassen und Schleifenverhalten oder Halluzinationen zu mindern.
Eine weitere Innovation ist die Verwendung einer nvpdftex-basierten arXiv-Kuratierungspipeline, die pixelgenaue Annotationen aus TeX-Quellen liefert. Dies stärkt die wissenschaftliche OCR-Überwachung und ermöglicht die Generierung eines automatischen Unterdatensatzes für den Lokalisierungs-Benchmark.
LightOnOCR-2-1B integriert Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), um hartnäckige Fehlermodi zu adressieren, die mit rein überwachtem Lernen schwer zu beheben sind. RLVR verwendet automatische Prüfungen, die deterministisch auf Modellausgaben evaluiert werden können, wie z.B. binäre Unit-Tests auf synthetischen Dokumenten. Dies ermöglicht eine direkte Optimierung für spezifische OCR-Fehler, ohne zusätzliche Daten annotieren zu müssen.
Zwei RLVR-Rezepte wurden angewendet:
Diese Methodik verbessert die Robustheit des Modells gegenüber Wiederholungsschleifen, mathematischen Render- und Formatierungsfehlern sowie layoutsensitiven Konsistenzbeschränkungen.
LightOnOCR-2-1B erzielt auf dem OlmOCR-Bench die höchste Gesamtpunktzahl unter den evaluierten Systemen, obwohl es deutlich kleiner ist. Es übertrifft größere End-to-End-Modelle mit nur 1 Milliarde Parametern und ist vollständig End-to-End trainierbar. Die Verbesserungen sind breit gefächert, mit besonders starken Ergebnissen bei arXiv-Dokumenten, alten Scans mit mathematischen Inhalten und tabellenlastigen Dokumenten.
Neben der Genauigkeit zeichnet sich LightOnOCR-2-1B durch seine Effizienz aus. Es erreicht eine hohe Verarbeitungsgeschwindigkeit von 5,71 Seiten pro Sekunde auf einer einzelnen NVIDIA H100 GPU. Dies macht es besonders geeignet für die Verarbeitung großer Dokumentenmengen und senkt die Kosten erheblich, da es weniger als 0,01 USD pro 1.000 Seiten kostet. Im Vergleich dazu sind proprietäre OCR-Dienste oft deutlich teurer.
Eine weitere wichtige Funktionalität von LightOnOCR-2-1B ist die Fähigkeit zur Vorhersage von Bounding Boxes für eingebettete Bilder. Das Modell kann nicht nur Text transkribieren, sondern auch visuelle Elemente in Dokumenten lokalisieren. Dies wird durch die Einführung von Koordinatenüberwachung während des Vortrainings und die Verfeinerung der Lokalisierung mit RLVR unter Verwendung von IoU-basierten Zielen erreicht.
Zur Bewertung dieser Fähigkeit wurde der neue LightOnOCR-bbox-bench-Benchmark eingeführt, der die F1-Metrik, mittlere IoU und Zählgenauigkeit für die Bildlokalisierung misst. LightOnOCR-2-1B-bbox zeigt hierbei eine Verbesserung gegenüber größeren Baselines, was auf eine zuverlässige Erkennung und genaue Lokalisierung von Bildern hindeutet.
Trotz der bemerkenswerten Fortschritte weist LightOnOCR-2-1B bestimmte Einschränkungen auf. Die multilinguale Leistung außerhalb europäischer/lateinischer Sprachen ist derzeit nicht vollständig unterstützt, da der Trainingsmix und die Normalisierungspipeline lateinische Schriftzeichen priorisieren. Nicht-lateinische Schriften wie CJK oder Arabisch können daher eine geringere Wiedergabetreue oder ineffiziente Tokenisierung aufweisen.
Darüber hinaus bleibt die Transkription von handschriftlichem Text inkonsistent. Obwohl das Modell von der Abdeckung von Scans profitiert, stammen die Überwachungsdaten hauptsächlich aus gedruckten oder gesetzten Quellen. Handschriftliche Texte sind daher kein primäres Anwendungsgebiet für die aktuellen Modellvarianten.
Diese Einschränkungen werden als vielversprechende Richtungen für zukünftige Arbeiten durch gezielte Datenerfassung und -bewertung angesehen.
LightOnOCR-2-1B stellt einen bedeutenden Fortschritt in der OCR-Technologie dar. Mit seinem end-to-end Ansatz, der hohen Genauigkeit und der beeindruckenden Effizienz bietet es eine leistungsstarke Lösung für die Umwandlung komplexer Dokumente in maschinenlesbaren Text. Die Fähigkeit, Bounding Boxes für Bilder zu lokalisieren, erweitert den Anwendungsbereich erheblich und unterstützt die Entwicklung intelligenter Dokumentenverarbeitungssysteme.
Die Veröffentlichung des Modells, der Datensätze und des LightOnOCR-bbox-bench-Benchmarks unter einer offenen Lizenz fördert die reproduzierbare Forschung und die Weiterentwicklung im Bereich der hochpräzisen Dokumentenextraktion und -lokalisierung. LightOnOCR-2-1B demonstriert, wie kompakte und spezialisierte Modelle durch innovative Trainingsmethoden und hochwertige Daten auch größere, allgemeinere Systeme übertreffen können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen