Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, relevante Informationen aus einer wachsenden Menge an Daten zu extrahieren, stellt Unternehmen vor zunehmend komplexe Herausforderungen. Insbesondere wenn Daten nicht nur in Textform, sondern auch in visuellen Formaten wie Diagrammen, gescannten Verträgen, Tabellen oder Präsentationen vorliegen, stossen rein textbasierte Retrieval-Augmented Generation (RAG)-Systeme an ihre Grenzen. Hier setzen innovative multimodale RAG-Pipelines an, die eine präzisere und umfassendere Informationsgewinnung ermöglichen.
In realen Anwendungen ist die Datenlandschaft selten homogen. Informationen sind in einer Vielzahl von Formaten eingebettet, die sowohl textuelle als auch visuelle Elemente enthalten können. Ein textbasiertes Retrieval-System würde in solchen Szenarien wichtige Kontextinformationen und visuelle Details übersehen, was zu unvollständigen oder gar fehlerhaften Antworten führen kann. Multimodale RAG-Pipelines adressieren diese Lücke, indem sie die gemeinsame Verarbeitung von Text, Bildern und Layouts ermöglichen. Dies führt zu fundierteren und umsetzbaren Erkenntnissen.
Die NVIDIA Nemotron Modellfamilie, eine Reihe offener Modelle, Datensätze und Technologien, wurde entwickelt, um effiziente, genaue und spezialisierte KI-Systeme zu ermöglichen. Sie ist auf fortgeschrittene Schlussfolgerungen, Codierung, visuelles Verständnis, agentische Aufgaben, Sicherheit, Sprache und Informationsabruf zugeschnitten.
Für die multimodale Suche in visuellen Dokumenten sind zwei spezifische Llama Nemotron-Modelle von Bedeutung:
Beide Modelle zeichnen sich durch ihre Kompaktheit aus, wodurch sie mit den meisten NVIDIA GPU-Ressourcen betrieben werden können. Ihre Kompatibilität mit Standard-Vektordatenbanken und ihr Design zur Reduzierung von "Halluzinationen" durch die Bereitstellung besserer Evidenz – anstatt längerer Prompts – unterstreichen ihren praktischen Nutzen.
Multimodale RAG-Pipelines kombinieren einen Retriever mit einem Vision-Language Model (VLM). Dies stellt sicher, dass die generierten Antworten sowohl auf den abgerufenen Seitentexten als auch auf visuellen Inhalten basieren und nicht ausschliesslich auf rohen Text-Prompts. Die Qualität der Embeddings kontrolliert dabei, welche Seiten abgerufen und dem VLM präsentiert werden. Re-Ranking-Modelle entscheiden, welche dieser Seiten am relevantesten sind und die Antwort am stärksten beeinflussen sollten.
Eine unpräzise Durchführung dieser Schritte erhöht die Wahrscheinlichkeit, dass das VLM "halluziniert" – oft mit hohem Vertrauen. Der Einsatz von multimodalen Embeddings in Verbindung mit einem multimodalen Re-Ranker gewährleistet, dass die Generierung auf den korrekten Seitenbildern und Texten basiert.
Das llama-nemotron-embed-vl-1b-v2 Embedding-Modell ist ein Transformer-basierter Encoder mit etwa 1,7 Milliarden Parametern. Es handelt sich um eine feinabgestimmte Version der NVIDIA Eagle Modellfamilie, die das Llama 3.2 1B Sprachmodell und den SigLip2 400M Vision-Encoder nutzt. Embedding-Modelle für den Abruf werden typischerweise mit einer Bi-Encoder-Architektur trainiert, die Abfrage und Dokument unabhängig voneinander kodiert. Durch Mean-Pooling über die Output-Token-Embeddings des Sprachmodells wird ein einzelnes Embedding mit 2048 Dimensionen erzeugt. Kontrastives Lernen wird eingesetzt, um die Ähnlichkeit zwischen Abfragen und relevanten Dokumenten zu erhöhen und gleichzeitig die Ähnlichkeit zu negativen Beispielen zu verringern.
Das llama-nemotron-rerank-vl-1b-v2 ist ein Cross-Encoder-Modell mit ebenfalls etwa 1,7 Milliarden Parametern. Auch dieses Modell ist eine feinabgestimmte Version eines NVIDIA Eagle-Familienmodells. Die Hidden States der letzten Schicht des Sprachmodells werden mittels Mean-Pooling aggregiert, und ein binärer Klassifikations-Layer wird für die Re-Ranking-Aufgabe feinabgestimmt. Das Modell wurde mit Cross-Entropy-Loss unter Verwendung öffentlich verfügbarer und synthetisch generierter Datensätze trainiert.
Die Modelle llama-nemotron-embed-vl-1b-v2 und llama-nemotron-rerank-vl-1b-v2 wurden auf mehreren visuellen Dokumenten-Retrieval-Datensätzen evaluiert, darunter ViDoRe V1, V2 und V3, sowie zwei interne Datensätze: DigitalCorpora-10k und Earnings V2. Diese Benchmarks umfassen eine Mischung aus Text, Tabellen und Diagrammen sowie Finanzberichten, um die Leistung in realistischen Szenarien zu testen.
Die Modelle zeigten eine verbesserte Retrieval-Genauigkeit (Recall@5) für Bild- und Bild+Text-Modalitäten im Vergleich zu ihren Vorgängern. Insbesondere die Kombination von llama-nemotron-embed-vl-1b-v2 mit llama-nemotron-rerank-vl-1b-v2 steigerte die Genauigkeit signifikant in allen Modalitäten.
Beim Vergleich mit anderen verfügbaren multimodalen Re-Ranker-Modellen, wie jina-reranker-m0 und MonoQwen2-VL-v0.1, zeigte llama-nemotron-rerank-vl-1b-v2 eine überlegene Leistung bei Text- und kombinierten Bild+Text-Modalitäten. Diese Modelle sind zudem unter einer kommerziellen Lizenz verfügbar, was sie für den Unternehmenseinsatz attraktiv macht.
Die neuen Nemotron Embedding- und Re-Ranking-Modelle finden bereits in verschiedenen Branchen Anwendung:
Die Entwicklung und Anwendung von Llama Nemotron RAG-Modellen, wie llama-nemotron-embed-vl-1b-v2 und llama-nemotron-rerank-vl-1b-v2, stellt einen bedeutenden Fortschritt in der multimodalen Informationsgewinnung dar. Durch die Fähigkeit, Text und visuelle Informationen gleichermaßen zu verarbeiten und effektiv zu re-ranken, bieten diese Modelle eine verbesserte Genauigkeit und reduzieren die "Halluzinationsneigung" von KI-Systemen. Ihre Kompatibilität, Effizienz und die breite Anwendbarkeit in verschiedenen Unternehmensszenarien unterstreichen ihr Potenzial, die Art und Weise, wie Unternehmen mit komplexen Dokumenten und Daten interagieren, nachhaltig zu verändern. Die fortlaufende Forschung und Entwicklung in diesem Bereich verspricht weitere Innovationen, die die Leistungsfähigkeit und Zuverlässigkeit von KI-gestützten Informationssystemen weiter steigern werden.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen