Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der dynamischen Landschaft der Künstlichen Intelligenz haben Große Vision-Sprachmodelle (Large Vision Language Models, LVLMs) bemerkenswerte Fortschritte erzielt. Sie sind in der Lage, eine Vielzahl von multimodalen Aufgaben zu bewältigen, von der Bildunterschriftenerstellung bis hin zur komplexen Beantwortung visueller Fragen und logischer Schlussfolgerungen. Diese Modelle kombinieren die Leistungsfähigkeit großer Sprachmodelle mit vortrainierten visuellen Encodern, um flüssige und kontextbezogene Antworten auf der Grundlage von Bildern und Textabfragen zu generieren. Trotz dieser Entwicklungen stellt sich jedoch weiterhin die Herausforderung, sicherzustellen, dass LVLMs ihre Antworten zuverlässig auf visuelle Eingaben stützen und nicht von textuellen Vorinformationen dominiert werden.
Eine wachsende Zahl von Studien weist darauf hin, dass LVLMs häufig eine sogenannte "Sprachverzerrung" aufweisen. Dies bedeutet, dass die Modelle übermäßig auf sprachliche Informationen vertrauen, selbst wenn relevante visuelle Beweise verfügbar wären. Diese Verzerrung äußert sich in einer "visuellen Ignoranz", bei der sich das Modell effektiv wie ein reines Textmodell verhält und wichtige Bildinhalte ignoriert. Dies kann auch zu Halluzinationen führen, bei denen das Modell Objekte oder Attribute beschreibt, die im Bild nicht vorhanden sind. Solche Verhaltensweisen werfen Fragen hinsichtlich der Zuverlässigkeit von LVLMs auf: Inwieweit nutzen diese Modelle tatsächlich das Bild, anstatt lediglich davon konditioniert zu sein?
Frühere Arbeiten zur Minderung der Sprachverzerrung konzentrierten sich hauptsächlich auf Interventionen auf Modellebene. Ansätze ohne zusätzliches Training, wie beispielsweise das kontrastive Decoding, vergleichen Ausgaben mit und ohne visuellen Input zur Inferenzzeit, um sprachgesteuerte Antworten zu unterdrücken. Andere Methoden verstärken die Bildaufmerksamkeit oder modifizieren Aufmerksamkeitsmechanismen, um eine stärkere visuelle Verankerung zu fördern. Parallel dazu wurden datenzentrierte Bemühungen unternommen, um qualitativ hochwertigere multimodale Instruktionsdatensätze durch den Einsatz stärkerer Modelle oder sorgfältige Filterung zu erstellen. Diese Ansätze weisen jedoch eine gemeinsame Einschränkung auf: Sie quantifizieren nicht explizit, innerhalb eines gegebenen multimodalen Datensatzes, wie stark jede einzelne Stichprobe oder jedes Token tatsächlich von visuellen Informationen abhängt.
In der Praxis enthalten multimodale Datensätze für das Instruction Tuning eine heterogene Mischung von Beispielen. Einige können allein aus dem gesunden Menschenverstand oder dem sprachlichen Kontext beantwortet werden, während andere ein feinkörniges visuelles Verständnis erfordern. Diese Heterogenität tritt nicht nur auf Stichprobenebene, sondern auch auf Token-Ebene auf. Visuell verankerte Tokens (z. B. Farben, Objekattribute) werden in der Regel unter demselben Ziel optimiert wie nicht-visuelle oder strukturelle Tokens (z. B. Artikel, Hilfsverben). Wenn alle diese Stichproben und Tokens während des Trainings gleich behandelt werden, erhält das Modell keinen Anreiz, visuell abhängige Signale von rein textuellen Mustern zu unterscheiden, und versagt somit darin, eine robuste visuelle Verankerung vollständig zu erwerben. Stattdessen greift es auf leicht ausnutzbare sprachliche Abkürzungen zurück.
Vor diesem Hintergrund wurde Visual Information Gain (VIG) eingeführt. VIG ist eine perplexitätsbasierte Metrik, die quantifiziert, wie stark der visuelle Input die Vorhersageunsicherheit eines Modells reduziert. Diese Metrik ermöglicht eine feinkörnige Analyse auf Stichproben- und Token-Ebene und hebt visuell verankerte Elemente wie Farben, räumliche Beziehungen und Attribute hervor.
VIG misst die Reduktion der Kreuzentropie-Verlustfunktion, die durch die Einbeziehung des visuellen Inputs entsteht. Ein höherer VIG-Wert deutet darauf hin, dass die Unsicherheit des Modells bei Vorhandensein visueller Informationen erheblich reduziert wird, was impliziert, dass das Bild eine entscheidende Rolle bei der Erzeugung der korrekten Antwort spielt.
VIG wurde empirisch als zuverlässiger Indikator für visuelle Verankerung nachgewiesen. Analysen zeigen, dass VIG mit der Modalitätsabhängigkeit auf Benchmark-Ebene übereinstimmt und visuell verankerte Tokens (wie Farben, räumliche Beziehungen und Attribute) erfolgreich identifiziert, während es diese von Tokens unterscheidet, die primär durch textuelle Vorinformationen bestimmt werden.
Basierend auf VIG wurde ein selektives Trainingsschema vorgeschlagen, das Stichproben und Tokens mit hohem VIG priorisiert. Dieser Ansatz verbessert die Dateneffizienz, indem er schwach verankerte Stichproben eliminiert und die Optimierung auf visuell informative Tokens konzentriert. Diese Strategie verbessert die visuelle Verankerung und mindert die Sprachverzerrung, wodurch eine überlegene Leistung mit deutlich reduziertem Überwachungsaufwand im Vergleich zum Training mit vollständigen Daten erzielt wird.
Die Wirksamkeit des VIG-gesteuerten selektiven Trainings wurde an verschiedenen LVLMs, darunter LLaVA-1.5 7B, LLaVA-1.5 13B und ShareGPT4V 7B, evaluiert. Die Ergebnisse zeigen, dass dieses Training zu einer starken Dateneffizienz führt: Durch das Training mit nur 70% der Stichproben und die weitere Reduzierung des Überwachungsaufwands durch Token-Maskierung übertreffen alle Modelle ihre ursprünglichen Pendants.
Zum Beispiel optimiert das VIG-Training für LLaVA-1.5 7B mit nur 38,45 Millionen Ziel-Tokens, verbessert aber die Leistung in allen Benchmarks. Bei LLaVA-1.5 13B, das mit nur 12,14 Millionen Tokens optimiert wurde, ist der Effekt noch ausgeprägter und führt zu Leistungssteigerungen in allen Benchmarks. Dies deutet darauf hin, dass größere Modelle sorgfältig ausgewählte, visuell verankerte Daten effektiver nutzen können, selbst wenn sie mit erheblich weniger Tokens trainiert werden.
Das VIG-basierte selektive Training führt zu einer erhöhten Aufmerksamkeit für visuelle Tokens. Modelle, die mit dieser Methode trainiert wurden, weisen konsistent einen größeren Anteil der Aufmerksamkeitsgewichte visuellen Tokens zu. Dies ist besonders in den mittleren Schichten ausgeprägt, die für die semantische Merkmalsextraktion aus visuellen Eingaben entscheidend sind. Dies deutet darauf hin, dass VIG-gesteuertes selektives Training das Modell dazu anregt, sich stärker auf visuelle Beweise zu beziehen.
Darüber hinaus reduziert VIG-gesteuertes Training die Sprachverzerrung. Modelle, die mit dieser Methode trainiert wurden, zeigen eine höhere Robustheit gegenüber irreführenden textuellen Hinweisen. Sie erden ihre Vorhersagen besser in den visuellen Eingaben, selbst wenn irreführender Text vorhanden ist. Dies legt nahe, dass VIG-gesteuertes selektives Training die Abhängigkeit des Modells von falschen textuellen Hinweisen reduziert und eine stärkere Nutzung visueller Beweise fördert.
Das VIG-gesteuerte Training erzielt wettbewerbsfähige oder überlegene Leistungen in allen Benchmarks, ohne architektonische Änderungen oder zusätzlichen Inferenz-Overhead. Im Gegensatz zu einigen bestehenden Ansätzen, die Leistungseinbußen in spezifischen Domänen hinnehmen, verbessert das VIG-Training die visuelle Verankerung und die Robustheit gegenüber Halluzinationen. Es hat sich auch gezeigt, dass VIG-basiertes Training orthogonal zu bestehenden Ansätzen ist und bei Kombination mit diesen zu zusätzlichen Leistungssteigerungen führt.
Eine praktische Einschränkung des VIG-Ansatzes ist der Rechenaufwand für die Berechnung von VIG, da für jede multimodale Anweisung zusätzliche Forward-Pässe mit dem angepassten Modell erforderlich sind. Die VIG-Bewertung ist jedoch ein einmaliger, nur vorwärts gerichteter und vollständig parallelisierbarer Vorgang, dessen Ergebnisse über Trainingsläufe und Modellvarianten hinweg wiederverwendet werden können. Der primäre Fokus dieser Arbeit liegt daher auf der Maximierung der Dateneffizienz, der Reduzierung des für das Training eines leistungsstarken LVLM erforderlichen multimodalen Überwachungsaufwands und nicht auf der Minimierung der gesamten Rechenkosten. Die Anwendung von VIG-gesteuerter Selektion auf andere Architekturen und Domänen bleibt eine wichtige Richtung für zukünftige Arbeiten.
Visual Information Gain (VIG) stellt eine vielversprechende Entwicklung in der Verbesserung von Großen Vision-Sprachmodellen dar. Durch die Quantifizierung des Beitrags visueller Eingaben ermöglicht VIG ein gezielteres und effizienteres Training, welches die visuelle Verankerung stärkt und die Anfälligkeit für Sprachverzerrungen und Halluzinationen reduziert. Diese datenzentrierte Herangehensweise ebnet den Weg für zuverlässigere und leistungsfähigere multimodale KI-Systeme, die das, was sie sehen, tatsächlich besser nutzen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen