Große Sprachmodelle (LLMs) haben in den letzten Jahren beeindruckende Fortschritte gemacht und finden Anwendung in verschiedenen Bereichen wie der Textgenerierung, Übersetzung und Bilderkennung. Besonders interessant ist die Kombination von LLMs mit visuellen Daten, was zu sogenannten Large Vision-Language Models (LVLMs) führt. Diese Modelle können sowohl Bilder als auch Text verstehen und generieren, was neue Möglichkeiten für die Mensch-Maschine-Interaktion und die Automatisierung komplexer Aufgaben eröffnet.
Ein wichtiger Aspekt bei der Entwicklung von LVLMs ist die Abstimmung der Modelle auf menschliche Präferenzen. Visuelle Präferenzabstimmung bezeichnet den Prozess, bei dem LVLMs trainiert werden, um menschliche Vorlieben zwischen visuellen Eingaben vorherzusagen. Dies wird typischerweise durch den Einsatz von beschrifteten Datensätzen mit ausgewählten/abgelehnten Paaren und die Verwendung von Optimierungsalgorithmen wie der direkten Präferenzoptimierung (DPO) erreicht.
Bestehende visuelle Abstimmungsmethoden, die in erster Linie für Szenarien mit Einzelbildern konzipiert wurden, haben Schwierigkeiten, die Komplexität von Aufgaben mit mehreren Bildern effektiv zu bewältigen. Dies liegt an der Knappheit diverser Trainingsdaten und den hohen Kosten für die Annotation von ausgewählten/abgelehnten Paaren.
MIA-DPO: Ein neuartiger Ansatz zur visuellen Präferenzabstimmung
In einem aktuellen Forschungspapier wird ein vielversprechender Ansatz zur visuellen Präferenzabstimmung vorgestellt: Multi-Image Augmented Direct Preference Optimization (MIA-DPO). Diese Methode wurde speziell für die Verarbeitung von Eingaben mit mehreren Bildern entwickelt und zielt darauf ab, die Herausforderungen bestehender Ansätze zu überwinden.
MIA-DPO begegnet der Knappheit an Trainingsdaten für mehrere Bilder, indem es Einzelbilddaten mit nicht zusammenhängenden Bildern erweitert, die in Rastercollagen oder Bild-in-Bild-Formaten angeordnet sind. Dieser Ansatz reduziert die mit der Annotation von Mehrbilddaten verbundenen Kosten erheblich.
Eine wichtige Beobachtung der Forscher ist, dass die Aufmerksamkeitswerte von LVLMs zwischen verschiedenen Bildern erheblich variieren. MIA-DPO nutzt diese Aufmerksamkeitswerte, um abgelehnte Antworten, auf die sich das Modell möglicherweise fälschlicherweise konzentriert hat, zu identifizieren und herauszufiltern. Diese aufmerksamkeitsgesteuerte Auswahl zur Konstruktion der ausgewählten/abgelehnten Paare kommt ohne (i) menschliche Annotation, (ii) zusätzliche Daten und (iii) externe Modelle oder APIs aus.
Vielversprechende Ergebnisse und Kompatibilität mit verschiedenen Architekturen
MIA-DPO ist mit verschiedenen LVL-Architekturen kompatibel und hat in Experimenten vielversprechende Ergebnisse gezeigt. In Tests mit fünf Mehrbild-Benchmarks übertraf MIA-DPO bestehende Methoden und erzielte eine durchschnittliche Leistungssteigerung von 3,0 % bei LLaVA-v1.5 und 4,3 % bei dem kürzlich vorgestellten InternLM-XC2.5. Darüber hinaus hat MIA-DPO nur minimale Auswirkungen auf die Fähigkeit des Modells, Einzelbilder zu verstehen.
Fazit
MIA-DPO stellt einen wichtigen Schritt in der Weiterentwicklung von LVLMs dar. Durch die effektive Bewältigung der Herausforderungen bei der visuellen Präferenzabstimmung ebnet dieser Ansatz den Weg für leistungsfähigere und präzisere Modelle, die in der Lage sind, komplexe Aufgaben mit mehreren Bildern zu bewältigen. Die Kompatibilität von MIA-DPO mit verschiedenen Architekturen macht es zu einem vielseitigen Werkzeug für die Erforschung und Entwicklung zukünftiger LVLMs.
Bibliographie
https://openreview.net/forum?id=f7WBRSuf9l
https://openreview.net/pdf/fc4b8756773d618c04650d43b6c2f989f327c3e1.pdf
https://arxiv.org/abs/2404.01258
https://arxiv.org/abs/2406.11839
https://openaccess.thecvf.com/content/CVPR2024/papers/Wallace_Diffusion_Model_Alignment_Using_Direct_Preference_Optimization_CVPR_2024_paper.pdf
https://github.com/Yangyi-Chen/Multimodal-AND-Large-Language-Models
https://arxiv-sanity-lite.com/?rank=pid&pid=2406.11280
https://huggingface.co/blog/dpo_vlm
https://www.youtube.com/watch?v=b5oncY7E5TY
https://github.com/YiyangZhou/POVID