Feinjustierte Bild-Sprachmodelle (VLMs) zeigen beeindruckende Leistungen in verschiedenen Anwendungen. Sie werden oft auf großen Datensätzen mit Millionen von Bild-Text-Paaren vortrainiert und anschließend auf domänenspezifische Daten feinjustiert, um die Leistung in Zero-Shot-Szenarien zu verbessern. Dabei lernen VLMs, Bilder und Texte in einen gemeinsamen Einbettungsraum abzubilden, um Aufgaben wie Bildklassifizierung oder Text-zu-Bild-Retrieval zu lösen.
Trotz ihrer Leistungsfähigkeit können feinjustierte VLMs unerwünschte Störkorrelationen zwischen Bildmerkmalen und Textattributen erfassen. Diese Korrelationen entstehen, wenn das Modell während des Trainings irrelevante Zusammenhänge lernt, die in den Trainingsdaten vorhanden sind, aber nicht auf die allgemeine Beziehung zwischen Bild und Text zutreffen. Ein Beispiel wäre ein Modell, das lernt, Schmetterlinge mit Blumen zu assoziieren, weil in den Trainingsdaten Schmetterlinge häufig auf Blumen abgebildet sind. Infolgedessen könnte das Modell Schmetterlinge ohne Blumen nicht korrekt klassifizieren oder andere Insekten auf Blumen fälschlicherweise als Schmetterlinge identifizieren.
Die Herausforderung bei der Verbesserung der Robustheit von VLMs gegenüber Störkorrelationen liegt in der Identifizierung und Minderung dieser unerwünschten Zusammenhänge. Bisherige Ansätze konzentrieren sich hauptsächlich auf globale Bildmerkmale und sind oft für unimodale Modelle konzipiert. Sie bieten daher keine optimale Lösung für feinjustierte VLMs, die von der Berücksichtigung lokaler Bildmerkmale profitieren können.
RaVL (Region-aware Vision-Language Learning) ist ein neuer Ansatz, der Störkorrelationen in feinjustierten VLMs aufdeckt und mindert, indem er lokale Bildmerkmale nutzt. RaVL besteht aus zwei Hauptphasen:
Phase 1: Entdeckung von Störkorrelationen
In der ersten Phase analysiert RaVL ein feinjustiertes VLM, um gelernte Störkorrelationen zu identifizieren. Dazu werden Bilder in Kandidatenregionen zerlegt und mithilfe des VLM-Einbettungsraums in Feature-Cluster gruppiert. Anschließend bewertet RaVL quantitativ den Einfluss jedes Merkmals auf Zero-Shot-Klassifizierungsfehler. Dieser Ansatz ermöglicht die präzise Identifizierung von Bildmerkmalen, die zu falschen Klassifizierungen beitragen.
Phase 2: Minderung von Störkorrelationen
Nachdem die Störkorrelationen identifiziert wurden, nutzt RaVL in der zweiten Phase eine neuartige, regionenbezogene Verlustfunktion, um die unerwünschten Zusammenhänge zu mindern. Diese Verlustfunktion lenkt die Aufmerksamkeit des Modells während des Feinjustierungsprozesses von den störenden Merkmalen ab und fördert stattdessen die Konzentration auf relevante Bild-Text-Beziehungen. Dadurch lernt das Modell, die relevanten Bildbereiche zu priorisieren und die störenden Zusammenhänge zu ignorieren.
RaVL wurde in einem umfangreichen Evaluationsrahmen mit 654 feinjustierten VLMs, verschiedenen Modellarchitekturen, Datendomänen und gelernten Störkorrelationen getestet. Die Ergebnisse zeigen, dass RaVL Störkorrelationen im Vergleich zu bestehenden Methoden deutlich besser erkennt (191% Verbesserung gegenüber der nächsten Baseline) und mindert (8,2% Verbesserung der Genauigkeit der Worst-Group-Bildklassifizierung). Qualitative Auswertungen an VLMs im allgemeinen und medizinischen Bereich bestätigen die Wirksamkeit von RaVL.
RaVL bietet einen vielversprechenden Ansatz zur Verbesserung der Robustheit von feinjustierten VLMs. Durch die Berücksichtigung lokaler Bildmerkmale und die Anwendung einer regionenbezogenen Verlustfunktion ermöglicht RaVL eine gezielte Minderung von Störkorrelationen, was zu einer verbesserten Genauigkeit in Zero-Shot-Klassifizierungsaufgaben führt. Diese Ergebnisse unterstreichen das Potenzial von RaVL für den Einsatz in realen Anwendungen, in denen die Robustheit von VLMs entscheidend ist.
Bibliographie: Varma, M., Delbrouck, J.-B., Chen, Z., Chaudhari, A., & Langlotz, C. (2024). RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models. *NeurIPS 2024*. Abgerufen von https://arxiv.org/abs/2411.04097 Yang, Y., et al. (2023). Mitigating Spurious Correlations in Multi-modal Models during Fine-tuning. *ICML 2023*. Abgerufen von https://proceedings.mlr.press/v202/yang23j/yang23j.pdf Kiela, D., et al. (2024). RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models. *Findings of the Association for Computational Linguistics: EAcl 2024*, 809–821. https://doi.org/10.18653/v1/2024.findings-eacl.68