Die Welt der künstlichen Intelligenz (KI) ist ständig in Bewegung, und ein Bereich, der in den letzten Jahren besonders viel Aufmerksamkeit erregt hat, ist das kontrastive Lernen von Sprache und Bild, besser bekannt unter dem Namen CLIP (Contrastive Language-Image Pre-training). CLIP hat sich als Eckpfeiler in der multimodalen Intelligenz erwiesen, da es Modelle in die Lage versetzt, sowohl Text als auch Bilder zu verstehen und zu verknüpfen. Doch trotz seiner Erfolge hat CLIP auch Grenzen. Ein großes Manko ist der Informationsverlust während des Encodierungsprozesses. Dieser Verlust schränkt die Fähigkeit von CLIP ein, Bilder mit vielen Details zu verarbeiten.
Studien haben gezeigt, dass CLIP dazu neigt, nur grobe Merkmale aus den Eingabedaten zu extrahieren. Das führt dazu, dass semantisch unterschiedliche Bilder mit ähnlichen visuellen Komponenten den gleichen Repräsentationsraum zugewiesen werden. Dieser Informationsverlust wirkt sich negativ auf nachgelagerte Aufgaben aus und kann zu Verwirrung bei nachgelagerten Modellen führen.
Um diese Herausforderung zu meistern, wurde die Strategie "Diversified Multiplet Upcycling" (DMU) für CLIP entwickelt. DMU nutzt das "Mixture of Experts" (MoE) Framework, um die Modellkapazität zu erweitern und gleichzeitig vortrainierte Checkpoints zu verwenden, ohne das Modell von Grund auf neu trainieren zu müssen. MoE hat sich als effektiv bei der Skalierung großer, vortrainierter Modelle erwiesen, indem es feste aktivierte Parameter verwendet und sowohl die Leistung als auch die Robustheit verbessert.
Im Kern besteht DMU aus drei Schritten:
- **Multiplet CLIP-Modelle erzeugen:** Zuerst wird das Basismodell feinabgestimmt, um eine Reihe von Multiplet-CLIP-Modellen zu erstellen. Dies geschieht mithilfe des "Multistage Contrastive Learning" (MCL), das Modelle erzeugt, die durch einen mehrstufigen Clustering- und Feinabstimmungsprozess diversifizierte Informationen codieren. - **Diversifizierte Informationen erfassen:** "Multiplet" bezieht sich auf CLIP-Modelle, die sich alle Parameter teilen, mit Ausnahme der Feed-Forward-Netzwerk-Schichten (FFN) während des MCL-Feinabstimmungsprozesses. "Diversifiziert" bedeutet, dass diese Modelle eine Reihe von FFN-Experten hervorbringen, die jeweils unterschiedliche Aspekte der Eingabeinformationen erfassen. - **CLIP-MoE erstellen:** Diese Experten werden dann verwendet, um ein CLIP-MoE-Modell zu initialisieren. Durch kontinuierliches Feinabstimmen des Routers in CLIP-MoE wird sichergestellt, dass alle Experten vollständig genutzt werden.Dieser Ansatz ermöglicht es CLIP-MoE, reichhaltigere und nützlichere Informationen als das Basismodell zu erfassen, während gleichzeitig durch die Verwendung von Sparse Activation ein explosionsartiges Anwachsen der aktivierten Parameter vermieden wird.
Experimente haben gezeigt, dass CLIP-MoE, das mit einem kleinen, hochwertigen Bild-Beschreibungsdatensatz trainiert wurde, die Leistung von CLIP signifikant verbessert. Insbesondere bei Retrieval-Aufgaben übertrifft CLIP-MoE das Basismodell von OpenAI CLIP um etwa 20 %, wobei der zusätzliche Trainingsaufwand minimal ist – weniger als 2 % der Gesamtkosten für das Training des Basis-CLIP-Modells von Grund auf.
Diese Ergebnisse unterstreichen das Potenzial von DMU und CLIP-MoE, die Art und Weise, wie wir Multimodalität in der KI angehen, zu verändern. Die Möglichkeit, die Leistungsfähigkeit von CLIP mit geringem Aufwand zu steigern, eröffnet neue Möglichkeiten für verschiedene Anwendungen, darunter Zero-Shot-Retrieval, Zero-Shot-Bildklassifizierung und die Entwicklung leistungsfähigerer multimodaler Sprachmodelle. Obwohl Herausforderungen wie die Suche nach noch effizienteren Trainingsmethoden und die Bewältigung der Datenvielfalt bestehen bleiben, verspricht die Zukunft von CLIP-MoE spannende Fortschritte im Bereich der künstlichen Intelligenz.