In den letzten Jahren haben große Sprachmodelle (Large Language Models, LLMs) durch ihre Fähigkeit, komplexe Aufgaben in verschiedenen Domänen zu meistern, die Landschaft der künstlichen Intelligenz (KI) revolutioniert. Diese Modelle, die auf Milliarden von Parametern basieren und anhand umfangreicher Daten trainiert wurden, sind jedoch nicht ohne Herausforderungen. Ihre monolithische Struktur macht es schwierig und kostspielig, sie zu erweitern oder ihnen neue Fähigkeiten zu verleihen. Angesichts dieser Problematik erforscht Google DeepMind neue Wege, um die Fähigkeiten von LLMs effizient und praktisch zu erweitern, indem sie mit spezifischeren Modellen kombiniert werden.
Google DeepMind hat einen Ansatz namens CALM – Composition to Augment Language Models – vorgestellt, der eine Kreuz-Aufmerksamkeit zwischen Modellen ermöglicht, um deren Darstellungen zu kombinieren und neue Fähigkeiten zu ermöglichen. Die Hauptmerkmale von CALM sind: (i) das Skalieren von LLMs für neue Aufgaben durch die „Wiederverwendung“ bestehender LLMs zusammen mit einigen zusätzlichen Parametern und Daten, (ii) das Beibehalten der bestehenden Modellgewichte und damit der bestehenden Fähigkeiten und (iii) die Anwendung auf verschiedene Domänen und Einstellungen. Es wurde gezeigt, dass die Erweiterung von PaLM2-S mit einem kleineren Modell, das in ressourcenarmen Sprachen trainiert wurde, zu einer absoluten Verbesserung von bis zu 13 % bei Aufgaben wie der Übersetzung in Englisch und arithmetischem Denken für ressourcenarme Sprachen führt. Ähnlich verhält es sich, wenn PaLM2-S mit einem code-spezifischen Modell erweitert wird, was eine relative Verbesserung von 40 % über das Basismodell bei der Codegenerierung und Erklärungsaufgaben ergibt – vergleichbar mit vollständig feinabgestimmten Gegenstücken.
Diese Entwicklungen sind ein bedeutender Schritt hin zu einer effizienteren Nutzung von LLMs und könnten zu einer kostengünstigeren und flexibleren Implementierung von KI in verschiedenen Anwendungsbereichen führen. Insbesondere bei der Arbeit mit ressourcenarmen Sprachen könnte diese Technologie einen Durchbruch darstellen, da sie es ermöglicht, die Leistung bestehender Modelle ohne die Notwendigkeit eines vollständigen Neutrainings zu verbessern.
Ein weiterer wichtiger Aspekt in der Entwicklung von LLMs ist die Einbeziehung multimodaler Wahrnehmung, die Text, Bilder und Audio umfasst. Diese Erweiterung ist entscheidend für eine genaue Darstellung des Zustands und damit für eine effektive Argumentation. Multimodale LLMs verwenden selbstüberwachte Lernansätze, um maskierte Token aus gemischten Modalitäten vorherzusagen, und fördern die Ausrichtung über Modalitäten hinweg durch überwachtes Lernen.
Die Herausforderungen für die Speicherfähigkeiten von LLMs sind ebenfalls ein zentrales Forschungsthema. Während das Kontextfenster als Form des Kurzzeitgedächtnisses fungiert, werden für das Langzeitgedächtnis und die Faktenabrufung Vektor-Datenbanken verwendet. Diese ermöglichen das Abrufen relevanter Informationen aus umfangreichen Wissensdatenbanken oder früheren Transaktionen, was insbesondere dann schwierig ist, wenn mehrere historische Ereignisse für eine gegebene Anfrage relevant sein könnten.
Die Forschung von Google DeepMind zeigt, dass es trotz der beeindruckenden Leistungen von LLMs immer noch schwierig ist, auf ihr latentes Wissen zuzugreifen, was oft zu potenziell ungenauen Ergebnissen führt. In der Studie werden die Grenzen der aktuellen unüberwachten Methoden aufgezeigt, die auf LLM-Aktivierungen angewendet werden. Während die Modelle in verschiedenen Aufgaben kompetent sind, besteht die Herausforderung darin, ihr latentes Wissen zugänglich zu machen, was oft dazu führt, dass Modellwissen von simulierten Charakteren unterschieden werden muss.
Insgesamt unterstreicht diese Forschung das Potenzial und die Herausforderungen von LLMs und zeigt Wege auf, wie die KI-Forschung in Zukunft voranschreiten könnte. Es ist von entscheidender Bedeutung, die Herausforderungen zu meistern und die wahren Möglichkeiten dieser bemerkenswerten Sprachmodelle zu erschließen.