Große Sprachmodelle (LLMs) haben in verschiedenen komplexen Aufgaben bemerkenswerte Leistungen gezeigt, indem sie Chain-of-Thought (CoT)-Prompting nutzen. Diese Technik ermöglicht es LLMs, mehrstufige Argumentationsketten zu generieren und so komplexe Probleme zu lösen. Allerdings zeigen Studien, dass diese Argumentationsfähigkeiten oft nur bei Modellen mit Hunderten von Milliarden Parametern auftreten, was ihren Einsatz in ressourcenbeschränkten Szenarien einschränkt.
Um diese Herausforderung zu bewältigen, haben sich Forschende der Wissensdestillation (KD) zugewandt. KD zielt darauf ab, das Wissen und die Fähigkeiten größerer Modelle auf kleinere, effizientere Modelle zu übertragen. Im Kontext von LLMs wird dies als "Reasoning Distillation" bezeichnet, bei der die mehrstufige Argumentationsfähigkeit von LLMs durch Feinabstimmung kleinerer Sprachmodelle auf Basis von Argumentationsbeispielen, die von den LLMs generiert wurden, übertragen wird.
Bisherige Ansätze zur Reasoning Distillation basieren in der Regel auf In-Context Learning (ICL), bei dem dem LLM-Lehrermodell einige Beispiele für eine Aufgabe vorgegeben werden und es dann aufgefordert wird, weitere Beispiele zu generieren. Diese generierten Beispiele dienen dann als Trainingsdaten für das kleinere Schülermodell.
Trotz vielversprechender Ergebnisse birgt dieser Ansatz Herausforderungen. Erstens ist die Qualität der generierten Argumentationsbeispiele nicht immer optimal, da LLMs möglicherweise keinen Zugriff auf domänenspezifische Daten haben. Zweitens können aufgrund der Black-Box-Natur vieler LLMs keine Soft Labels verwendet werden, die dem Schülermodell zusätzliche Informationen über die Sicherheit der Vorhersagen des Lehrermodells liefern könnten.
Diese Einschränkungen können dazu führen, dass das Schülermodell auf die begrenzten und möglicherweise fehlerhaften Trainingsdaten überpasst und seine Fähigkeit zur Verallgemeinerung auf neue, ungesehene Daten beeinträchtigt wird.
Um diese Herausforderungen zu adressieren, wurde Mentor-KD entwickelt, ein neuartiger Ansatz zur Reasoning Distillation. Die Kernidee besteht darin, ein sogenanntes "Mentor"-Modell einzuführen, ein mittelgroßes Sprachmodell, das speziell auf die jeweilige Aufgabe feinabgestimmt ist. Der Mentor hat dabei zwei Hauptaufgaben:
Durch die Nutzung eines aufgabenspezifischen Mentors, dessen Fähigkeiten auf die jeweilige Aufgabe zugeschnitten sind, kann Mentor-KD sowohl die Quantität als auch die Qualität der Trainingsdaten für das Schülermodell verbessern.
Mentor-KD besteht aus drei Schritten:
Mentor-KD wurde in umfangreichen Experimenten mit verschiedenen komplexen Argumentationsaufgaben evaluiert, darunter Aufgaben zum logischen Denken, zum mathematischen Denken und zum Lösen von Rätseln. Die Ergebnisse zeigen, dass Mentor-KD die Leistung von kleinen Sprachmodellen in diesen Aufgaben deutlich verbessert und in einigen Fällen sogar die Leistung der größeren LLM-Lehrermodelle übertrifft.
Insbesondere zeigt Mentor-KD eine hohe Effizienz in ressourcenbeschränkten Szenarien, in denen nur wenige Trainingsdaten verfügbar sind. Dies deutet darauf hin, dass Mentor-KD ein vielversprechender Ansatz ist, um die Argumentationsfähigkeiten von LLMs auf kleinere, effizientere Modelle zu übertragen und so ihren Einsatz in einer breiteren Palette von Anwendungen zu ermöglichen.
Mentor-KD ist ein vielversprechender Ansatz, um die Reasoning-Fähigkeiten von LLMs auf kleinere Sprachmodelle zu übertragen. Durch die Nutzung eines speziell trainierten Mentor-Modells kann Mentor-KD sowohl die Qualität als auch die Quantität der Trainingsdaten verbessern und so die Leistung des Schülermodells deutlich steigern. Zukünftige Arbeiten könnten sich auf die Erforschung verschiedener Mentor-Architekturen und -Trainingsstrategien konzentrieren, um die Effektivität von Mentor-KD weiter zu verbessern.