Große Sprachmodelle (LLMs) haben in den letzten Jahren enorme Fortschritte gemacht, insbesondere in der Verarbeitung langer Eingabesequenzen. Modelle mit langem Kontext (LCMs) können Millionen von Tokens verarbeiten und darin relevante Informationen präzise lokalisieren. Die Generierungsleistung dieser LCMs lässt jedoch oft zu wünschen übrig und kann zu Problemen wie Halluzinationen führen. Verbesserungen durch Anpassung der Datenmenge und -qualität für Vortraining und Instruktions-Tuning brachten zwar Fortschritte, jedoch fehlte es bisherigen Methoden entweder an Effektivität oder Effizienz. Ein neuer Ansatz namens LOGO (Long cOntext aliGnment via efficient preference Optimization) verspricht hier Abhilfe.
LOGO ist eine Trainingsstrategie, die Präferenzoptimierung für das Alignment von Modellen mit langem Kontext einführt. Um das Problem des durch lange Sequenzen begrenzten GPU-Speichers zu lösen, verwendet LOGO eine referenzfreie Präferenzoptimierung und eine Positionssynthesemethode zur Konstruktion der Trainingsdaten. Durch das Training mit nur 0,3 Milliarden Daten auf einer einzigen 8xA800-GPU-Maschine für 16 Stunden erreicht LOGO mit dem Llama-3-8B-Instruct-80K-Modell eine mit GPT-4 vergleichbare Leistung in realen Long-Context-Aufgaben, während die ursprünglichen Fähigkeiten des Modells in anderen Bereichen, wie z. B. Sprachmodellierung und MMLU, erhalten bleiben. Darüber hinaus kann LOGO die Kontextfenstergröße des Modells erweitern und gleichzeitig die Generierungsleistung verbessern.
Die Ausrichtung von LLMs auf menschliche Präferenzen ist entscheidend, um sicherzustellen, dass die Ausgaben der Modelle mit menschlichen Werten und ethischen Standards übereinstimmen. RLHF (Reinforcement Learning from Human Feedback) ist eine gängige Methode, bei der Belohnungsmodelle trainiert werden, um Ziele zu optimieren, die iterativ basierend auf menschlichem Feedback verfeinert werden. Diese Methoden erhöhen jedoch die Komplexität des Trainingsprozesses, da mehrere Modelle trainiert und im Trainingsprozess Samples vom LLM benötigt werden. Alternativen zu RLHF, wie DPO (Direct Preference Optimization) und seine Varianten, nutzen paarweise Antworten, um dem Modell Präferenzwissen ohne Belohnungsfunktion zu vermitteln. Diese Methoden minimieren oder maximieren den Verlust zwischen jedem Token in der Ausgabe des Sprachmodells und den bevorzugten oder nicht bevorzugten Tokens. Ein kritischer Aspekt, der dabei jedoch übersehen wird, ist die Fähigkeit eines Belohnungsmodells, zwischen unterschiedlichen Graden menschlicher Präferenzen in Antworten zu unterscheiden. Dies ist ein Schlüsselfaktor, der LLMs daran hindert, menschliche Präferenzen vollständig zu verstehen.
LOGO nutzt eine neuartige, selbstüberwachte Aufgabe, die wichtige Inhalte in LLM-Ausgaben selektiv entfernt, um Antworten mit unterschiedlichen Präferenzgraden zu generieren. Während des Trainings wird ein Schlüsselwortextraktor auf den Ausgaben der LLMs verwendet, um wichtige Inhalte zu extrahieren. Durch das Entfernen unterschiedlicher Mengen dieses Inhalts werden Antworten mit unterschiedlichen Präferenzgraden erstellt. Diese Antworten werden dann einem selbstüberwachten Modul zur Klassifizierung zugeführt, und der daraus resultierende Verlust wird in den primären Präferenzausrichtungsverlust integriert, um die LLMs gemeinsam zu optimieren. Der Schlüsselinhalt in den Ausgaben der LLMs ist eng mit Präferenzinformationen verknüpft. Durch schrittweises Entfernen des Inhalts lassen sich effektiv unterschiedliche Präferenzgrade konstruieren. Diese Methode ermöglicht die Generierung mehrerer Antworten aus einer einzigen Ausgabe von LLMs, wodurch keine zusätzliche Datenerfassung und Annotation erforderlich ist.
LOGO bietet mehrere Vorteile gegenüber herkömmlichen Alignment-Methoden: * Effizienz: Durch die referenzfreie Präferenzoptimierung und die Positionssynthese umgeht LOGO den hohen Speicherbedarf und ermöglicht effizientes Training auf einer einzelnen GPU. * Leistung: LOGO erreicht mit vergleichsweise geringem Trainingsaufwand eine mit State-of-the-Art-Modellen vergleichbare Leistung in Long-Context-Aufgaben. * Erhaltung der Fähigkeiten: Die ursprünglichen Fähigkeiten des Modells in anderen Bereichen bleiben erhalten. * Erweiterbarkeit: Die Kontextfenstergröße kann erweitert werden, während gleichzeitig die Generierungsleistung verbessert wird.
LOGO stellt einen vielversprechenden Ansatz für das Alignment von LCMs dar. Die effiziente Trainingsstrategie und die beeindruckende Leistung in Long-Context-Aufgaben machen LOGO zu einer interessanten Alternative zu herkömmlichen Alignment-Methoden. Zukünftige Forschung könnte sich auf die weitere Optimierung der Methode und die Anwendung auf verschiedene Modellarchitekturen konzentrieren.
Bibliographie: Wallace, E., Dang, Y., & Song, Z. (2024). Diffusion Model Alignment Using Direct Preference Optimization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 15584-15593). Li, J., Huang, H., Zhang, Y., Xu, P., Chen, X., Song, R., ... & Xu, H. (2024). Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness. arXiv preprint arXiv:2409.17791. Cheng, P., Yang, Y., Li, J., Dai, Y., Hu, T., Cao, P., ... & Li, X. (2023). Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game. arXiv preprint arXiv:2311.08045. Ribeiro, N., Kaplan, J., Schärli, N., & Schuhmann, C. (2023). Preference Ranking Optimization for Human Alignment. arXiv preprint arXiv:2302.00856. Tang, Z., Sun, Z., Li, J., Zhu, Q., & Zhang, M. (2024). LOGO--Long cOntext aliGnment via efficient preference Optimization. arXiv preprint arXiv:2410.18533. Xu, J., Wu, C., Zhao, H., Zhang, D., Liu, Y., Xie, R., ... & Yan, Z. (2024). MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization. arXiv preprint arXiv:2409.17791.