Kontinuierliches Pretraining: Neue Möglichkeiten für klinische Anwendungen von LLMs
Einleitung
Die Einführung großer Sprachmodelle (Large Language Models, LLMs) hat eine Welle der Innovation in verschiedenen Bereichen ausgelöst, wobei der Gesundheitssektor ein besonders vielversprechendes Anwendungsgebiet darstellt. LLMs haben das Potenzial, klinische Arbeitsabläufe zu transformieren, bei der Diagnose zu helfen und die Patientenversorgung zu verbessern. Die effektive Anpassung dieser Modelle an die Nuancen und Komplexitäten des klinischen Bereichs bleibt jedoch eine bedeutende Herausforderung.
Aktuelle Ansätze in der Literatur konzentrieren sich hauptsächlich darauf, entweder spezialisierte klinische LLMs von Grund auf zu entwickeln oder bestehende Modelle auf großen klinischen Datensätzen zu fine-tunen. Während diese Methoden vielversprechend sind, übersehen sie oft die potenziellen Vorteile eines kontinuierlichen Pretrainings auf domainspezifischen Daten, um die Modellleistung weiter zu verbessern. Dies liegt teilweise an den Komplexitäten und potenziellen Instabilitäten, die mit der fortgesetzten Ausbildung großer Modelle verbunden sind.
In dieser Studie verfolgen wir einen umfassenden Ansatz zur Optimierung klinischer LLMs, indem wir systematisch die Auswirkungen des kontinuierlichen Pretrainings auf in-domain Daten in Verbindung mit Instruct-Fine-Tuning und fortgeschrittenen Prompting-Strategien untersuchen. Wir konzentrieren uns auf die Modelle Mistral-7B und Mixtral-8x7B und zeigen, dass kontinuierliches Pretraining, obwohl es im Vergleich zum Fine-Tuning und Prompting nur bescheidene Gewinne bringt, eine entscheidende Rolle bei der Etablierung einer soliden Grundlage für eine weitere Spezialisierung spielt. Durch eine sorgfältige Balance zwischen in-domain klinischen Daten und allgemeinen Sprachdaten gelingt es uns, Instabilitätsprobleme zu mindern und das volle Potenzial des kontinuierlichen Pretrainings für klinische LLMs freizusetzen.
Unsere Arbeit hebt die Bedeutung des Verständnisses der Beziehung zwischen Pretraining, Fine-Tuning und Prompting bei der Anpassung von LLMs für klinische Anwendungen hervor. Durch die Demonstration der Effektivität des kontinuierlichen Pretrainings auf domainspezifischen Daten öffnen wir Türen für zukünftige Forschungen, um diese untergenutzte Technik weiter zu erforschen und genauere, zuverlässigere und letztendlich wirkungsvollere klinische LLMs zu entwickeln.
Verwandte Arbeiten
Die Landschaft der großen Sprachmodelle (LLMs) für das Gesundheitswesen entwickelt sich rasch, wobei die meisten Ansätze entweder das domainspezifische Pretraining oder das Instruct-Fine-Tuning von allgemeinen Modellen umfassen. OpenAI’s GPT-3.5 und GPT-4, zusammen mit Googles Med-PaLM und Med-PaLM 2, haben beeindruckende Leistungen auf medizinischen Benchmarks gezeigt, trotz begrenzter Transparenz hinsichtlich ihrer Trainingsdetails. Andere Modelle wie GatorTron und PMC-LLaMA haben das Potenzial des Pretrainings auf umfangreichen biomedizinischen Korpora gezeigt, um domainspezifisches Wissen für klinische Anwendungen hinzuzufügen.
Instruct-Fine-Tuning und Dialog-Datensätze haben ebenfalls eine wichtige Rolle bei der Verbesserung der Zero-Shot- und Few-Shot-Generalisierungsfähigkeiten von LLMs gespielt. Modelle wie ChatDoctor und MedAlpaca nutzen medizinische Gespräche und andere NLP-Aufgaben, um die Leistung von LLaMA bei klinischen Anfragen zu verbessern. Jüngste Modelle wie Clinical Camel, MediTron, HuatuoGPT-2 und Med42, die auf LLaMA-2 basieren, zeigen ebenfalls die Wirksamkeit dieses Ansatzes.
Aufbauend auf der Beobachtung, dass Modelle allein durch Prompting lernen können, hat die jüngste Forschung Techniken untersucht, um die klinischen Fähigkeiten ohne zusätzliches Training zu verbessern. Diese Methoden erweitern oft die bekannte Chain-of-Thought-Prompting-Technik, ursprünglich von Wei et al. eingeführt, um besser zu klinischen Anwendungsfällen zu passen. Microsofts MedPrompt zeigt signifikante Verbesserungen der GPT-4-Leistung bei klinischen QA-Aufgaben, während ähnliche Strategien auf die Yi-Familie von Modellen angewendet werden. Google hat ebenfalls das Potenzial komplexer Prompting-Techniken gezeigt, um die klinischen Fähigkeiten ihres Gemini-Modells zu verbessern. Allerdings bleibt abzuwarten, wie praktikabel und skalierbar solche komplexen Prompting-Techniken in realen klinischen Anwendungen sind.
Jüngste Studien wie LIMA, FineWeb und Phi haben die entscheidende Rolle der Datenqualität beim Training von LLMs hervorgehoben und betont, dass diese oft einflussreicher sein kann als architektonische Entscheidungen bei der Bestimmung der Modellleistung. Hochwertige Daten haben sich als signifikant erwiesen, um die Fähigkeit des Modells zu verbessern, sinnvolle Repräsentationen zu lernen und auf neue Aufgaben zu generalisieren. Dies zeigt die Bedeutung unseres Ansatzes zur Datenaufbereitung, um sicherzustellen, dass unsere Modelle auf einer robusten und repräsentativen Sammlung klinischer Daten trainiert werden.
Experimente
In diesem Abschnitt präsentieren wir die vier Schritte unseres experimentellen Rahmens: (1) Kontinuierliches Pretraining, (2) Instruct-Fine-Tuning, (3) NEFTune und (4) Komplexes Prompt Engineering.
Kontinuierliches Pretraining
Kontinuierliches Pretraining umfasst die Verlängerung der Pretraining-Phase eines großen Sprachmodells (LLM), indem es zusätzlichen Textdaten ausgesetzt wird. Dies kann insbesondere in domainspezifischen Anwendungen wie dem Gesundheitswesen von Vorteil sein, wo Modelle weiter auf große Mengen klinischer Literatur trainiert werden können. Das Ziel ist es, das Verständnis des Modells für domainspezifische Terminologie, Beziehungen und Nuancen zu verfeinern, was potenziell zu einer verbesserten Leistung bei relevanten Aufgaben führt. In unseren Experimenten untersuchen wir die Auswirkungen des kontinuierlichen Pretrainings auf die Modelle Mistral 7B und Mixtral 8x7B unter Verwendung eines 50 Milliarden Token umfassenden klinischen Datensatzes.
Das kontinuierliche Pretraining großer Sprachmodelle ist jedoch nicht ohne Herausforderungen. Typischerweise sind nur die Gewichte des LLM offen zugänglich, während der Optimiererzustand unzugänglich bleibt. Dieser Mangel an Zugang kann den Trainingsprozess stören, zu Instabilitäten führen und die Fähigkeit des Modells behindern, effektiv aus den neuen Daten zu lernen. Darüber hinaus kann die potenzielle Verteilungverschiebung zwischen den ursprünglichen Pretraining-Daten und den neuen klinischen Daten zu katastrophalem Vergessen führen, bei dem das Modell die Beherrschung zuvor gelernter Kenntnisse und Aufgaben verliert.
Aufbauend auf der Arbeit von Gupta et al. implementieren wir eine Lernraten-Warm-up-Strategie, bei der die Lernrate über 1 % der Gesamttrainingsschritte schrittweise erhöht wird. Genauer gesagt verwenden wir ein lineares Warm-up, beginnend bei 1/10 unserer maximalen Lernrate und steigern diese allmählich auf den vollen Wert. Dieser allmähliche Anstieg stabilisiert den Trainingsprozess und verhindert drastische Aktualisierungen der Modellgewichte zu Beginn. Zweitens adressieren wir die potenzielle Verteilungverschiebung, indem wir unsere spezialisierten klinischen Daten mit allgemeinen Sprachdaten aus SlimPajama mischen. Diese kuratierte Mischung ergibt einen Datensatz von 65 Milliarden Token, bestehend aus 50 Milliarden Token spezialisierter klinischer Daten und 15 Milliarden Token allgemeiner Sprachdaten. Wir führen dann ein kontinuierliches Pretraining auf diesem Datensatz für insgesamt 4 Epochen durch, verarbeiten 260 Milliarden Token und ermöglichen dem Modell, domainspezifisches Wissen zu erwerben, während es seine Fähigkeiten im allgemeinen Sprachverständnis beibehält. In Abbildung 1 illustrieren wir die Trainingsverlustkurven über die allgemeinen und klinischen Datensätze. Wie dargestellt, mindert unsere Warm-up-Strategie und Datenmischung effektiv Instabilitäten und zeigt eine glatte Konvergenz und einen stetigen Rückgang des Verlusts während des gesamten Trainingsprozesses. Dieser Ansatz stellt sicher, dass die Gesamtfähigkeiten des Modells robust bleiben und das spezialisierte klinische Wissen erworben wird.
Schlussfolgerung und Diskussion
Unsere Untersuchung zeigt, dass kontinuierliches Pretraining eine wertvolle Technik zur Verbesserung der Leistung großer Sprachmodelle in klinischen Anwendungen darstellt. Während die erzielten Verbesserungen im Vergleich zu Fine-Tuning und Prompting bescheiden sind, spielt kontinuierliches Pretraining eine entscheidende Rolle bei der Etablierung einer soliden Basis für die weitere Spezialisierung. Die sorgfältige Mischung von in-domain klinischen Daten mit allgemeinen Sprachdaten ermöglicht es, Instabilitätsprobleme zu mindern und das volle Potenzial des kontinuierlichen Pretrainings freizusetzen.
Die Ergebnisse unserer Studie unterstreichen die Bedeutung der Kombination verschiedener Techniken, um die Leistung von LLMs in klinischen Anwendungen zu optimieren. Weitere Forschungen sind erforderlich, um das volle Potenzial des kontinuierlichen Pretrainings weiter zu erkunden und zu nutzen, um genauere, zuverlässigere und letztendlich wirkungsvollere klinische LLMs zu entwickeln.
Bibliographie:
- https://arxiv.org/abs/2409.14988
- https://arxiv.org/html/2409.14988v1
- https://openreview.net/pdf/bb467aaca99ffcd6a4770f20474612af0d154ad4.pdf
- https://medium.com/@adnaan525/fine-tuning-unleashing-the-potential-of-large-language-models-27c8012d3d69
- https://www.tasq.ai/newest/unleashing-the-power-of-llm-fine-tuning/
- https://medium.com/@Ratnaparkhi/evolution-of-nlp-unleashing-the-potential-of-large-language-models-and-prompts-fee7ba02f72b
- https://github.com/Wang-ML-Lab/llm-continual-learning-survey
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC11187169/
- https://www.linkedin.com/posts/adri%C3%A1n-quilis_beyond-the-hype-real-world-lessons-and-insights-activity-7216861588362784769-CoKv