In der sich rasant entwickelnden Welt der künstlichen Intelligenz (KI) ist die kontinuierliche Verbesserung großer Sprachmodelle (LLMs) von entscheidender Bedeutung. Nvidia, ein Unternehmen, das vor allem für seine Grafikprozessoren (GPUs) bekannt ist, die KI-Systeme antreiben, hat einen neuen Ansatz zur Feinabstimmung von LLMs vorgestellt, der bemerkenswerte Ergebnisse liefert. In Zusammenarbeit mit Meta, dem Unternehmen hinter dem Open-Source-LLM Llama, hat Nvidia eine Variante entwickelt, die in Benchmarks zur Bewertung der Nützlichkeit von KI-Antworten die Spitzenposition einnimmt.
Der neue Ansatz konzentriert sich darauf, die Fähigkeit von LLMs zu verbessern, hilfreiche und auf die Bedürfnisse der Nutzer zugeschnittene Antworten zu generieren. Anstatt sich ausschließlich auf die Steigerung der Genauigkeit zu konzentrieren, zielt Nvidias Ansatz darauf ab, Antworten zu liefern, die besser auf menschliche Präferenzen abgestimmt sind.
Zu diesem Zweck hat Nvidia zwei neue Datensätze mit dem Namen "HelpSteer2" und "HelpSteer2-Preference" erstellt. HelpSteer2 besteht aus über 20.000 Prompt-Antwort-Paaren, die von mehreren Bewertern anhand von Kriterien wie Hilfsbereitschaft, Korrektheit und Kohärenz auf einer Skala von 1 bis 5 bewertet wurden. HelpSteer2-Preference erweitert diesen Ansatz um Vergleiche zwischen zwei Antworten auf denselben Prompt, wobei die Bewerter angeben, welche Antwort sie bevorzugen und wie stark ihre Präferenz ist.
Diese Datensätze dienten als Grundlage für das Training von zwei Arten von Belohnungsmodellen: Regressionsmodelle und Bradley-Terry-Modelle. Regressionsmodelle, wie das von Nvidia verwendete SteerLM, lernen, einzelnen Antworten Werte für verschiedene Kriterien zuzuordnen. Bradley-Terry-Modelle hingegen lernen aus Präferenzvergleichen, um den Belohnungsunterschied zwischen zwei Antworten zu maximieren.
Nvidias Forschung ergab, dass die Kombination beider Ansätze zu den besten Ergebnissen führte. Zunächst trainierten sie ein SteerLM-Regressionsmodell ausschließlich anhand von Hilfsbereitschaftsbewertungen. Dieses Modell diente dann als Ausgangspunkt für ein skaliertes Bradley-Terry-Modell, das auch die Stärke der Präferenzen zwischen den Antworten berücksichtigte.
Um das Sprachmodell auf die gelernten Belohnungen abzustimmen, nutzte Nvidia den REINFORCE-Algorithmus. Im Gegensatz zur häufig verwendeten PPO-Methode (Proximal Policy Optimization) zeichnet sich REINFORCE laut Nvidia durch eine stabilere und unverzerrte Schätzung des Werts einer Aktion aus.
Das Ergebnis dieser Bemühungen ist das Llama-3.1-Nemotron-70B-Instruct-Modell, das in mehreren Benchmarks die Spitzenposition erreicht hat, darunter Arena Hard, AlpacaEval 2 LC und GPT-4-Turbo MT-Bench. Es übertraf dabei Top-Modelle wie GPT-4 und Claude 3.5 Sonnet. In Arena Hard erzielte es eine Punktzahl von 85,0 und lag damit deutlich vor dem Ausgangsmodell Llama-3.1-70B-Instruct mit 55,7 Punkten.
Die Verbesserungen durch Nvidias Ansatz sind in verschiedenen Anwendungen sichtbar. Beispielsweise kann das optimierte Modell die Frage "Wie viele r sind in Erdbeere?" korrekt beantworten, indem es die Buchstaben einzeln durchgeht und die "r" zählt. Dies mag trivial erscheinen, doch das ursprüngliche Modell und kommerzielle Konkurrenten scheiterten oft an dieser Aufgabe.
Obwohl das Llama-3.1-Nemotron-70B-Instruct-Modell noch nicht für spezialisierte Bereiche wie Mathematik optimiert wurde, unterstreicht es Nvidias Engagement für die Weiterentwicklung von KI-Technologien. Durch die Priorisierung von Nutzerfreundlichkeit und die Kombination innovativer Trainingsmethoden ebnet Nvidia den Weg für leistungsfähigere und hilfreichere KI-Systeme der Zukunft.