Nvidias neuer Trainingsansatz verbessert Metas Llama-Modell für leistungsfähigere KI-Antworten

Kategorien:

No items found.

Freigegeben:

October 18, 2024

kostenlos testen KI für Unternehmen Termin buchen

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

Nvidias KI-Innovation: Meta's Llama-Modell durch neuen Trainingsansatz verbessert

In der sich rasant entwickelnden Welt der künstlichen Intelligenz (KI) ist die kontinuierliche Verbesserung großer Sprachmodelle (LLMs) von entscheidender Bedeutung. Nvidia, ein Unternehmen, das vor allem für seine Grafikprozessoren (GPUs) bekannt ist, die KI-Systeme antreiben, hat einen neuen Ansatz zur Feinabstimmung von LLMs vorgestellt, der bemerkenswerte Ergebnisse liefert. In Zusammenarbeit mit Meta, dem Unternehmen hinter dem Open-Source-LLM Llama, hat Nvidia eine Variante entwickelt, die in Benchmarks zur Bewertung der Nützlichkeit von KI-Antworten die Spitzenposition einnimmt.

Optimierung auf Nutzerfreundlichkeit

Der neue Ansatz konzentriert sich darauf, die Fähigkeit von LLMs zu verbessern, hilfreiche und auf die Bedürfnisse der Nutzer zugeschnittene Antworten zu generieren. Anstatt sich ausschließlich auf die Steigerung der Genauigkeit zu konzentrieren, zielt Nvidias Ansatz darauf ab, Antworten zu liefern, die besser auf menschliche Präferenzen abgestimmt sind.

Zu diesem Zweck hat Nvidia zwei neue Datensätze mit dem Namen "HelpSteer2" und "HelpSteer2-Preference" erstellt. HelpSteer2 besteht aus über 20.000 Prompt-Antwort-Paaren, die von mehreren Bewertern anhand von Kriterien wie Hilfsbereitschaft, Korrektheit und Kohärenz auf einer Skala von 1 bis 5 bewertet wurden. HelpSteer2-Preference erweitert diesen Ansatz um Vergleiche zwischen zwei Antworten auf denselben Prompt, wobei die Bewerter angeben, welche Antwort sie bevorzugen und wie stark ihre Präferenz ist.

Kombination von Bewertungs- und Präferenzmodellen

Diese Datensätze dienten als Grundlage für das Training von zwei Arten von Belohnungsmodellen: Regressionsmodelle und Bradley-Terry-Modelle. Regressionsmodelle, wie das von Nvidia verwendete SteerLM, lernen, einzelnen Antworten Werte für verschiedene Kriterien zuzuordnen. Bradley-Terry-Modelle hingegen lernen aus Präferenzvergleichen, um den Belohnungsunterschied zwischen zwei Antworten zu maximieren.

Nvidias Forschung ergab, dass die Kombination beider Ansätze zu den besten Ergebnissen führte. Zunächst trainierten sie ein SteerLM-Regressionsmodell ausschließlich anhand von Hilfsbereitschaftsbewertungen. Dieses Modell diente dann als Ausgangspunkt für ein skaliertes Bradley-Terry-Modell, das auch die Stärke der Präferenzen zwischen den Antworten berücksichtigte.

Feinabstimmung mit REINFORCE

Um das Sprachmodell auf die gelernten Belohnungen abzustimmen, nutzte Nvidia den REINFORCE-Algorithmus. Im Gegensatz zur häufig verwendeten PPO-Methode (Proximal Policy Optimization) zeichnet sich REINFORCE laut Nvidia durch eine stabilere und unverzerrte Schätzung des Werts einer Aktion aus.

Bemerkenswerte Ergebnisse in Benchmarks

Das Ergebnis dieser Bemühungen ist das Llama-3.1-Nemotron-70B-Instruct-Modell, das in mehreren Benchmarks die Spitzenposition erreicht hat, darunter Arena Hard, AlpacaEval 2 LC und GPT-4-Turbo MT-Bench. Es übertraf dabei Top-Modelle wie GPT-4 und Claude 3.5 Sonnet. In Arena Hard erzielte es eine Punktzahl von 85,0 und lag damit deutlich vor dem Ausgangsmodell Llama-3.1-70B-Instruct mit 55,7 Punkten.

Praktische Auswirkungen und zukünftige Entwicklungen

Die Verbesserungen durch Nvidias Ansatz sind in verschiedenen Anwendungen sichtbar. Beispielsweise kann das optimierte Modell die Frage "Wie viele r sind in Erdbeere?" korrekt beantworten, indem es die Buchstaben einzeln durchgeht und die "r" zählt. Dies mag trivial erscheinen, doch das ursprüngliche Modell und kommerzielle Konkurrenten scheiterten oft an dieser Aufgabe.

Obwohl das Llama-3.1-Nemotron-70B-Instruct-Modell noch nicht für spezialisierte Bereiche wie Mathematik optimiert wurde, unterstreicht es Nvidias Engagement für die Weiterentwicklung von KI-Technologien. Durch die Priorisierung von Nutzerfreundlichkeit und die Kombination innovativer Trainingsmethoden ebnet Nvidia den Weg für leistungsfähigere und hilfreichere KI-Systeme der Zukunft.

Bibliographie

Meta LLaMA 3 Paper: https://ai.meta.com/blog/meta-llama-3/
Nvidia Nemotron 51B Blog: https://developer.nvidia.com/blog/advancing-the-accuracy-efficiency-frontier-with-llama-3-1-nemotron-51b/
Bind AI Blog: https://blog.getbind.co/2024/10/17/llama-3-1-nemotron-70b-is-it-better-for-coding-compared-to-gpt-4o-and-claude-3-5-sonnet/
VentureBeat Article: https://venturebeat.com/ai/nvidia-just-dropped-a-new-ai-model-that-crushes-openais-gpt-4-no-big-launch-just-big-results/
Nvidia Llama 3.2 Blog: https://developer.nvidia.com/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/
Accenture Newsroom: https://newsroom.accenture.com/news/2024/accenture-pioneers-custom-llama-llm-models-with-nvidia-ai-foundry
Reddit Discussion: https://www.reddit.com/r/LocalLLaMA/comments/1esadlh/nvidia_research_team_has_developed_a_method_to/
Hyperstack Blog: https://www.hyperstack.cloud/blog/thought-leadership/llama-3.1-what-you-need-to-know-about-metas-most-advanced-ai-models
CNBC Article: https://www.cnbc.com/2024/07/23/meta-debuts-newest-llama-ai-model-with-help-from-nvidia-and-others.html

Mindverse vs ChatGPT Plus Widget

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

✓

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen

✓

Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning

✓

Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)

✓

Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.