KI für Ihr Unternehmen – Jetzt Demo buchen

Nvidias neuer Trainingsansatz verbessert Metas Llama-Modell für leistungsfähigere KI-Antworten

Kategorien:
No items found.
Freigegeben:
October 18, 2024

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

    Nvidias KI-Innovation: Meta's Llama-Modell durch neuen Trainingsansatz verbessert

    In der sich rasant entwickelnden Welt der künstlichen Intelligenz (KI) ist die kontinuierliche Verbesserung großer Sprachmodelle (LLMs) von entscheidender Bedeutung. Nvidia, ein Unternehmen, das vor allem für seine Grafikprozessoren (GPUs) bekannt ist, die KI-Systeme antreiben, hat einen neuen Ansatz zur Feinabstimmung von LLMs vorgestellt, der bemerkenswerte Ergebnisse liefert. In Zusammenarbeit mit Meta, dem Unternehmen hinter dem Open-Source-LLM Llama, hat Nvidia eine Variante entwickelt, die in Benchmarks zur Bewertung der Nützlichkeit von KI-Antworten die Spitzenposition einnimmt.

    Optimierung auf Nutzerfreundlichkeit

    Der neue Ansatz konzentriert sich darauf, die Fähigkeit von LLMs zu verbessern, hilfreiche und auf die Bedürfnisse der Nutzer zugeschnittene Antworten zu generieren. Anstatt sich ausschließlich auf die Steigerung der Genauigkeit zu konzentrieren, zielt Nvidias Ansatz darauf ab, Antworten zu liefern, die besser auf menschliche Präferenzen abgestimmt sind.

    Zu diesem Zweck hat Nvidia zwei neue Datensätze mit dem Namen "HelpSteer2" und "HelpSteer2-Preference" erstellt. HelpSteer2 besteht aus über 20.000 Prompt-Antwort-Paaren, die von mehreren Bewertern anhand von Kriterien wie Hilfsbereitschaft, Korrektheit und Kohärenz auf einer Skala von 1 bis 5 bewertet wurden. HelpSteer2-Preference erweitert diesen Ansatz um Vergleiche zwischen zwei Antworten auf denselben Prompt, wobei die Bewerter angeben, welche Antwort sie bevorzugen und wie stark ihre Präferenz ist.

    Kombination von Bewertungs- und Präferenzmodellen

    Diese Datensätze dienten als Grundlage für das Training von zwei Arten von Belohnungsmodellen: Regressionsmodelle und Bradley-Terry-Modelle. Regressionsmodelle, wie das von Nvidia verwendete SteerLM, lernen, einzelnen Antworten Werte für verschiedene Kriterien zuzuordnen. Bradley-Terry-Modelle hingegen lernen aus Präferenzvergleichen, um den Belohnungsunterschied zwischen zwei Antworten zu maximieren.

    Nvidias Forschung ergab, dass die Kombination beider Ansätze zu den besten Ergebnissen führte. Zunächst trainierten sie ein SteerLM-Regressionsmodell ausschließlich anhand von Hilfsbereitschaftsbewertungen. Dieses Modell diente dann als Ausgangspunkt für ein skaliertes Bradley-Terry-Modell, das auch die Stärke der Präferenzen zwischen den Antworten berücksichtigte.

    Feinabstimmung mit REINFORCE

    Um das Sprachmodell auf die gelernten Belohnungen abzustimmen, nutzte Nvidia den REINFORCE-Algorithmus. Im Gegensatz zur häufig verwendeten PPO-Methode (Proximal Policy Optimization) zeichnet sich REINFORCE laut Nvidia durch eine stabilere und unverzerrte Schätzung des Werts einer Aktion aus.

    Bemerkenswerte Ergebnisse in Benchmarks

    Das Ergebnis dieser Bemühungen ist das Llama-3.1-Nemotron-70B-Instruct-Modell, das in mehreren Benchmarks die Spitzenposition erreicht hat, darunter Arena Hard, AlpacaEval 2 LC und GPT-4-Turbo MT-Bench. Es übertraf dabei Top-Modelle wie GPT-4 und Claude 3.5 Sonnet. In Arena Hard erzielte es eine Punktzahl von 85,0 und lag damit deutlich vor dem Ausgangsmodell Llama-3.1-70B-Instruct mit 55,7 Punkten.

    Praktische Auswirkungen und zukünftige Entwicklungen

    Die Verbesserungen durch Nvidias Ansatz sind in verschiedenen Anwendungen sichtbar. Beispielsweise kann das optimierte Modell die Frage "Wie viele r sind in Erdbeere?" korrekt beantworten, indem es die Buchstaben einzeln durchgeht und die "r" zählt. Dies mag trivial erscheinen, doch das ursprüngliche Modell und kommerzielle Konkurrenten scheiterten oft an dieser Aufgabe.

    Obwohl das Llama-3.1-Nemotron-70B-Instruct-Modell noch nicht für spezialisierte Bereiche wie Mathematik optimiert wurde, unterstreicht es Nvidias Engagement für die Weiterentwicklung von KI-Technologien. Durch die Priorisierung von Nutzerfreundlichkeit und die Kombination innovativer Trainingsmethoden ebnet Nvidia den Weg für leistungsfähigere und hilfreichere KI-Systeme der Zukunft.

    Bibliographie

    Meta LLaMA 3 Paper: https://ai.meta.com/blog/meta-llama-3/
    Nvidia Nemotron 51B Blog: https://developer.nvidia.com/blog/advancing-the-accuracy-efficiency-frontier-with-llama-3-1-nemotron-51b/
    Bind AI Blog: https://blog.getbind.co/2024/10/17/llama-3-1-nemotron-70b-is-it-better-for-coding-compared-to-gpt-4o-and-claude-3-5-sonnet/
    VentureBeat Article: https://venturebeat.com/ai/nvidia-just-dropped-a-new-ai-model-that-crushes-openais-gpt-4-no-big-launch-just-big-results/
    Nvidia Llama 3.2 Blog: https://developer.nvidia.com/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/
    Accenture Newsroom: https://newsroom.accenture.com/news/2024/accenture-pioneers-custom-llama-llm-models-with-nvidia-ai-foundry
    Reddit Discussion: https://www.reddit.com/r/LocalLLaMA/comments/1esadlh/nvidia_research_team_has_developed_a_method_to/
    Hyperstack Blog: https://www.hyperstack.cloud/blog/thought-leadership/llama-3.1-what-you-need-to-know-about-metas-most-advanced-ai-models
    CNBC Article: https://www.cnbc.com/2024/07/23/meta-debuts-newest-llama-ai-model-with-help-from-nvidia-and-others.html
    Mindverse vs ChatGPT Plus Widget

    Warum Mindverse Studio?

    Entdecken Sie die Vorteile gegenüber ChatGPT Plus

    Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

    🚀 Mindverse Studio

    Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

    ChatGPT Plus

    ❌ Kein strukturierter Dokumentenvergleich

    ❌ Keine Bearbeitung im Dokumentkontext

    ❌ Keine Integration von Unternehmenswissen

    VS

    Mindverse Studio

    ✅ Gezielter Dokumentenvergleich mit Custom-Prompts

    ✅ Kontextbewusste Textbearbeitung im Editor

    ✅ Wissensbasierte Analyse & Zusammenfassungen

    📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

    Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

    ChatGPT Plus

    ❌ Nur ein Modellanbieter (OpenAI)

    ❌ Keine Modellauswahl pro Use Case

    ❌ Keine zentrale Modellsteuerung für Teams

    VS

    Mindverse Studio

    ✅ Zugriff auf über 50 verschiedene KI-Modelle

    ✅ Modellauswahl pro Prompt oder Assistent

    ✅ Zentrale Steuerung auf Organisationsebene

    🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

    OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
    Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
    Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
    Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

    ChatGPT Plus

    ❌ Keine echte Teamkollaboration

    ❌ Keine Rechte- oder Rollenverteilung

    ❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

    VS

    Mindverse Studio

    ✅ Teamübergreifende Bearbeitung in Echtzeit

    ✅ Granulare Rechte- und Freigabeverwaltung

    ✅ Zentrale Steuerung & Transparenz auf Organisationsebene

    👥 Kollaborative KI für Ihr gesamtes Unternehmen

    Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

    Bereit für den nächsten Schritt?

    Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

    🎯 Kostenlose Demo buchen

    Wie können wir Ihnen heute helfen?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen