Fortschritte bei Large Language Models durch kaskadiertes Reinforcement Learning im Nemotron-Cascade-Ansatz

Kategorien:

No items found.

Freigegeben:

March 20, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Mindverse präsentiert eine detaillierte Analyse der "Nemotron-Cascade"-Forschung, die sich auf die Weiterentwicklung von Large Language Models (LLMs) durch kaskadiertes Reinforcement Learning (RL) konzentriert.
Das "Cascade RL"-Framework ermöglicht die sequenzielle, domänenspezifische Anwendung von Reinforcement Learning, was die Komplexität der Infrastruktur reduziert und eine verbesserte Leistung über verschiedene Anwendungsbereiche hinweg erzielt.
Ein zentraler Aspekt ist die Widerstandsfähigkeit gegen "katastrophales Vergessen", ein häufiges Problem beim sequenziellen Lernen, das durch die policy-abhängige Datengenerierung und die Optimierung kumulativer Belohnungen in RL gemindert wird.
Die Methode integriert Reinforcement Learning from Human Feedback (RLHF) als vorbereitenden Schritt, um die Argumentationsfähigkeit der Modelle über reine Präferenzoptimierung hinaus signifikant zu steigern.
"Nemotron-Cascade"-Modelle zeigen überlegene Leistungen in Benchmarks für mathematisches Denken, Programmierung, Software Engineering und der Befolgung von Anweisungen, selbst bei Modellen mit geringerer Parameteranzahl.
Die Forschung betont die Bedeutung einer sorgfältigen Datenkuratierung und der Anpassung von Trainingsstrategien, um optimale Ergebnisse in verschiedenen Domänen zu erzielen und die Modelle anpassungsfähiger zu gestalten.

Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch Fortschritte im Bereich der Large Language Models (LLMs) geprägt. Eine aktuelle Entwicklung, die besondere Aufmerksamkeit verdient, ist der Ansatz des kaskadierten Reinforcement Learning (RL) im Rahmen der "Nemotron-Cascade"-Modelle. Dieser Artikel beleuchtet die Kernaspekte dieser Methode, ihre Vorteile und die Implikationen für die Entwicklung leistungsfähiger und vielseitiger KI-Systeme.

Die Herausforderung der Domänenheterogenität bei LLMs

Die Entwicklung allgemeiner Reasoning-Modelle mittels Reinforcement Learning steht vor der Herausforderung einer erheblichen Domänenheterogenität. Diese äußert sich in variierenden Inferenz-Antwortlängen und unterschiedlichen Verifizierungszeiten. Mathematische Reasoning-Aufgaben können beispielsweise eine schnelle, regelbasierte Verifizierung nutzen, während die Code-Generierung auf eine langsame, ausführungsbasierte Verifizierung angewiesen ist. Diese Unterschiede erschweren nicht nur die RL-Infrastruktur und verlangsamen das Training, sondern machen auch die Gestaltung von Trainingslehrplänen und die Auswahl von Hyperparametern anspruchsvoll.

Bisherige Ansätze versuchen oft, diese Heterogenität durch das Mischen von Prompts aus verschiedenen Domänen für ein gemeinsames RL-Training zu bewältigen. Dies führt jedoch zu einer erhöhten Komplexität und suboptimalen Leistungen, insbesondere wenn es darum geht, Modelle zu entwickeln, die sowohl im "Denkmodus" (mit ausführlichen Reasoning-Schritten) als auch im "Instruktionsmodus" (mit sofortigen Antworten) effektiv arbeiten können.

Das "Cascade RL"-Framework: Eine sequenzielle Lösung

Das "Cascade RL"-Framework stellt einen alternativen Ansatz dar, der die sequentielle, domänenweise Anwendung von Reinforcement Learning vorsieht. Anstatt heterogene Prompts zu vermischen, werden die Modelle nacheinander in spezifischen Domänen trainiert. Dies beginnt mit allgemeineren Domänen und schreitet zu spezialisierteren voran.

Vorteile des "Cascade RL"-Ansatzes

Reduzierung der Engineering-Komplexität: Durch die sequentielle Verarbeitung von Domänen wird die Infrastruktur vereinfacht.
Verbesserte Leistung: Der Ansatz ermöglicht eine maßgeschneiderte Optimierung für jede Domäne, was zu überlegenen Ergebnissen in einer Vielzahl von Benchmarks führt.
Widerstandsfähigkeit gegen katastrophales Vergessen: Ein entscheidender Vorteil von "Cascade RL" ist seine Fähigkeit, "katastrophales Vergessen" zu mindern. Dieses Phänomen tritt auf, wenn Modelle beim Erlernen neuer Aufgaben zuvor erworbenes Wissen überschreiben. Im Kontext von "Cascade RL" wird dies durch mehrere Faktoren abgeschwächt:
- Policy-abhängige Datengenerierung: LLMs generieren ihre eigenen Trainingsdaten, was bedeutet, dass nützliche oder belohnungsintensive alte Verhaltensweisen kontinuierlich beprobt werden.
- Optimierung kumulativer Belohnungen: RL optimiert die erwartete kumulative Belohnung und nicht exakte Ziele für jede Eingabe, wodurch sich Updates auf langfristige Ergebnisse konzentrieren und belohnungsrelevantes altes Wissen erhalten bleibt.
- Überlappende Belohnungsstrukturen: Die Belohnungsstrukturen von RLHF (Reinforcement Learning from Human Feedback) und RLVR (Reinforcement Learning with Verifiable Rewards) überlappen sich in vielen Domänen, was dazu beiträgt, dass Verbesserungen (z.B. Reduzierung von Ausführlichkeit oder Halluzinationen) domänenübergreifend wirken.
- Minimierung von Prompt-Überlappungen: Durch die Minimierung von Prompt-Überlappungen zwischen den Domänen und die Organisation des domänenweisen RL von allgemeiner zu spezialisierter wird die Interferenz reduziert.

Die Rolle von Reinforcement Learning from Human Feedback (RLHF)

Im "Cascade RL"-Prozess wird RLHF als ein vorbereitender Schritt eingesetzt. Es hat sich gezeigt, dass RLHF die Argumentationsfähigkeit der Modelle erheblich steigert, weit über die reine Präferenzoptimierung hinaus. Es verbessert die Gesamtqualität der Antworten, reduziert die Ausführlichkeit und Wiederholungen und erhöht die Effizienz der Reasoning-Token, was wiederum die Trainingsstabilität in nachfolgenden RL-Phasen verbessert.

Strategien für vereinheitlichte Modelle

Für Modelle, die sowohl im Denk- als auch im Nicht-Denkmodus agieren können, ist die Trainingsstrategie für RLHF entscheidend. Experimente zeigen, dass ein Training im "Half-Half"-Modus (gleiche Aufteilung der Prompts auf Denk- und Nicht-Denkmodus) die beste Gesamtleistung erzielt. Dies deutet darauf hin, dass die Einbeziehung von Nicht-Denkmodus-Samples den Transfer zwischen den Modi und die Ausrichtung verbessert, was zu stärkeren allgemeinen Fähigkeiten in beiden Settings führt.

Einfluss der Größe des Reward-Modells

Die Größe des Reward-Modells spielt eine Rolle für die Leistung von RLHF. Größere Reward-Modelle führen zu einer stärkeren ArenaHard-Leistung und können die Genauigkeit in anderen Aufgaben, wie der Mathematik, verbessern. Kleinere Reward-Modelle sind anfälliger für "Reward Hacking", bei dem Modelle versuchen, die Belohnung durch stilistische Anpassungen (z.B. längere Antworten) zu maximieren, anstatt die inhaltliche Qualität zu verbessern.

Multi-Domain On-Policy Distillation

Ein weiterer wichtiger technischer Fortschritt in "Nemotron-Cascade 2" ist die Einführung von Multi-Domain On-Policy Distillation. Diese Methode ermöglicht es, die Modelle aus den stärksten intermediären Lehrermodellen für jede Domäne während des "Cascade RL"-Prozesses zu destillieren. Dies trägt dazu bei, Rückschritte bei Benchmarks effizient zu kompensieren und kontinuierliche Leistungssteigerungen aufrechtzuerhalten.

Leistung und Ergebnisse

Die "Nemotron-Cascade"-Modelle, insbesondere die 8B- und 14B-Varianten, zeigen überzeugende Ergebnisse in einer Reihe von Benchmarks:

LiveCodeBench: Die 14B-Thinking-Modelle übertreffen den SFT-Lehrer DeepSeek-R1-0528 in allen Splits von LiveCodeBench und LiveCodeBench Pro deutlich.
Internationale Informatik-Olympiade (IOI): Das 14B-Thinking-Modell erreicht eine Silbermedaille bei der IOI 2025. Das 30B MoE-Modell "Nemotron-Cascade 2" erreicht sogar Goldmedaillen-Niveau bei der IOI, IMO und den ICPC World Finals.
SWE-bench Verified: Auch in anspruchsvollen Software-Engineering-Aufgaben, wie der Behebung realer GitHub-Probleme, zeigen die Modelle eine hohe Lösungsrate.
Widerstandsfähigkeit: Die sequentielle Natur von "Cascade RL" sorgt dafür, dass die Leistung in zuvor gelernten Domänen nicht beeinträchtigt wird, wenn neue Domänen hinzukommen.

Praktische Implikationen und Ausblick

Die "Nemotron-Cascade"-Modelle bieten die Möglichkeit, einheitliche Reasoning-Modelle zu entwickeln, die effektiv in Denk- und Nicht-Denkmodi betrieben werden können. Dies vereinfacht die Modellbereitstellung und -produktion erheblich und rückt das Ziel einer künstlichen allgemeinen Intelligenz näher, die verschiedene Fähigkeiten in einem einzigen Modell vereint.

Die Transparenz bei der Veröffentlichung von Trainings- und Datenrezepten fördert zudem den Wissensaustausch innerhalb der Gemeinschaft und ermöglicht eine breitere Anwendung und Weiterentwicklung dieser Methoden. Für Mindverse, als KI-Partner, sind solche fortschrittlichen Ansätze von großer Bedeutung, um unseren Kunden stets die leistungsfähigsten und zuverlässigsten KI-Lösungen anbieten zu können.

Die Forschung zeigt, dass durch eine sorgfältige Gestaltung des RL-Trainingsprozesses und die Nutzung von Multi-Domain On-Policy Distillation auch kompakte Modelle eine außergewöhnliche Reasoning- und agentische Leistungsfähigkeit erreichen können, die der von Frontier-Modellen entspricht. Dies unterstreicht das Potenzial der "Nemotron-Cascade"-Architektur, hochintelligente und effiziente KI-Systeme zu realisieren.

Bibliographie

Wang, B., Lee, C., Lee, N., Lin, S.-C., Dai, W., Chen, Y., Chen, Y., Yang, Z., Liu, Z., Shoeybi, M., Catanzaro, B., & Ping, W. (2025). Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models. arXiv preprint arXiv:2512.13607.
Yang, Z., Liu, Z., Chen, Y., Dai, W., Wang, B., Lin, S.-C., Lee, C., Chen, Y., Jiang, D., He, J., Pi, R., Lam, G., Lee, N., Bukharin, A., Shoeybi, M., Catanzaro, B., & Ping, W. (2026). Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation. arXiv preprint arXiv:2603.19220.
OpenAI. (2024a). Learning to reason with LLMs.
Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., et al. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948.
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS, 35.
Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., Zhang, H., Zhang, M., Li, Y. K., Wu, Y., et al. (2024). DeepseekMath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300.
Chen, Y., Yang, Z., Liu, Z., Lee, C., Xu, P., Shoeybi, M., Catanzaro, B., & Ping, W. (2025b). Acereason-nemotron: Advancing math and code reasoning through reinforcement learning. Advances in neural information processing systems.
Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., & Narasimhan, K. (2023). Swe-bench: Can language models resolve real-world github issues? arXiv preprint arXiv:2310.06770.