Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung großer Sprachmodelle (LLMs) durch Reinforcement Learning (RL) hat sich als zentraler Pfeiler für die Verbesserung ihrer Denkfähigkeiten etabliert. Insbesondere das Reinforcement Learning mit verifizierten Belohnungen (RLVR) spielt hierbei eine Schlüsselrolle. Bestehende RLVR-Methoden, darunter die Group Relative Policy Optimization (GRPO) und ihre Derivate, streben stabile Updates an, indem sie die Policy-Divergenz durch Clipping von Likelihood-Ratios begrenzen. Eine aktuelle Forschungsarbeit stellt nun ein vereinheitlichtes Clipping-Framework vor, das diese Ansätze neu bewertet und eine präzisere Messung der Policy-Divergenz ermöglicht.
Die Feinabstimmung von LLMs mittels RL, insbesondere mit Algorithmen wie PPO (Proximal Policy Optimization), ist anfällig für Instabilitäten. Diese Instabilitäten können aus einem "Training-Inferenz-Mismatch" resultieren, bei dem die zur Gradientenberechnung verwendete Policy-Verteilung von der zur Datengenerierung genutzten abweicht. PPO, obwohl weit verbreitet, verwendet einen heuristischen Clipping-Mechanismus, der auf dem Wahrscheinlichkeitsverhältnis von gesampelten Token basiert. Dieser Ansatz erweist sich bei den großen Vokabularen von LLMs als strukturell ungeeignet.
Ein Kernproblem des PPO-Clippings liegt darin, dass es Updates für Token mit geringer Wahrscheinlichkeit übermäßig stark bestraft, während potenziell katastrophale Verschiebungen bei Token mit hoher Wahrscheinlichkeit oft unzureichend eingeschränkt werden. Dies führt zu einer suboptimalen Lerndynamik, bei der die Trainingseffizienz leidet und die Stabilität beeinträchtigt wird. Beispielsweise kann eine kleine Erhöhung der Wahrscheinlichkeit eines seltenen Tokens zu einem großen Wahrscheinlichkeitsverhältnis führen, das das Clipping auslöst, obwohl die tatsächliche Divergenz vernachlässigbar ist. Umgekehrt können große absolute Änderungen der Wahrscheinlichkeitsmasse bei hochwahrscheinlichen Token unbestraft bleiben, wenn das Verhältnis nahe eins liegt.
Die jüngste Forschung schlägt ein vereinheitlichtes Clipping-Framework vor, das bestehende Methoden durch einen allgemeinen Begriff der Policy-Divergenz charakterisiert. Dieses Framework umfasst sowohl Likelihood-Ratios als auch Kullback-Leibler (KL)-Divergenzen und ist erweiterbar auf alternative Maße. Es bietet eine prinzipielle Grundlage für die systematische Analyse, wie unterschiedliche Policy-Divergenzmaße die Exploration und Leistung beeinflussen.
Ein zentrales Ergebnis dieser Arbeit ist die Identifizierung des KL3-Schätzers als eine Schlüsselbeschränkung für die Policy-Divergenz. Der KL3-Schätzer ist ein varianzreduzierter Monte-Carlo-Schätzer der KL-Divergenz. Theoretische Analysen zeigen, dass eine auf KL3 basierende Beschränkung mathematisch äquivalent zu einem asymmetrischen, verhältnisbasierten Clipping ist. Dieser Mechanismus verteilt die Wahrscheinlichkeitsmasse zu Aktionen mit höherer Konfidenz um, was eine stärkere Exploration fördert, während die Einfachheit von GRPO-ähnlichen Methoden beibehalten wird.
Um die Einschränkungen des traditionellen Ratio-Clippings zu überwinden, wurde die Divergence Proximal Policy Optimization (DPPO) entwickelt. DPPO ersetzt die heuristische Clipping-Methode von PPO durch eine prinzipiellere Beschränkung, die auf der Trust-Region-Theorie basiert. Anstatt sich auf das verrauschte Single-Sample-Verhältnis zu verlassen, schätzt DPPO die Policy-Divergenz (z.B. TV- oder KL-Divergenz) direkt. Dies ermöglicht eine präzisere Unterscheidung zwischen sicheren und unsicheren Updates und löst die Probleme der Über- und Untereinschränkung, die dem Standard-PPO inhärent sind.
Für die praktische Anwendung bei LLMs, wo die direkte Berechnung der Divergenz aufgrund des großen Vokabulars speicherintensiv sein kann, wurden zwei leichtgewichtige Approximationen eingeführt: die binäre Approximation und die Top-K-Approximation. Die binäre Approximation kollabiert die ursprüngliche kategoriale Verteilung in eine Bernoulli-Verteilung, die nur zwischen dem gesampelten Token und allen anderen Token unterscheidet. Die Top-K-Approximation verfolgt explizit die wahrscheinlichsten Token. Beide Methoden dienen als prinzipielle untere Schranken für die wahre Divergenz und ermöglichen eine effiziente Berechnung mit vernachlässigbarem Overhead.
Empirische Evaluationen auf mathematischen Reasoning-Benchmarks zeigen, dass die Integration des KL3-Schätzers in GRPO sowohl die Trainingsstabilität als auch die Endleistung verbessert. Dies unterstreicht die Bedeutung von präzisen Policy-Divergenz-Beschränkungen in der Policy-Optimierung.
Die Forschung identifiziert mehrere kritische Erkenntnisse:
- Die Notwendigkeit einer Trust Region: Selbst bei sehr niedrigen Lernraten ist eine Trust Region unerlässlich für stabiles Training. Ohne sie akkumuliert sich der Training-Inferenz-Mismatch und führt zum Leistungsabfall. - Der richtige Anker für die Trust Region: Die Trust Region muss sich auf die ursprüngliche Behavior Policy beziehen. Die Verwendung einer neu berechneten On-Policy-Verteilung als Anker führt zu Instabilität. - Quellen der Instabilität: Die primäre Ursache für Instabilität ist eine kleine Untergruppe von Updates auf negativen Samples, die die Policy weit außerhalb der Trust Region verschieben. Dies deutet darauf hin, dass die aggressive Bestrafung eines Tokens, das das Modell als wahrscheinlich ansieht, das interne Wissen des LLM korrumpieren und den Lernprozess destabilisieren kann. - Fallstricke des Truncated Importance Sampling (TIS): TIS, das zur Kontrolle der Varianz von Policy-Gradienten-Schätzern eingesetzt wird, kann die Trainingsstabilität beeinträchtigen. Es neigt dazu, Gradientensignale von Token mit geringer Wahrscheinlichkeit, die für die Exploration wichtig sind, zu unterdrücken, was zu einem schädlichen Bias im Policy-Update führt.Die Ergebnisse dieser Forschung bieten wichtige Einblicke für die Entwicklung robusterer und effizienterer RL-Algorithmen zur Feinabstimmung von LLMs. Die DPPO-Methodik mit ihren Divergenz-basierten Beschränkungen und effizienten Approximationen stellt einen vielversprechenden Weg dar, um die Herausforderungen der Trainingsstabilität und -effizienz in der Ära der großen Sprachmodelle zu meistern. Die kontinuierliche Verbesserung der Policy-Divergenz-Maße ist entscheidend, um das volle Potenzial von LLMs in komplexen Reasoning-Aufgaben zu erschließen.
Die Forschung zeigt, dass ein tiefgreifendes Verständnis und eine präzise Steuerung der Policy-Divergenz nicht nur theoretisch fundiert, sondern auch praktisch umsetzbar sind, um die Leistung und Zuverlässigkeit von LLMs maßgeblich zu verbessern.
Bibliography: - Wu, Q., Wang, Y., Zhan, S. S., Dai, Y., Deng, S., Habchi, S., Zhu, Q., Gallé, M., & Huang, C. (2026). A Unified Framework for Rethinking Policy Divergence Measures in GRPO. arXiv preprint arXiv:2602.05494. - Hugging Face. (n.d.). Daily Papers. Retrieved from https://huggingface.co/papers - Zhang, K., Hong, Y., Bao, J., Jiang, H., Song, Y., Dingqian, H., & Xiong, H. (2025). GVPO: Group Variance Policy Optimization for Large Language Model Post-Training. NeurIPS 2025. - Qi, P., Zhou, X., Liu, Z., Pang, T., Du, C., Lin, M., & Lee, W. S. (2026). Rethinking the Trust Region in LLM Reinforcement Learning. arXiv preprint arXiv:2602.04879. - Fan, J., Wei, T., Cheng, C., Chen, Y., & Liu, G. (2025). Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models. NeurIPS 2025. - Xie, X., Wang, X., Wang, W., Chen, S., & Lin, W. (2025). DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization. arXiv preprint arXiv:2512.06337.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen