Neue Ansätze zur Verbesserung des Alignments von Large Language Models durch divergierende Reinforcement Learning Algorithmen

Kategorien:

No items found.

Freigegeben:

February 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Aktuelle Forschung erweitert das Verständnis von Präferenz-Alignment (PA) in Large Language Models (LLMs) hin zu einer allgemeineren Divergenz-basierten Perspektive.
Es werden zwei neue Algorithmen vorgestellt: f-Group Relative Policy Optimization (f-GRPO) für On-Policy-Lernaufgaben mit verifizierbaren Belohnungen (RLVR) und f-Hybrid Alignment Loss (f-HAL) als hybrider On-/Off-Policy-Ansatz.
Diese Methoden basieren auf der variablen Darstellung von f-Divergenzen und bieten theoretische Garantien für eine verbesserte durchschnittliche Belohnung nach dem Alignment.
Empirische Validierungen zeigen überlegene Leistung und Flexibilität bei Aufgaben wie mathematischem Denken (RLVR) und Sicherheits-Alignment (PA).
Der hybride Ansatz f-HAL kann "Reward Hacking" bei LLMs reduzieren, indem er On-Policy-Exploration mit Off-Policy-Überwachung kombiniert.

Sehr geehrte Leserin, sehr geehrter Leser,

die kontinuierliche Weiterentwicklung von Large Language Models (LLMs) hat die Möglichkeiten der künstlichen Intelligenz erheblich erweitert. Gleichzeitig wachsen die Anforderungen an deren Ausrichtung, um sicherzustellen, dass diese Modelle nicht nur leistungsfähig, sondern auch sicher und präzise in verschiedenen Anwendungsbereichen agieren. Ein aktueller Forschungsbeitrag beleuchtet hierbei einen innovativen Ansatz zur Verbesserung des LLM-Alignments durch divergengbasierte Reinforcement Learning (RL)-Algorithmen.

Die Herausforderung des LLM-Alignments

Alignment, die finale Phase in der Trainingspipeline von LLMs, zielt darauf ab, den Modellen Fähigkeiten jenseits des reinen Sprachverständnisses und der Befolgung von Anweisungen zu vermitteln. Diese reichen von komplexen Denkprozessen, wie der Lösung mathematischer Probleme oder der Codegenerierung, bis hin zur Einhaltung ethischer und sicherheitsrelevanter Vorgaben, basierend auf menschlichen Präferenzen. Traditionell wird Alignment durch RL erreicht, wobei ein Belohnungssignal das gewünschte Verhalten kodiert. Die bestehenden RL-basierten Alignment-Strategien unterscheiden sich primär in der Quelle des Belohnungssignals.

Zwei zentrale Regime des Alignments

Die Forschung unterscheidet grundsätzlich zwei Hauptregime:

Verifizierbares Belohnungsregime (RLVR): Hierbei steht eine explizite Belohnungsfunktion zur Verfügung, die die Korrektheit oder Qualität einer Antwort quantitativ bewertet. Beispiele hierfür sind mathematisches Denken oder Codegenerierung. Das Lernen in diesem Regime wird typischerweise mittels On-Policy-Reinforcement Learning-Algorithmen formuliert, die Antworten basierend auf der aktuellen Policy bewerten und das Modell entsprechend aktualisieren.
Präferenz-Alignment-Regime (PA): In diesem Regime wird ein Belohnungssignal implizit durch relative Vergleiche oder binäres Feedback (z.B. sicher vs. unsicher, bevorzugt vs. abgelehnt) zwischen Antworten bereitgestellt. Hier kommen entweder Reward Models in Kombination mit On-Policy-Lernen (Reinforcement Learning with Human Feedback, RLHF) oder Direkt-Alignment-Methoden zum Einsatz, die die Policy direkt über ein überwachtes Ziel auf Präferenzdaten optimieren (Off-Policy).

Divergenz als vereinheitlichender Rahmen

Jüngste Arbeiten haben gezeigt, dass viele Präferenz-Alignment-Ziele als Divergenz-Schätzer zwischen ausgerichteten (gewählten) und nicht ausgerichteten (abgelehnten) Antwortverteilungen fungieren. Diese Perspektive wurde nun erweitert, um auch allgemeine Alignment-Einstellungen zu umfassen, bei denen, wie im RLVR-Regime, lediglich umgebungsbezogene Belohnungen verfügbar sind.

f-GRPO und f-HAL: Neue Algorithmen für das LLM-Alignment

Im Rahmen dieses vereinheitlichten Ansatzes wurden zwei neue Klassen von Algorithmen vorgeschlagen:

f-Group Relative Policy Optimization (f-GRPO): Eine Klasse von On-Policy-Reinforcement-Learning-Algorithmen, die für das allgemeine LLM-Alignment auf der Grundlage der variablen Darstellung von f-Divergenzen entwickelt wurde.
f-Hybrid Alignment Loss (f-HAL): Ein hybrider On-/Off-Policy-Ansatz, der sowohl direkte präferenzbasierte Überwachung als auch verifizierbare Umgebungsbelohnungen nutzt.

Diese Algorithmen bieten theoretische Garantien, dass sie die durchschnittliche Belohnung nach dem Alignment verbessern. Empirische Validierungen bestätigen ihre überlegene Leistung und Flexibilität sowohl bei RLVR-Aufgaben (z.B. mathematisches Denken) als auch bei PA-Aufgaben (z.B. Sicherheits-Alignment) im Vergleich zu aktuellen Methoden.

Theoretische Fundierung und Vorteile

Die vorgestellten Methoden interpretieren Alignment-Ziele als Divergenz-Schätzer. f-GRPO schätzt eine Divergenz zwischen überdurchschnittlichen und unterdurchschnittlichen Belohnungsverteilungen, während f-HAL eine Divergenz zwischen Mischungen von belohnungs- und präferenzbasierten ausgerichteten/nicht ausgerichteten Verteilungen schätzt. Ein wesentlicher Aspekt ist die Alignment Consistency, die sicherstellt, dass die Optimierung die Wahrscheinlichkeitsmasse der Policy auf ausgerichteten Stichproben erhöht und auf nicht ausgerichteten verringert.

Ein besonderer Vorteil von f-GRPO mit einer kanonischen Link-Funktion ist die Garantie einer strikten Verbesserung der durchschnittlichen Belohnung bei jeder Iteration, bis eine Policy erreicht wird, die die maximal mögliche Belohnung erzielt. Im Gegensatz dazu behalten herkömmliche Methoden wie GRPO selbst nach einer Gewichtungsanpassung noch eine nicht-Null-Masse auf unterdurchschnittlichen Antworten bei.

Empirische Validierung und praktische Implikationen

Die Wirksamkeit des Rahmens wurde anhand realer Alignment-Aufgaben in beiden Regimen evaluiert:

Mathematisches Denken (RLVR-Aufgabe)

Bei dieser Aufgabe, die eine On-Policy-Optimierung erfordert, übertraf f-GRPO konsistent das Standard-GRPO in der Pass@1-Genauigkeit über verschiedene f-Divergenz-Optionen und Modellgrößen hinweg. Dies bestätigt die theoretische Vorhersage, dass f-GRPO durch seine Fähigkeit zur Erzielung maximaler Belohnungen empirische Vorteile bietet.

Sicherheits-Alignment (PA-Aufgabe)

Im Kontext des Sicherheits-Alignments, wo sowohl On- als auch Off-Policy-Methoden anwendbar sind, zeigte f-HAL eine überlegene Leistung gegenüber beiden Baseline-Ansätzen. Insbesondere der hybride f-HAL-Ansatz (mit einem Gewichtungsfaktor λ = 0,5) konnte Reward Hacking signifikant mindern. Reward Hacking ist ein Problem, bei dem On-Policy-Methoden die Schwachstellen eines gelernten Belohnungsmodells ausnutzen und zu scheinbar hohen, aber suboptimalen Antworten konvergieren.

Die Kombination von On-Policy-Exploration mit Off-Policy-Direkt-Supervision ermöglicht es f-HAL, von der inhärenten Exploration von On-Policy-Methoden zu profitieren, während es gleichzeitig durch Präferenzdaten vor "lazy reward-hacking suboptimalities" geschützt wird. Bei größeren Modellen übertraf der hybride f-HAL-Ansatz in der Regel reine Direkt-Aligner, was darauf hindeutet, dass die zusätzliche Exploration die Leistung verbessert, wenn eine ausreichende Modellkapazität vorhanden ist. Bei kleineren Modellen, wo Reward Hacking aufgrund begrenzter Kapazität ausgeprägter ist, bleiben direkte Aligner tendenziell leicht überlegen, was auf die Präferenz einer stärkeren Supervision bei eingeschränkter Modellexpressivität hinweist.

Fazit

Die vorgestellte Forschung etabliert Divergenz-Schätzung als eine vereinheitlichende und praktische Grundlage für das allgemeine LLM-Alignment. Durch die Einführung von f-GRPO und f-HAL werden bestehende Direkt-Alignment-Frameworks auf RLVR- und Präferenz-Alignment-Regime erweitert. Die theoretischen Garantien und empirischen Validierungen unterstreichen die Effektivität, Flexibilität und Robustheit dieser Methoden, insbesondere die Fähigkeit des hybriden Alignments, Reward Hacking in Präferenz-Alignment-Aufgaben zu mildern. Dies stellt einen wichtigen Schritt dar, um LLMs robuster, sicherer und präziser für vielfältige B2B-Anwendungen zu machen.

Bibliographie

- Haldar, R., Mei, L., Lin, G., Xing, Y., & Song, Q. (2026). f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment. arXiv preprint arXiv:2602.05946. - Haldar, R., Wang, Z., Song, Q., Lin, G., & Xing, Y. (2025). Llm safety alignment is divergence estimation in disguise. arXiv preprint arXiv:2502.00657. - Han, J., Jiang, M., Song, Y., Ermon, S., & Xu, M. (2025). f-PO: Generalizing Preference Optimization with f-divergence Minimization. Proceedings of The 28th International Conference on Artificial Intelligence and Statistics, 258, 1144-1152. - Li, X., Zou, H., & Liu, P. (2025). LIMR: Less is more for RL scaling. GitHub. - Liu, X., Xu, N., Chen, M., & Xiao, C. (2023). Autodan: generating stealthy jailbreak prompts on aligned large language models. arXiv preprint arXiv:2310.04451. - Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Schulman, J. (2022). Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744. - Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. Advances in neural information processing systems, 36, 53728-53741. - Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., ... & Li, Y. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300. - Skalse, J., Howe, N., Krasheninnikov, D., & Krueger, D. (2022). Defining and characterizing reward gaming. Advances in Neural Information Processing Systems, 35, 9460-9471. - Wang, C., Jiang, Y., Yang, C., Liu, H., & Chen, Y. (2023). Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints. arXiv preprint arXiv:2309.16240. - Yang, A., Yang, B., Hui, B., Zheng, B., Yu, B., Zhou, C., ... & Fan, Z. (2024). Qwen2 technical report. arXiv preprint arXiv:2407.10671. - Yang, A., Zhang, B., Hui, B., Gao, B., Yu, B., Li, C., ... & Zhang, Z. (2024). Qwen2.5-math technical report: Toward mathematical expert model via self-improvement. arXiv preprint arXiv:2409.12122. - Yu, J., Lin, X., Yu, Z., & Xing, X. (2023). Gptfuzzer: red teaming large language models with auto-generated jailbreak prompts. arXiv preprint arXiv:2309.10253. - Zou, A., Wang, Z., Carlini, N., Nasr, M., Kolter, J. Z., & Fredrikson, M. (2023). Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043.