Das Spurious Rewards Paradox und seine Auswirkungen auf die Leistungsfähigkeit großer Sprachmodelle

Kategorien:

No items found.

Freigegeben:

January 21, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Untersuchung des "Spurious Rewards Paradox" zeigt, wie Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) in großen Sprachmodellen (LLMs) Abkürzungen zur Memorisation aktiviert.
Obwohl RLVR die Argumentationsfähigkeit von LLMs verbessern soll, können Modelle wie Qwen 2.5 signifikante Leistungssteigerungen auch mit fehlerhaften Belohnungen erzielen.
Ein "Perplexity Paradox" wurde identifiziert: Die Perplexität von Antwort-Tokens sinkt, während die Kohärenz auf der Prompt-Seite abnimmt, was auf Memorisation statt echtes Schlussfolgern hindeutet.
Ein Mechanismus namens "Anchor-Adapter-Schaltkreis" wurde entdeckt, der diese Abkürzung ermöglicht.
Der "Functional Anchor" in den mittleren Schichten (L18-20) löst die Abfrage memorisierter Lösungen aus, gefolgt von "Structural Adapters" in späteren Schichten (L21+), die Repräsentationen transformieren.
Durch Skalierung spezifischer MLP-Schlüssel innerhalb dieses Schaltkreises kann die leistungsbeeinflussende Kontamination gezielt verstärkt oder unterdrückt werden.
Die Ergebnisse bieten einen mechanistischen Fahrplan zur Identifizierung und Eindämmung von Datenkontamination in RLVR-optimierten Modellen.

Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) hat sich als ein wirksames Paradigma zur Verbesserung der Argumentationsfähigkeiten großer Sprachmodelle (LLMs) etabliert. Es nutzt die Korrektheit der Endantwort als Belohnungssignal und zeigt besonderes Potenzial in deterministischen Bereichen wie Mathematik und Programmierung. Die gängige Interpretation des RLVR-Erfolgs basiert auf der Annahme, dass Leistungsverbesserungen darauf zurückzuführen sind, dass Modelle robuste Argumentationsstrategien durch Ground-Truth-Supervision optimieren.

Das "Spurious Rewards Paradox" und seine Implikationen für LLMs

Neuere empirische Studien haben dieses Narrativ jedoch kompliziert. Insbesondere Modelle wie Qwen 2.5 haben signifikante Leistungssteigerungen auf Standard-Benchmarks erzielt, selbst wenn sie mit fehlerhaften oder falschen Belohnungen trainiert wurden. Diese Belohnungen waren zufällig, rein formatbasiert oder sogar inkorrekt. Diese Beobachtungen werfen eine kritische Frage auf: Wenn das Basismodell bereits kontaminierte Daten enthielt, warum war seine anfängliche Genauigkeit begrenzt, und wie konnte das Training mit falschen Belohnungen diese Leistung paradoxerweise freisetzen?

Forscher haben die Hypothese aufgestellt, dass fehlerhaftes RLVR die latente Fähigkeit des Modells zur Memorisation aktiviert und allgemeine Argumentationspfade zugunsten des Abrufs gespeicherter Antworten außer Kraft setzt. Um diese Hypothese zu validieren, ist es unerlässlich, diese Erkenntnisse im Kontext des Zusammenspiels von Argumentation und Memorisation in LLMs zu verorten.

Das Perplexity Paradox: Ein Indikator für Memorisation

Ein zentrales Phänomen, das in diesem Zusammenhang identifiziert wurde, ist das "Perplexity Paradox". Es beschreibt eine Divergenz, bei der die Perplexität der Antwort-Tokens abnimmt, während die Kohärenz auf der Prompt-Seite abnimmt. Dies deutet darauf hin, dass das Modell das Schlussfolgern zugunsten des Auswendiglernens umgeht. Die Perplexität auf die Antwort-Tokens nimmt während des Trainings fortschreitend ab, während die Perplexität des vollständigen Textes zunimmt. Diese Divergenz ist einzigartig für Modelle, die von diesem Paradox betroffen sind, und deutet darauf hin, dass fehlerhaftes RLVR deren Sprachmodellierung beeinträchtigt, ohne Memorisations-Abkürzungen zu aktivieren.

Der Anchor-Adapter-Schaltkreis: Ein mechanistisches Verständnis

Um die physische Lokalisierung dieser Abkürzung zu ermitteln, wurde eine umfassende mechanistische Analyse unter Verwendung von Techniken wie Path Patching, Logit Lens und Jensen-Shannon Divergenz (JSD) sowie Neuronalen Differentialgleichungen (NDEs) durchgeführt. Diese Untersuchung enthüllt eine Entkopplung von Funktion und Struktur innerhalb der Schichten des Modells.

Funktioneller Anker und Strukturelle Adapter

Es wurde ein versteckter "Anchor-Adapter-Schaltkreis" aufgedeckt, der diese Abkürzung ermöglicht:

Funktioneller Anker (L18-20): Die mittleren Schichten agieren als entscheidender Auslöser für den Abruf memorisierter Antworten. Hier wird ein hochwahrscheinlicher Trigger-Token injiziert, der die kritische Entscheidung zur Abfrage einer memorisierten Lösung kausal bestimmt.
Strukturelle Adapter (L21+): Die nachfolgenden Schichten zeigen die substanziellsten Gewichtsänderungen. Diese dienen nicht der Speicherung neuen Wissens, sondern der Durchführung einer repräsentationalen Transformation, die den internen Zustand reorganisiert, um das abrupte Signal vom funktionellen Anker aufzunehmen.

Dynamische Analyse mit Neuronalen Differentialgleichungen (NDEs)

Um diesen dynamischen Prozess zu formalisieren, wurde die schichtweise Entwicklung verdeckter Zustände als kontinuierliche Trajektorie mithilfe von NDEs modelliert. Durch die Quantifizierung der "Trennkraft", die zwischen Generalisierungs- und Leckagedatenproben im latenten Raum wirkt, bestätigt die NDE-Analyse mathematisch, dass die Trajektorienbifurkation – der physische Divergenzpunkt, an dem das Modell Standardverarbeitungspfade zugunsten des spezialisierten Memorisationsschaltkreises aufgibt – kausal in den funktionellen Ankerschichten bestimmt wird.

Mechanistische Intervention und kausale Steuerung

Über die passive Beobachtung hinaus wurde auch aktive Kontrolle demonstriert. Spezifische Multilayer-Perzeptron (MLP)-Neuronen innerhalb dieser Schichten, die den Abruf der Abkürzung vermitteln, wurden identifiziert. Durch eine mechanistische Intervention, insbesondere die Skalierung der Schlüssel dieser MLP-Neuronen, konnte das Verhalten des Modells kausal gesteuert werden. Die Anpassung dieser Skalierungsfaktoren kann entweder die Abhängigkeit des Modells von kontaminierten Daten verstärken oder die Abkürzung unterdrücken, um die zugrunde liegende Basisleistung des Modells aufzudecken.

Ergebnisse der Interventionsstudie

Die Schicht 18 zeigte die höchste Sensitivität gegenüber der Intervention, was ihre Rolle als funktioneller Anker bestätigt. Im Gegensatz dazu führte eine Manipulation der Schicht 25 zu einer gleichmäßigen Verschlechterung, was ihre Rolle als struktureller Adapter widerspiegelt, bei dem beliebige Manipulationen den Transformationsprozess stören. Auf nicht-kontaminierten Datensätzen zeigte die Steuerung kein systematisches Muster, was bestätigt, dass die Intervention spezifisch auf kontaminationsabhängige Schaltkreise abzielt und nicht auf allgemeine Argumentationspfade.

Fazit und Implikationen

Die hier vorgestellten Erkenntnisse liefern eine mechanistische Grundlage für das Verständnis von RLVR-Schwachstellen und eröffnen Wege für gezielte Minderungsstrategien. Das "Perplexity Paradox" dient als makroskopischer Fingerabdruck dieses Phänomens, bei dem die allgemeine Sprachkohärenz zugunsten des Abkürzungslernens geopfert wird. Die Entdeckung des Anchor-Adapter-Schaltkreises und die Möglichkeit der kausalen Steuerung bieten neue Werkzeuge, um zwischen der scheinbaren Fähigkeit und der echten Generalisierung in LLMs zu unterscheiden.

Stärkung des Vertrauens in KI und Bewertung

Diese Arbeit trägt dazu bei, das Vertrauen in KI zu stärken und die Bewertung von LLMs zu verbessern. Insbesondere in kritischen Bereichen wie Mathematik, Wissenschaft und Kodierung ist es unerlässlich, dass die Leistung von LLMs auf robustem Schlussfolgern basiert. Durch die Bereitstellung einer Methodik zur Lokalisierung und Steuerung dieser Abkürzungen können Entwickler die Auswirkungen von Datenkontamination identifizieren und mindern, was zu ehrlicheren und zuverlässigeren KI-Systemen führt.

Minderung der Risiken von fehlerhafter Optimierung

Die Studie hebt eine kritische Schwachstelle in RLVR hervor: das Potenzial für Modelle, Belohnungssignale durch hartnäckiges Auswendiglernen zu optimieren. Dies unterstreicht die Notwendigkeit ausgefeilterer Belohnungsfunktionen und Bewertungs-Benchmarks, die resistent gegen Leckagen sind. Darüber hinaus bieten die kausalen Steuertechniken einen Weg zur Dekontamination von Modellen nach dem Training, wodurch das Risiko verringert wird, Modelle einzusetzen, die zwar leistungsfähig erscheinen, aber bei neuen, außerhalb der Verteilung liegenden Aufgaben versagen.

Ethische Überlegungen

Es ist wichtig zu beachten, dass die gleichen Techniken, die zur Erkennung und Unterdrückung von Memorisation dienen, theoretisch auch dazu verwendet werden könnten, die Abhängigkeit eines Modells von spezifischen Datensätzen zu verstärken. Daher wird ein verantwortungsvoller Einsatz mechanistischer Interpretierbarkeitswerkzeuge befürwortet, um Transparenz und Sicherheit zu gewährleisten und architektonische Mängel nicht zu verschleiern.

Bibliography: - Yan, L., Li, R., Chen, G., Li, Q., Geng, J., Li, W., Wang, V., & Lee, C. (2026). Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs. arXiv preprint arXiv:2601.11061. - Shao, R., Li, S. S., Xin, R., Geng, S., Wang, Y., Oh, S., Du, S. S., Lambert, N., Min, S., Krishna, R., Tsvetkov, Y., Hajishirzi, H., Koh, P. W., & Zettlemoyer, L. (2025). Spurious Rewards: Rethinking Training Signals in RLVR. arXiv preprint arXiv:2506.10947. - Wu, M., Zhang, Z., Dong, Q., Xi, Z., Zhao, J., Jin, S., Fan, X., Zhou, Y., Lv, H., Zhang, M., et al. (2025). Reasoning or memorization? Unreliable results of reinforcement learning due to data contamination. arXiv preprint arXiv:2507.10532. - Ruan, Z., Chen, Y., Hou, Y., Li, P., Liu, Y., & Chen, G. (2025). Unveiling over-memorization in finetuning LLMs for reasoning tasks. arXiv preprint arXiv:2508.04117. - Meng, K., Bau, D., Andonian, A., & Belinkov, Y. (2022). Locating and editing factual associations in GPT. Advances in Neural Information Processing Systems, 35, 17359-17372. - nostalgebraist. (2020). Interpreting GPT: The logit lens. LessWrong. - Chen, R. T., Rubanova, Y., Bettencourt, J., & Duvenaud, D. K. (2018). Neural ordinary differential equations. Advances in Neural Information Processing Systems, 31. - Li, Q., Geng, J., Chen, Z., Zhu, D., Wang, Y., Ma, C., Lyu, C., & Karray, F. (2025a). HD-NDEs: Neural differential equations for hallucination detection in LLMs. arXiv preprint arXiv:2506.00088. - Li, R., Chen, C., Hu, Y., Gao, Y., Wang, X., & Yilmaz, E. (2025b). Attributing response to context: A Jensen-Shannon divergence driven mechanistic study of context attribution in retrieval-augmented generation. arXiv preprint arXiv:2505.16415. - Yang, A., Zhang, B., Hui, B., Gao, B., Yu, B., Li, C., Liu, D., Tu, J., Zhou, J., Lin, J., Lu, K., Xue, M., Lin, R., Liu, T., Ren, X., & Zhang, Z. (2024). Qwen2.5-Math technical report: Toward mathematical expert model via self-improvement. arXiv preprint arXiv:2409.12122.