Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) hat sich als ein wirksames Paradigma zur Verbesserung der Argumentationsfähigkeiten großer Sprachmodelle (LLMs) etabliert. Es nutzt die Korrektheit der Endantwort als Belohnungssignal und zeigt besonderes Potenzial in deterministischen Bereichen wie Mathematik und Programmierung. Die gängige Interpretation des RLVR-Erfolgs basiert auf der Annahme, dass Leistungsverbesserungen darauf zurückzuführen sind, dass Modelle robuste Argumentationsstrategien durch Ground-Truth-Supervision optimieren.
Neuere empirische Studien haben dieses Narrativ jedoch kompliziert. Insbesondere Modelle wie Qwen 2.5 haben signifikante Leistungssteigerungen auf Standard-Benchmarks erzielt, selbst wenn sie mit fehlerhaften oder falschen Belohnungen trainiert wurden. Diese Belohnungen waren zufällig, rein formatbasiert oder sogar inkorrekt. Diese Beobachtungen werfen eine kritische Frage auf: Wenn das Basismodell bereits kontaminierte Daten enthielt, warum war seine anfängliche Genauigkeit begrenzt, und wie konnte das Training mit falschen Belohnungen diese Leistung paradoxerweise freisetzen?
Forscher haben die Hypothese aufgestellt, dass fehlerhaftes RLVR die latente Fähigkeit des Modells zur Memorisation aktiviert und allgemeine Argumentationspfade zugunsten des Abrufs gespeicherter Antworten außer Kraft setzt. Um diese Hypothese zu validieren, ist es unerlässlich, diese Erkenntnisse im Kontext des Zusammenspiels von Argumentation und Memorisation in LLMs zu verorten.
Ein zentrales Phänomen, das in diesem Zusammenhang identifiziert wurde, ist das "Perplexity Paradox". Es beschreibt eine Divergenz, bei der die Perplexität der Antwort-Tokens abnimmt, während die Kohärenz auf der Prompt-Seite abnimmt. Dies deutet darauf hin, dass das Modell das Schlussfolgern zugunsten des Auswendiglernens umgeht. Die Perplexität auf die Antwort-Tokens nimmt während des Trainings fortschreitend ab, während die Perplexität des vollständigen Textes zunimmt. Diese Divergenz ist einzigartig für Modelle, die von diesem Paradox betroffen sind, und deutet darauf hin, dass fehlerhaftes RLVR deren Sprachmodellierung beeinträchtigt, ohne Memorisations-Abkürzungen zu aktivieren.
Um die physische Lokalisierung dieser Abkürzung zu ermitteln, wurde eine umfassende mechanistische Analyse unter Verwendung von Techniken wie Path Patching, Logit Lens und Jensen-Shannon Divergenz (JSD) sowie Neuronalen Differentialgleichungen (NDEs) durchgeführt. Diese Untersuchung enthüllt eine Entkopplung von Funktion und Struktur innerhalb der Schichten des Modells.
Es wurde ein versteckter "Anchor-Adapter-Schaltkreis" aufgedeckt, der diese Abkürzung ermöglicht:
Um diesen dynamischen Prozess zu formalisieren, wurde die schichtweise Entwicklung verdeckter Zustände als kontinuierliche Trajektorie mithilfe von NDEs modelliert. Durch die Quantifizierung der "Trennkraft", die zwischen Generalisierungs- und Leckagedatenproben im latenten Raum wirkt, bestätigt die NDE-Analyse mathematisch, dass die Trajektorienbifurkation – der physische Divergenzpunkt, an dem das Modell Standardverarbeitungspfade zugunsten des spezialisierten Memorisationsschaltkreises aufgibt – kausal in den funktionellen Ankerschichten bestimmt wird.
Über die passive Beobachtung hinaus wurde auch aktive Kontrolle demonstriert. Spezifische Multilayer-Perzeptron (MLP)-Neuronen innerhalb dieser Schichten, die den Abruf der Abkürzung vermitteln, wurden identifiziert. Durch eine mechanistische Intervention, insbesondere die Skalierung der Schlüssel dieser MLP-Neuronen, konnte das Verhalten des Modells kausal gesteuert werden. Die Anpassung dieser Skalierungsfaktoren kann entweder die Abhängigkeit des Modells von kontaminierten Daten verstärken oder die Abkürzung unterdrücken, um die zugrunde liegende Basisleistung des Modells aufzudecken.
Die Schicht 18 zeigte die höchste Sensitivität gegenüber der Intervention, was ihre Rolle als funktioneller Anker bestätigt. Im Gegensatz dazu führte eine Manipulation der Schicht 25 zu einer gleichmäßigen Verschlechterung, was ihre Rolle als struktureller Adapter widerspiegelt, bei dem beliebige Manipulationen den Transformationsprozess stören. Auf nicht-kontaminierten Datensätzen zeigte die Steuerung kein systematisches Muster, was bestätigt, dass die Intervention spezifisch auf kontaminationsabhängige Schaltkreise abzielt und nicht auf allgemeine Argumentationspfade.
Die hier vorgestellten Erkenntnisse liefern eine mechanistische Grundlage für das Verständnis von RLVR-Schwachstellen und eröffnen Wege für gezielte Minderungsstrategien. Das "Perplexity Paradox" dient als makroskopischer Fingerabdruck dieses Phänomens, bei dem die allgemeine Sprachkohärenz zugunsten des Abkürzungslernens geopfert wird. Die Entdeckung des Anchor-Adapter-Schaltkreises und die Möglichkeit der kausalen Steuerung bieten neue Werkzeuge, um zwischen der scheinbaren Fähigkeit und der echten Generalisierung in LLMs zu unterscheiden.
Diese Arbeit trägt dazu bei, das Vertrauen in KI zu stärken und die Bewertung von LLMs zu verbessern. Insbesondere in kritischen Bereichen wie Mathematik, Wissenschaft und Kodierung ist es unerlässlich, dass die Leistung von LLMs auf robustem Schlussfolgern basiert. Durch die Bereitstellung einer Methodik zur Lokalisierung und Steuerung dieser Abkürzungen können Entwickler die Auswirkungen von Datenkontamination identifizieren und mindern, was zu ehrlicheren und zuverlässigeren KI-Systemen führt.
Die Studie hebt eine kritische Schwachstelle in RLVR hervor: das Potenzial für Modelle, Belohnungssignale durch hartnäckiges Auswendiglernen zu optimieren. Dies unterstreicht die Notwendigkeit ausgefeilterer Belohnungsfunktionen und Bewertungs-Benchmarks, die resistent gegen Leckagen sind. Darüber hinaus bieten die kausalen Steuertechniken einen Weg zur Dekontamination von Modellen nach dem Training, wodurch das Risiko verringert wird, Modelle einzusetzen, die zwar leistungsfähig erscheinen, aber bei neuen, außerhalb der Verteilung liegenden Aufgaben versagen.
Es ist wichtig zu beachten, dass die gleichen Techniken, die zur Erkennung und Unterdrückung von Memorisation dienen, theoretisch auch dazu verwendet werden könnten, die Abhängigkeit eines Modells von spezifischen Datensätzen zu verstärken. Daher wird ein verantwortungsvoller Einsatz mechanistischer Interpretierbarkeitswerkzeuge befürwortet, um Transparenz und Sicherheit zu gewährleisten und architektonische Mängel nicht zu verschleiern.
Bibliography: - Yan, L., Li, R., Chen, G., Li, Q., Geng, J., Li, W., Wang, V., & Lee, C. (2026). Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs. arXiv preprint arXiv:2601.11061. - Shao, R., Li, S. S., Xin, R., Geng, S., Wang, Y., Oh, S., Du, S. S., Lambert, N., Min, S., Krishna, R., Tsvetkov, Y., Hajishirzi, H., Koh, P. W., & Zettlemoyer, L. (2025). Spurious Rewards: Rethinking Training Signals in RLVR. arXiv preprint arXiv:2506.10947. - Wu, M., Zhang, Z., Dong, Q., Xi, Z., Zhao, J., Jin, S., Fan, X., Zhou, Y., Lv, H., Zhang, M., et al. (2025). Reasoning or memorization? Unreliable results of reinforcement learning due to data contamination. arXiv preprint arXiv:2507.10532. - Ruan, Z., Chen, Y., Hou, Y., Li, P., Liu, Y., & Chen, G. (2025). Unveiling over-memorization in finetuning LLMs for reasoning tasks. arXiv preprint arXiv:2508.04117. - Meng, K., Bau, D., Andonian, A., & Belinkov, Y. (2022). Locating and editing factual associations in GPT. Advances in Neural Information Processing Systems, 35, 17359-17372. - nostalgebraist. (2020). Interpreting GPT: The logit lens. LessWrong. - Chen, R. T., Rubanova, Y., Bettencourt, J., & Duvenaud, D. K. (2018). Neural ordinary differential equations. Advances in Neural Information Processing Systems, 31. - Li, Q., Geng, J., Chen, Z., Zhu, D., Wang, Y., Ma, C., Lyu, C., & Karray, F. (2025a). HD-NDEs: Neural differential equations for hallucination detection in LLMs. arXiv preprint arXiv:2506.00088. - Li, R., Chen, C., Hu, Y., Gao, Y., Wang, X., & Yilmaz, E. (2025b). Attributing response to context: A Jensen-Shannon divergence driven mechanistic study of context attribution in retrieval-augmented generation. arXiv preprint arXiv:2505.16415. - Yang, A., Zhang, B., Hui, B., Gao, B., Yu, B., Li, C., Liu, D., Tu, J., Zhou, J., Lin, J., Lu, K., Xue, M., Lin, R., Liu, T., Ren, X., & Zhang, Z. (2024). Qwen2.5-Math technical report: Toward mathematical expert model via self-improvement. arXiv preprint arXiv:2409.12122.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen