Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die kontinuierliche Weiterentwicklung von großen Sprachmodellen (LLMs) ist ein zentrales Thema in der aktuellen KI-Forschung. Insbesondere die Methoden des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) und der On-Policy Distillation (OPD) spielen hierbei eine wichtige Rolle. Jüngste Studien beleuchten jedoch die Grenzen bestehender Ansätze und präsentieren eine innovative Lösung zur Verbesserung der Trainingsstabilität und Leistung von LLMs.
Reinforcement Learning with Verifiable Rewards (RLVR), wie es beispielsweise in der Group Relative Policy Optimization (GRPO) angewendet wird, ist ein etabliertes Paradigma für das Training von LLMs, insbesondere in Bereichen wie Code-Generierung und mathematischem Denken. Diese Methoden stützen sich auf spärliche, skalare Belohnungssignale, die das Ergebnis einer gesamten Trajektorie bewerten. Dies führt oft zu einem sogenannten "Credit-Assignment-Problem", bei dem es schwierig ist, einzelnen Token oder Zwischenschritten eine genaue Verantwortlichkeit für das Endergebnis zuzuweisen.
Die On-Policy Distillation (OPD) versucht, dieses Problem zu mildern, indem sie ein größeres, leistungsfähigeres Modell als "Lehrer" verwendet, um dichte, feinkörnige Signale auf Token-Ebene für jede abgetastete Trajektorie bereitzustellen. Dies kann zu einer schnelleren Konvergenz führen. Allerdings ist OPD mit erheblichem Rechenaufwand verbunden, da ein separates, oft größeres, Lehrmodell während des gesamten Trainings aufrechterhalten werden muss.
Als vielversprechende Alternative hat sich in der Forschung die On-Policy Self-Distillation (OPSD) herauskristallisiert. Hierbei agiert dasselbe Modell sowohl als Lehrer als auch als Schüler, wobei der Lehrer zusätzliche privilegierte Informationen, wie Referenzantworten oder verifizierte Argumentationsketten, erhält. OPSD verspricht eine verbesserte Token-Effizienz ohne die Notwendigkeit eines externen Modells.
Trotz der potenziellen Vorteile von OPSD haben detaillierte Analysen und experimentelle Beobachtungen grundlegende Schwächen dieses Ansatzes aufgezeigt. Ein zentrales Problem ist das sogenannte "Informationsleck". Wenn der Lehrer ausschließlich auf privilegierten Informationen basiert, die dem Schüler während der Inferenz nicht zugänglich sind, führt dies zu einer asymmetrischen Informationsverteilung. Dies kann dazu führen, dass das Modell während des Trainings Korrelationen zwischen den Eingabedaten und den privilegierten Informationen lernt, die im Testzeitpunkt nicht vorhanden sind. Infolgedessen kann das Modell explizit auf "unsichtbare Referenzlösungen" verweisen, was seine Fähigkeit zur Generalisierung beeinträchtigt.
Dieses Informationsleck verursacht auch eine Instabilität im Langzeit-Training. Die Leistung von OPSD-Modellen erreicht oft früh einen Höhepunkt und verschlechtert sich danach, begleitet von einer zunehmenden Häufigkeit von Informationslecks. Die Konvergenz der KL-Divergenz zwischen Lehrer und Schüler stagniert, was auf eine nicht reduzierbare Informationslücke im OPSD-Ziel hindeutet. Diese Lücke verhindert eine sinnvolle Konvergenz und führt dazu, dass das Optimierungssignal durch schädliches Rauschen verzerrt wird.
Um die identifizierten Probleme der OPSD zu überwinden, wurde ein neues Trainingsparadigma vorgeschlagen: Reinforcement Learning with Self-Distillation (RLSD). RLSD zielt darauf ab, die Stärken von RLVR und Selbst-Distillation zu vereinen, indem es die Rolle des Lehrers neu definiert.
Der Kernansatz von RLSD besteht darin, die Selbst-Distillation nicht als generatives Ziel für die Verteilungsgleichheit zu nutzen, sondern als Mechanismus zur Bestimmung feinkörniger Update-Größen auf Token-Ebene. Die zuverlässige Belohnung aus der Umgebung (RLVR) steuert dabei die Update-Richtungen, während die Selbst-Distillation die relative Stärke dieser Updates moduliert. Dies bedeutet, dass die privilegierte Information des Lehrers lediglich den "Grad" der Anpassung eines Tokens beeinflusst, nicht aber die "Richtung" der Anpassung oder ob ein Token überhaupt verstärkt oder bestraft wird.
RLSD arbeitet in mehreren Schritten:
1. Privilegierter Informationsgewinn: Für jede vom Schüler generierte Trajektorie wird der Log-Wahrscheinlichkeit jedes Tokens sowohl im Schüler-Kontext (nur Eingabe) als auch im Lehrer-Kontext (Eingabe und privilegierte Information) berechnet. Die Differenz dieser Log-Wahrscheinlichkeiten, der privilegierte Informationsgewinn (Δt), quantifiziert, wie stark die privilegierte Information die Vorhersage eines Tokens unterstützt oder ablehnt. Ein Stop-Gradient-Operator stellt sicher, dass Δt ausschließlich als Gewichtungssignal dient und keine zusätzlichen Gradientenpfade einführt.
2. Richtungsbewusste Evidenz-Neugewichtung: Aus dem privilegierten Informationsgewinn wird ein Token-spezifisches Gewicht (wt) konstruiert, das durch das Vorzeichen des sequenz-level-Vorteils moduliert wird. Dies ermöglicht eine bayesianische Interpretation: wt misst, wie stark die privilegierte Information die Überzeugung des Modells über jedes Token revidiert. Bei positiver Belohnung erhalten vom Lehrer unterstützte Token größere Gewichte, bei negativer Belohnung werden Token, die der Lehrer ablehnt, stärker bestraft. Das Vorzeichen des Token-level-Vorteils wird dabei nie umgekehrt, wodurch die Umgebung weiterhin die alleinige Autorität über die Richtung der Optimierung behält.
3. Geklammerte Kredit-Zuweisung: Ähnlich wie bei PPO wird das Evidenzgewicht geklammert, um den maximalen Einfluss eines einzelnen Tokens zu begrenzen. Dies dient als Vertrauensbereichs-Constraint, der das Training stabilisiert. Im Laufe des Trainings wird ein Mischkoeffizient λ linear von 0,5 auf 0 reduziert, wodurch RLSD allmählich von der reinen Selbst-Distillation zu einem GRPO-ähnlichen Verhalten übergeht.
Die Integration von RLSD in bestehende GRPO-Pipelines erfordert keine zusätzlichen Verlustfunktionen oder Modelle. Der einzige Mehraufwand ist ein zusätzlicher Forward-Pass pro Antwort, um die Lehrer-Logits zu erhalten, was im Verhältnis zur Gesamt-Rechenzeit vernachlässigbar ist.
Die Wirksamkeit von RLSD wurde anhand des Modells Qwen3-VL-8B-Instruct auf fünf multimodalen Denk-Benchmarks (MMMU, MathVista, MathVision, ZeroBench, WeMath) evaluiert. Diese Benchmarks decken ein breites Spektrum an mathematischen und allgemeinen Denkfähigkeiten ab.
Die Ergebnisse zeigen, dass RLSD die höchste durchschnittliche Genauigkeit erreicht und das Basis-LLM um 4,69 % sowie GRPO um 2,32 % übertrifft. Insbesondere bei mathematisch anspruchsvollen Datensätzen wie MathVista und MathVision erzielt RLSD deutliche Verbesserungen, was auf die Vorteile der dichten Token-level-Kredit-Zuweisung zurückzuführen ist.
Die Analyse der Trainingsdynamik bestätigt, dass RLSD einen steileren initialen Anstieg der Genauigkeit aufweist und ein höheres Belohnungsniveau erreicht als GRPO, während es den bei OPSD beobachteten Leistungsabfall im späteren Stadium vermeidet. RLSD bewahrt zudem ein konsistent höheres Entropieniveau, indem es kritische Denk-Token selektiv stärkt, ohne Alternativen uniform zu unterdrücken.
Qualitative Fallstudien illustrieren, wie RLSD Belohnungen auf Token-Ebene neu verteilt. In korrekten Trajektorien wird größeren Kredit Token zugewiesen, die entscheidend für die Richtigkeit sind (z.B. Zähl- oder Subtraktionsschritte), während generische Formulierungen weniger gewichtet werden. In inkorrekten Trajektorien wird die stärkste „Schuld“ falsch gelesenen Beziehungen oder abgeleiteten falschen Antworten zugewiesen, während neutrale Set-up-Token geringere Strafen erhalten. Dieses Verhalten steht im Einklang mit dem Designziel von RLSD, eine zielgerichtete Kredit-Zuweisung auf Token-Ebene zu ermöglichen, die an die durch den Verifizierer begründete Richtigkeit gebunden ist.
Die Forschung hat die fundamentalen Einschränkungen der On-Policy Self-Distillation (OPSD) identifiziert, insbesondere die Probleme des Informationslecks und der Trainingsinstabilität, die durch Informationsasymmetrie zwischen Lehrer und Schüler entstehen. Basierend auf dieser Analyse wurde RLSD entwickelt, ein Paradigma, das über den reinen Abgleich von Verteilungen hinausgeht.
RLSD nutzt die Diskrepanz zwischen Lehrer- und Schüler-Verteilung, um eine feinkörnige Kontrolle über die Update-Größen auf Token-Ebene zu ermöglichen, während die Update-Richtungen fest an die Umgebungsbelohnung gekoppelt bleiben. Dieses Design vereint die Vorteile der dichten Token-level-Supervision von OPSD mit der zuverlässigen Umgebungs-Verankerung von RLVR, was zu einer verbesserten Konvergenz und Trainingsstabilität führt. Die Ergebnisse zeigen, dass RLSD ein vielversprechender Ansatz zur weiteren Verbesserung der Leistungsfähigkeit von LLMs ist, insbesondere in komplexen Denkaufgaben.
Die aktuelle Arbeit konzentriert sich hauptsächlich auf die theoretische Analyse der strukturellen Grenzen von OPSD und die Validierung des RLSD-Paradigmas in multimodalen Denkszenarien. Zukünftige Arbeiten könnten die Anwendung von RLSD in weiteren Kontexten, wie reinem Text-Reasoning oder Video-Verständnis, untersuchen und die Skalierbarkeit auf größere Modellfamilien prüfen. Die bisherigen Ergebnisse deuten auf konsistente Leistungssteigerungen hin, was das Potenzial von RLSD für die breitere Anwendung in der KI-Forschung und -Entwicklung unterstreicht.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen