Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung großer Sprachmodelle (LLMs) hat zu beeindruckenden Fortschritten in der künstlichen Intelligenz geführt, insbesondere im Bereich des komplexen Denkens, auch bekannt als "Chain-of-Thought" (CoT) Reasoning. Diese Modelle sind in der Lage, mehrstufige Denkprozesse zu simulieren, was ihre Problemlösungsfähigkeiten erheblich verbessert. Allerdings gehen diese Fähigkeiten oft mit erheblichen Rechenressourcen einher, was den Einsatz in ressourcenbeschränkten Umgebungen erschwert.
Ein vielversprechender Ansatz zur Effizienzsteigerung ist die Wissensdestillation, bei der Wissen von einem großen, leistungsstarken "Lehrer"-Modell auf ein kleineres "Schüler"-Modell übertragen wird. Aktuelle Studien beleuchten die Herausforderungen und Potenziale dieser Methode und stellen innovative Lösungen vor, die das Training kleinerer Modelle mit überlegenen Denkfähigkeiten ermöglichen.
Die gängige Praxis der Wissensdestillation, insbesondere die übergeordnete Feinabstimmung (Supervised Fine-Tuning, SFT) basierend auf von Lehrer-Modellen generierten Antworten, hat sich als effizient erwiesen. Dennoch offenbaren sich bei näherer Betrachtung drei zentrale Limitationen, die die Effektivität dieses Paradigmas schmälern:
Bestehende Methoden konzentrieren sich oft auf heuristische Regeln zur Filterung von SFT-Daten, was dazu führen kann, dass die volle Bandbreite der Ausgabeverteilung des Lehrer-Modells nicht ausreichend erfasst wird. Dies kann die Fähigkeit des Schüler-Modells beeinträchtigen, die Generalisierungsfähigkeit des Lehrers vollständig zu erben.
Die Art und Weise, wie die Daten des Lehrer-Modells präsentiert werden, kann zu irreführenden Gradienten im Lernprozess des Schüler-Modells führen. Wenn das Schüler-Modell beispielsweise Tokens, denen der Lehrer eine geringe Wahrscheinlichkeit zuweist, eine hohe Wahrscheinlichkeit zuordnet, kann SFT diese Wahrscheinlichkeiten noch weiter erhöhen und das Schüler-Modell von der gewünschten Lehrer-Verteilung entfernen.
Während des Trainings wird das Schüler-Modell häufig mit sogenannten "Teacher-forced Inputs" konfrontiert, bei denen es auf die Präfixe des Lehrer-Modells konditioniert wird. Bei der Inferenz muss es sich jedoch auf seine eigenen autoregressiven Vorhersagen verlassen. Diese Diskrepanz zwischen Trainings- und Inferenzsituation kann zu einem "Exposure Bias" führen, der Fehler akkumuliert und die Modellleistung beeinträchtigt.
Um diese Herausforderungen zu adressieren, haben Forscher eine Reihe methodologischer Innovationen vorgeschlagen, die zusammen eine verbesserte Trainingspipeline für die sequenzbasierte Destillation bilden. Das Ergebnis dieser Bemühungen ist DASD-4B-Thinking, ein leichtgewichtiges, aber hochleistungsfähiges Reasoning-Modell.
Ein zentraler Ansatz ist die Einführung eines "Temperature-scheduled Learning". Traditionelles Sampling bei niedriger Temperatur führt zu schärferen, konzentrierteren Verteilungen, die leichter zu lernen sind, aber nur einen kleinen Teil der Lehrer-Modi abdecken. Höhere Temperaturen hingegen erzeugen vielfältigere Daten, die mehr Modi des Lehrers erfassen, aber das Lernen erschweren können. Die vorgeschlagene Strategie beginnt mit niedriger Temperatur für eine stabile frühe Lernphase und wechselt dann zu höherer Temperatur, um die Modusabdeckung zu erweitern. Dieser zweistufige Ansatz hat sich insbesondere in komplexen Bereichen wie Mathematik und Code-Generierung als vorteilhaft erwiesen.
Um die Fehlanpassung zwischen Lehrer- und Schüler-Verteilung zu minimieren, wurde das "Divergence-aware Sampling" (DAS) entwickelt. Dieses Framework analysiert Diskrepanzen zwischen den Vorhersagewahrscheinlichkeiten von Lehrer- und Schüler-Modellen auf Satzebene. Es wurde festgestellt, dass Muster, bei denen der Lehrer eine hohe Konfidenz aufweist, während das Schüler-Modell eine niedrige Wahrscheinlichkeit hat ("Teacher Sentences"), besonders förderlich für das Lernen sind. Durch die Priorisierung solcher Beispiele während des Trainings kann das Schüler-Modell effektiver lernen und irreführende Gradienten vermeiden.
Zur Bekämpfung des Exposure Bias wird eine "Mixed-policy Distillation" eingesetzt. Nach einer initialen Off-Policy-SFT-Phase werden dabei gezielt Daten generiert, die sowohl vom Schüler- als auch vom Lehrer-Modell stammen. Das trainierte Schüler-Modell generiert zunächst Antworten, die dann an zufälligen Punkten abgeschnitten werden. Das Lehrer-Modell vervollständigt daraufhin die Sequenz. Nur qualitativ hochwertige Lehrer-Fortsetzungen werden für die Feinabstimmung des Schülers verwendet. Dieser hybride Ansatz reduziert den Exposure Bias und fördert präzisere Modellausgaben.
Die vollständige Trainingspipeline für DASD-4B-Thinking integriert diese Innovationen in einem mehrstufigen Prozess:
Es werden anspruchsvolle Fragen aus verschiedenen Domänen gesammelt, darunter mathematisches Denken, Code-Generierung, wissenschaftliches Denken und Befolgen von Anweisungen. Diese stammen aus öffentlich verfügbaren Datensätzen wie NVIDIA AceReason, OpenCodeReasoning und OpenScience Reasoning.
Für jede Frage werden vom Lehrer-Modell (gpt-oss-120b) mehrere Kandidatenantworten bei niedriger und hoher Temperatur generiert. Das "Divergence-aware Sampling" wird angewendet, um Beispiele zu priorisieren, die das Lernen des Schülers (Qwen3-4B-Instruct-2507) optimal unterstützen. Eine strenge Filterung eliminiert minderwertige Antworten, basierend auf Länge, Struktur (z.B. Entfernung von Funktionsaufrufen) und Vermeidung repetitiver Inhalte.
Die Trainingspipeline umfasst zwei Hauptphasen:
DASD-4B-Thinking wurde auf fünf etablierten Benchmarks evaluiert: AIME24, AIME25 (mathematisches Denken), GPQA Diamond (wissenschaftliches Denken) und LiveCodeBench (Code-Generierung, v5 & v6).
Das Modell erzielt in allen Kategorien State-of-the-Art-Leistungen für seine Größenordnung. Beeindruckend ist, dass es sogar mehrere deutlich größere Modelle (z.B. 32B-Modelle) übertrifft. Dies unterstreicht die Effektivität des Ansatzes und die hohe Effizienz der Trainingsdaten.
- Mathematisches Denken (AIME24, AIME25): DASD-4B-Thinking erreicht 88,5% auf AIME24 und 83,3% auf AIME25, was es an die Spitze aller getesteten Modelle setzt, selbst im Vergleich zu Modellen mit 8- bis 60-facher Parameteranzahl. Bemerkenswert ist, dass diese Ergebnisse mit nur 448.000 Trainingsbeispielen erzielt wurden, während andere Modelle, wie AM-thinking-v1 (32B), 2,9 Millionen Beispiele benötigten. - Code-Generierung (LiveCodeBench): Mit 69,3% auf LCB v5 und 67,5% auf LCB v6 übertrifft DASD-4B-Thinking ebenfalls größere Konkurrenten wie DeepSeek-R1-0528-Qwen3-8B und Qwen3-14B. - Wissenschaftliches Denken (GPQA-D): Das Modell erreicht 68,4% auf GPQA-D und nähert sich damit der Leistung wesentlich größerer Modelle an, wie Qwen3-32B (ebenfalls 68,4%) und NVIDIA-Nemotron-Ultra-253B (76,0%).Ablationsstudien über die einzelnen Trainingsstufen bestätigen die konsistenten Leistungsverbesserungen durch jeden der drei Hauptbestandteile: Niedertemperatur-Training (mit DAS) liefert signifikante anfängliche Gewinne, Hochtemperatur-Training (mit DAS) verbessert die Leistung weiter, und Mixed-Policy-Distillation führt zu zusätzlichen Zuwächsen, selbst bei einem bereits starken Modell.
Das Destillations-Framework wurde auch erfolgreich auf Mixture-of-Experts (MoE) Modelle übertragen. Eine Vorabversion, DASD-30B-A3B-Thinking-Preview, die lediglich mit der ersten Stufe der Pipeline trainiert wurde und auf denselben Datensatz wie das 4B-Modell zurückgreift, zeigt bereits eine starke Wettbewerbsfähigkeit gegenüber anderen MoE-Baselines. Dies unterstreicht die Skalierbarkeit und Robustheit des Ansatzes.
Die vorgestellten Forschungsergebnisse demonstrieren, dass durch eine sorgfältig konzipierte und dateneffiziente Destillationspipeline komplexe Denkfähigkeiten von großen auf kleinere Sprachmodelle übertragen werden können. DASD-4B-Thinking ist ein Beweis dafür, dass leichtgewichtige Modelle State-of-the-Art-Leistungen erbringen können, oft sogar größere Konkurrenten übertreffen.
Die entscheidenden Innovationen – Temperature-scheduled Learning, Divergence-aware Sampling und Mixed-policy Distillation – bieten neue Perspektiven für die Entwicklung kompakter, leistungsstarker und vollständig offener Reasoning-Modelle. Zukünftige Arbeiten könnten die Verteilungs-bewusste Neugewichtung während der SFT, eine weitere Verfeinerung der Mixed-policy Distillation sowie die Integration agentischer Fähigkeiten wie Wissensabruf und Werkzeugnutzung umfassen, um noch leistungsfähigere, domänenangepasste Modelle für reale Aufgaben zu entwickeln.
Diese Erkenntnisse sind für B2B-Anwender von großer Bedeutung, da sie den Weg für den effizienten Einsatz von KI-Modellen in ressourcenbeschränkten Umgebungen ebnen und gleichzeitig die Komplexität und Leistungsfähigkeit von KI-Anwendungen in verschiedenen Branchen signifikant erhöhen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen