Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren enorme Fortschritte gemacht. Ein zentraler Aspekt dieser Entwicklung ist das Supervised Fine-Tuning (SFT), insbesondere wenn es um die Vermittlung komplexer Denkfähigkeiten geht. Traditionell geht man in der maschinellen Lernforschung davon aus, dass eine größere Menge an einzigartigen Trainingsdaten zu einer besseren Generalisierung eines Modells führt. Eine kürzlich veröffentlichte Studie von Kopiczko et al. stellt diese Intuition jedoch im Kontext des Long-Chain-of-Thought (Long-CoT) SFT infrage und präsentiert überraschende Erkenntnisse, die weitreichende Implikationen für die Optimierung von Trainingsstrategien haben könnten.
Die Kernbotschaft der Studie lautet: Im Long-CoT SFT kann die Wiederholung von Daten effektiver sein als die Skalierung der Datenmenge. Konkret zeigen die Forscher, dass das Training über mehrere Epochen hinweg auf kleineren Datensätzen zu einer besseren Modellleistung führt als ein einmaliges Training auf wesentlich größeren Datensätzen, selbst wenn das gesamte Update-Budget (also die Anzahl der durchgeführten Gradienten-Updates) gleich bleibt. Dies wird als "Wiederholungsvorteil" bezeichnet.
Um diese Hypothese zu überprüfen, wurden Experimente mit Sprachmodellen wie Olmo3-7B und Qwen3-8B auf anspruchsvollen Reasoning-Benchmarks wie AIME'24/25 und GPQA durchgeführt. Es zeigte sich, dass Olmo3-7B, trainiert über 128 Epochen mit 400 Samples, eine um 12-26 Prozentpunkte höhere Leistung erzielte als das äquivalente Training mit einer einzigen Epoche auf 51.200 Samples. Dieser Effekt war über verschiedene Modelle, Benchmarks und Datensätze hinweg konsistent.
Die Ergebnisse deuten darauf hin, dass die Modelle durch die wiederholte Exposition gegenüber denselben Denkpfaden die zugrunde liegenden Denkstrukturen und Konventionen, wie das Beenden langer Reasoning-Ketten, besser internalisieren können. Dies ist besonders relevant für komplexe Aufgaben, bei denen das Modell nicht nur die korrekte Antwort finden, sondern auch den Lösungsweg nachvollziehbar darstellen muss.
Ein wichtiger Befund der Studie ist der Zusammenhang zwischen der Memorierung des Trainingsdatensatzes und der downstream-Leistung des Modells. Die Forscher stellten fest, dass die Leistungsverbesserungen stagnieren, sobald die Modelle eine nahezu perfekte Token-Genauigkeit auf den Trainingsdaten erreichen. Dies suggeriert, dass die Token-Genauigkeit als praktisches Stoppkriterium für die Epochenskalierung dienen kann, anstatt teure und undirekte Datenskalierungen vorzunehmen. Überraschenderweise wurde dies auch dann beobachtet, wenn der Validierungsverlust weiterhin anstieg, was üblicherweise als Anzeichen für Overfitting gewertet wird.
Dieses scheinbare "Overfitting-Paradoxon" wird dahingehend interpretiert, dass das Multi-Epochen-Training latente Fähigkeiten des vortrainierten Modells hervorruft, anstatt gänzlich neue Fähigkeiten zu erlernen. Das Modell wird sich seiner eigenen Denkprozesse sicherer, die sich von den Validierungstrajektorien unterscheiden mögen, aber dennoch auf ungesehene Benchmarks übertragbar sind.
Eine gängige Befürchtung bei Multi-Epochen-Training auf kleinen Datensätzen ist das katastrophale Vergessen, bei dem das Modell allgemeine Fähigkeiten zugunsten der Spezialisierung auf die Trainingsverteilung verliert. Die Studie untersuchte dies anhand des MMLU-Benchmarks (Massive Multitask Language Understanding) und stellte fest, dass die Epochenskalierung tatsächlich zu weniger katastrophalem Vergessen führte als die Datenskalierung. Dies, kombiniert mit der signifikanten Verbesserung der Reasoning-Genauigkeit, positioniert die Epochenskalierung als eine vorteilhaftere Strategie.
Die Studie untersuchte auch, wie die Eigenschaften der Trainingsdaten den Wiederholungsvorteil beeinflussen:
Die Ergebnisse dieser Studie haben direkte praktische Implikationen für die Optimierung des SFT von Reasoning Language Models:
Obwohl die Studie den Wiederholungsvorteil robust über verschiedene Szenarien hinweg nachweist, bleibt der zugrunde liegende Mechanismus ein offenes Problem. Die Erklärung, warum die Memorierung durch Wiederholung die Generalisierung bei Reasoning SFT verbessert, ist eine wichtige Forschungsfrage für die Gemeinschaft.
Die Studie "Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning" stellt eine wichtige Korrektur der gängigen Intuition im Bereich des maschinellen Lernens dar. Sie zeigt auf, dass im spezialisierten Kontext des Long-CoT SFT die Qualität und intensive Nutzung vorhandener Daten durch Wiederholung über Epochen hinweg eine höhere Priorität haben kann als die bloße Vergrößerung der Datensatzgröße. Diese Erkenntnisse bieten wertvolle Orientierungshilfen für die Entwicklung effizienterer und leistungsfähigerer Reasoning Language Models und fordern eine tiefere Auseinandersetzung mit den Trainingsdynamiken von LLMs.
Bibliography - Kopiczko, D. J., Vaze, S., Blankevoort, T., & Asano, Y. M. (2026). Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning. arXiv preprint arXiv:2602.11149. - Kopiczko, D. J., Vaze, S., Blankevoort, T., & Asano, Y. M. (2026). Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning. Hugging Face Papers. - Hosni, Y. (2025). Important LLMs Papers for the Week from 10/02 to 16/02. To Data & Beyond. - Hugging Face. (2026). Daily Papers. - ArXiv. (2026). Computation and Language. - ChatPaper. (n.d.). Explore and AI Chat with the Academic Papers. - Gao, Y. (n.d.). Computer Science | Cool Papers - Immersive Paper Discovery.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen