KI für Ihr Unternehmen – Jetzt Demo buchen

Wiederholung statt Datenmenge: Neue Erkenntnisse zum Supervised Fine-Tuning von Sprachmodellen

Kategorien:
No items found.
Freigegeben:
February 12, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Eine aktuelle Studie stellt die althergebrachte Annahme infrage, dass mehr einzigartige Trainingsdaten stets zu einer besseren Generalisierung bei Sprachmodellen führen.
    • Im Kontext des Supervised Fine-Tuning (SFT) mit Long-Chain-of-Thought (Long-CoT)-Daten wurde festgestellt, dass die Wiederholung kleinerer Datensätze über mehrere Epochen hinweg eine höhere Leistung erzielt als das Training auf größeren Datensätzen mit weniger Epochen, selbst bei gleichem Rechenbudget.
    • Diese "Wiederholungsvorteil" genannte Beobachtung zeigt, dass Modelle durch intensive Wiederholung die demonstrierten Denkstrukturen besser internalisieren können.
    • Die Token-Genauigkeit beim Training dient als zuverlässiges Stoppkriterium, da Leistungsverbesserungen nach Erreichen einer vollständigen Memorierung stagnieren.
    • Entgegen der Befürchtung eines katastrophalen Vergessens zeigt die Studie, dass die Epochenskalierung im Vergleich zur Datenskalierung zu weniger Verlust allgemeiner Fähigkeiten führt.
    • Die Qualität des Lehrmodells und die Korrektheit der Trainingsdaten beeinflussen den Wiederholungsvorteil, wobei sogar das Training mit fehlerhaften Denkpfaden unter bestimmten Umständen vorteilhaft sein kann.

    Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren enorme Fortschritte gemacht. Ein zentraler Aspekt dieser Entwicklung ist das Supervised Fine-Tuning (SFT), insbesondere wenn es um die Vermittlung komplexer Denkfähigkeiten geht. Traditionell geht man in der maschinellen Lernforschung davon aus, dass eine größere Menge an einzigartigen Trainingsdaten zu einer besseren Generalisierung eines Modells führt. Eine kürzlich veröffentlichte Studie von Kopiczko et al. stellt diese Intuition jedoch im Kontext des Long-Chain-of-Thought (Long-CoT) SFT infrage und präsentiert überraschende Erkenntnisse, die weitreichende Implikationen für die Optimierung von Trainingsstrategien haben könnten.

    Der Wiederholungsvorteil: Mehr Epochen statt mehr Daten

    Die Kernbotschaft der Studie lautet: Im Long-CoT SFT kann die Wiederholung von Daten effektiver sein als die Skalierung der Datenmenge. Konkret zeigen die Forscher, dass das Training über mehrere Epochen hinweg auf kleineren Datensätzen zu einer besseren Modellleistung führt als ein einmaliges Training auf wesentlich größeren Datensätzen, selbst wenn das gesamte Update-Budget (also die Anzahl der durchgeführten Gradienten-Updates) gleich bleibt. Dies wird als "Wiederholungsvorteil" bezeichnet.

    Um diese Hypothese zu überprüfen, wurden Experimente mit Sprachmodellen wie Olmo3-7B und Qwen3-8B auf anspruchsvollen Reasoning-Benchmarks wie AIME'24/25 und GPQA durchgeführt. Es zeigte sich, dass Olmo3-7B, trainiert über 128 Epochen mit 400 Samples, eine um 12-26 Prozentpunkte höhere Leistung erzielte als das äquivalente Training mit einer einzigen Epoche auf 51.200 Samples. Dieser Effekt war über verschiedene Modelle, Benchmarks und Datensätze hinweg konsistent.

    Die Ergebnisse deuten darauf hin, dass die Modelle durch die wiederholte Exposition gegenüber denselben Denkpfaden die zugrunde liegenden Denkstrukturen und Konventionen, wie das Beenden langer Reasoning-Ketten, besser internalisieren können. Dies ist besonders relevant für komplexe Aufgaben, bei denen das Modell nicht nur die korrekte Antwort finden, sondern auch den Lösungsweg nachvollziehbar darstellen muss.

    Die Rolle der Memorierung und Token-Genauigkeit

    Ein wichtiger Befund der Studie ist der Zusammenhang zwischen der Memorierung des Trainingsdatensatzes und der downstream-Leistung des Modells. Die Forscher stellten fest, dass die Leistungsverbesserungen stagnieren, sobald die Modelle eine nahezu perfekte Token-Genauigkeit auf den Trainingsdaten erreichen. Dies suggeriert, dass die Token-Genauigkeit als praktisches Stoppkriterium für die Epochenskalierung dienen kann, anstatt teure und undirekte Datenskalierungen vorzunehmen. Überraschenderweise wurde dies auch dann beobachtet, wenn der Validierungsverlust weiterhin anstieg, was üblicherweise als Anzeichen für Overfitting gewertet wird.

    Dieses scheinbare "Overfitting-Paradoxon" wird dahingehend interpretiert, dass das Multi-Epochen-Training latente Fähigkeiten des vortrainierten Modells hervorruft, anstatt gänzlich neue Fähigkeiten zu erlernen. Das Modell wird sich seiner eigenen Denkprozesse sicherer, die sich von den Validierungstrajektorien unterscheiden mögen, aber dennoch auf ungesehene Benchmarks übertragbar sind.

    Auswirkungen auf Katastrophales Vergessen

    Eine gängige Befürchtung bei Multi-Epochen-Training auf kleinen Datensätzen ist das katastrophale Vergessen, bei dem das Modell allgemeine Fähigkeiten zugunsten der Spezialisierung auf die Trainingsverteilung verliert. Die Studie untersuchte dies anhand des MMLU-Benchmarks (Massive Multitask Language Understanding) und stellte fest, dass die Epochenskalierung tatsächlich zu weniger katastrophalem Vergessen führte als die Datenskalierung. Dies, kombiniert mit der signifikanten Verbesserung der Reasoning-Genauigkeit, positioniert die Epochenskalierung als eine vorteilhaftere Strategie.

    Einfluss der Trainingsdaten und des Lehrmodells

    Die Studie untersuchte auch, wie die Eigenschaften der Trainingsdaten den Wiederholungsvorteil beeinflussen:

    • Qualität des Lehrmodells: Der Wiederholungsvorteil blieb bestehen, unabhängig davon, ob die Trainingsdaten von einem schwächeren (Qwen3-0.6B) oder einem stärkeren (Qwen3-8B) Lehrmodell destilliert wurden. Die Qualität des Lehrmodells beeinflusste jedoch, ob eine Datenskalierung zusätzlich vorteilhaft war. Bei einem schwächeren Lehrmodell konnte eine Erhöhung der Datenmenge sogar zu einer geringeren Spitzenleistung führen, was an Phänomene der Weak-to-Strong Generalization erinnert.
    • Negative Trajektorien: Überraschenderweise zeigte sich, dass das Training mit inkorrekten Denkpfaden die Leistung nicht zwangsläufig verschlechterte. Der Wiederholungsvorteil blieb erhalten, und in einigen Fällen war die Spitzenleistung bei der Verwendung negativer Trajektorien sogar höher als bei positiven. Eine mögliche Erklärung ist, dass negative Trajektorien aus schwierigeren Problemen stammen, bei denen das Lehrmodell versagt hat, und die Exposition gegenüber solchen schwierigen Denkversuchen dem Lernenden zugutekommt, selbst wenn die endgültige Antwort falsch ist.

    Praktische Implikationen und offene Fragen

    Die Ergebnisse dieser Studie haben direkte praktische Implikationen für die Optimierung des SFT von Reasoning Language Models:

    • Ressourceneffizienz: Anstatt große Mengen an einzigartigen, hochwertigen Long-CoT-Daten zu generieren oder zu annotieren, was kostspielig ist, kann die Wiederholung kleinerer Datensätze eine effektivere und ressourcenschonendere Strategie sein.
    • Stoppkriterien: Die Token-Genauigkeit beim Training bietet ein klares und praktisches Signal, wann weitere Epochen keine signifikanten Leistungsverbesserungen mehr bringen.
    • Fokus auf Epochenskalierung: Die Anzahl der Epochen sollte als eine primäre Entscheidungsvariable im SFT betrachtet werden, anstatt standardmäßig nur eine einzige Epoche auf dem größten verfügbaren Datensatz zu trainieren.

    Obwohl die Studie den Wiederholungsvorteil robust über verschiedene Szenarien hinweg nachweist, bleibt der zugrunde liegende Mechanismus ein offenes Problem. Die Erklärung, warum die Memorierung durch Wiederholung die Generalisierung bei Reasoning SFT verbessert, ist eine wichtige Forschungsfrage für die Gemeinschaft.

    Fazit

    Die Studie "Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning" stellt eine wichtige Korrektur der gängigen Intuition im Bereich des maschinellen Lernens dar. Sie zeigt auf, dass im spezialisierten Kontext des Long-CoT SFT die Qualität und intensive Nutzung vorhandener Daten durch Wiederholung über Epochen hinweg eine höhere Priorität haben kann als die bloße Vergrößerung der Datensatzgröße. Diese Erkenntnisse bieten wertvolle Orientierungshilfen für die Entwicklung effizienterer und leistungsfähigerer Reasoning Language Models und fordern eine tiefere Auseinandersetzung mit den Trainingsdynamiken von LLMs.

    Bibliography - Kopiczko, D. J., Vaze, S., Blankevoort, T., & Asano, Y. M. (2026). Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning. arXiv preprint arXiv:2602.11149. - Kopiczko, D. J., Vaze, S., Blankevoort, T., & Asano, Y. M. (2026). Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning. Hugging Face Papers. - Hosni, Y. (2025). Important LLMs Papers for the Week from 10/02 to 16/02. To Data & Beyond. - Hugging Face. (2026). Daily Papers. - ArXiv. (2026). Computation and Language. - ChatPaper. (n.d.). Explore and AI Chat with the Academic Papers. - Gao, Y. (n.d.). Computer Science | Cool Papers - Immersive Paper Discovery.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen