Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir heute eine wegweisende Entwicklung im Bereich der Künstlichen Intelligenz, die das Potenzial hat, die Leistungsfähigkeit von Sprachmodellen maßgeblich zu beeinflussen: das Konzept des "Self-Improving Pretraining". Diese Methode, bei der nach-trainierte Modelle genutzt werden, um bessere Modelle vorzutrainieren, stellt einen Paradigmenwechsel dar. Sie adressiert kritische Herausforderungen wie die Sicherstellung von Qualität, Sicherheit und Faktizität in den Generierungen großer Sprachmodelle (LLMs), insbesondere angesichts ihrer zunehmenden Verbreitung in realen Anwendungen.
Die aktuelle Forschung im Bereich der großen Sprachmodelle (LLMs) konzentriert sich stark darauf, deren Fähigkeiten kontinuierlich zu verbessern. Ein zentraler Ansatz hierfür ist das Pretraining, gefolgt von verschiedenen Phasen des Nach-Trainings, wie zum Beispiel Fine-Tuning und Alignment. Trotz dieser komplexen Pipelines bleiben die Herausforderungen hinsichtlich der Generierungsqualität, der Sicherheit und der Faktizität bestehen. Muster, die während des Pretrainings gelernt wurden, können sich als hartnäckig erweisen und unerwünschte oder fehlerhafte Ausgaben tief im Modell verankern. Hier setzt das Konzept des "Self-Improving Pretraining" an.
Ein innovativer Ansatz, wie er in der Forschung von Ellen Xiaoqing Tan et al. beschrieben wird, integriert Reinforcement Learning (RL) direkt in den Pretraining-Prozess. Dabei bewertet ein starkes, bereits nach-trainiertes Modell die Qualität, Sicherheit und Faktizität von Kandidatengenerierungen. Dies umfasst sowohl die ursprünglichen als auch die überarbeiteten Suffixe der generierten Texte. Zu Beginn des Trainings stützt sich der Prozess auf diese Suffixe; mit fortschreitender Verbesserung des Modells werden die hochwertigen "Rollouts" (generierte Textabschnitte) durch RL belohnt. Ziel ist es, von Grund auf Modelle zu entwickeln, die eine höhere Qualität, Sicherheit und Faktizität aufweisen.
Experimentelle Ergebnisse zeigen hierbei signifikante Verbesserungen: Im Vergleich zum Standard-Pretraining konnten relative Verbesserungen von 36,2 % bei der Faktizität und 18,5 % bei der Sicherheit erzielt werden. Die allgemeine Generierungsqualität zeigte sogar eine Verbesserung der Gewinnrate von bis zu 86,3 %. Diese Zahlen unterstreichen das immense Potenzial dieses Ansatzes, die Kernverhaltensweisen eines Modells bereits im Pretraining zu formen und somit die Entstehung unsicherer oder halluzinierter Ausgaben von vornherein zu verhindern.
Um die Selbstverbesserungsfähigkeiten von LLMs präzise zu analysieren, wurde die "Generation-Verification Gap" (GV-Gap) als zentrale Metrik eingeführt. Diese Metrik quantifiziert den zusätzlichen "Präzisionsgewinn", der durch die Verifizierung der Modellausgaben erzielt wird, im Vergleich zur reinen Generierung. Ein positiver GV-Gap deutet darauf hin, dass die Verifizierung einen verwertbaren Signal liefert, der zur Verbesserung des Modells genutzt werden kann.
Studien zeigen, dass die relative GV-Gap mit den Pre-Train-Flops (ein Maß für die Rechenleistung im Vortraining) monoton ansteigt. Dies deutet auf eine Skalierungseigenschaft hin: Größere Modelle, die mit mehr Rechenleistung vor-trainiert wurden, weisen ein größeres Potenzial zur Selbstverbesserung auf, insbesondere bei stabilen Verifizierungsmethoden wie CoT-Score (Chain-of-Thought Scoring).
Interessanterweise weisen kleine Modelle, wie zum Beispiel Qwen-1.5 0.5B oder Llama-2 7B, oft eine nicht-positive GV-Gap auf. Dies wird darauf zurückgeführt, dass diesen kleineren Modellen ein Mindestmaß an Anweisungsbefolgung und Argumentationsfähigkeiten fehlt, die für eine effektive Selbstverbesserung notwendig sind. Die Fähigkeit zur Selbstverbesserung ist demnach eng an die inhärenten Denk- und Planungsfähigkeiten gekoppelt, die ein Modell während des Pretrainings entwickelt.
Bei der Querverifizierung, bei der Generator und Verifizierer unterschiedliche Modelle sein können, zeigt sich, dass die GV-Gap mit der Kapazität des Verifizierermodells zunimmt und mit der Kapazität des Generatormodells abnimmt. Dies bedeutet, dass ein stärkeres Verifizierermodell die Qualität der Generierungen eines schwächeren Modells effektiver bewerten und somit zur Verbesserung beitragen kann. Die Herausforderung besteht darin, eine rechenoptimale Konfiguration zu finden, die die Effizienz maximiert, ohne die Komplexität und die damit verbundenen Kosten zu erhöhen.
Trotz der vielversprechenden Potenziale der Selbstverbesserung gibt es auch Aufgabenbereiche, in denen dieser Ansatz an seine Grenzen stößt.
Einige Aufgaben, insbesondere solche, die reines Faktenwissen abfragen, profitieren kaum von den aktuellen Selbstverbesserungsrahmen. Bei Trivia-Aufgaben beispielsweise ist die Generierung einer korrekten Antwort hauptsächlich davon abhängig, ob das Modell mit den relevanten Fakten trainiert wurde. Die Verifizierung liefert hier wenig zusätzliches Signal, da die Komplexität von Generierung und Verifizierung ähnlich ist. Die GV-Gap bleibt in solchen Fällen oft nahe null oder sogar negativ.
Ein weiteres Beispiel sind Sudoku-Rätsel. Obwohl die Verifizierung einer Sudoku-Lösung (P-Problem) wesentlich einfacher ist als ihre Generierung (NP-hartes Problem), zeigen die meisten Modelle keine signifikante Selbstverbesserung. Nur die größten Modelle (z.B. Qwen-1.5/2 72B) weisen hier eine nennenswerte Verbesserung auf. Dies deutet darauf hin, dass selbst bei einer klaren Trennung der Komplexität von Generierung und Verifizierung bestimmte grundlegende Denk- und Planungsfähigkeiten des Modells entscheidend sind, die kleineren Modellen möglicherweise fehlen.
Die iterative Selbstverbesserung, bei der Modelle in mehreren Runden ihre eigenen Ausgaben verfeinern, zeigt ebenfalls Grenzen auf. Ohne die Einführung neuer Informationen erreicht die Verbesserung typischerweise nach zwei bis drei Runden eine Sättigung. Dies ist unabhängig von der Modellkapazität. Ein wesentlicher Grund hierfür ist der Rückgang der effektiven Diversität der generierten Lösungen. Während die Genauigkeit für eine kleine Anzahl von Generierungen (pass@k für kleines k) ansteigt, nimmt die Diversität für eine größere Anzahl ab (pass@k für großes k). Dies kann dazu führen, dass das Modell bei seltenen, aber korrekten Antworten nicht mehr zuverlässig ist und stattdessen auf falsche Lösungen konvergiert.
Die Auswahl und Kombination von Verifizierungsmechanismen spielt eine wichtige Rolle für die Effektivität der Selbstverbesserung.
Die Forschung unterscheidet verschiedene Verifizierungsmechanismen, darunter:
Es zeigt sich, dass CoT-Verifizierung im Allgemeinen stabiler ist als MC-Verifizierung, insbesondere bei mittelgroßen bis großen Modellen. MC-Verifizierung kann bei kleineren Modellen sogar zu negativen GV-Gaps führen. Die Verteilung der GV-Gaps und die optimalen Verifizierungsschwellenwerte sind über verschiedene Modelle hinweg konsistent, was die Übertragbarkeit von Konfigurationen von kleineren auf größere Modelle ermöglicht.
Die geringe Korrelation zwischen den Ausgaben verschiedener Verifizierungsmechanismen deutet auf ein Potenzial zur Leistungssteigerung durch deren Kombination hin. Einfache Ensemble-Heuristiken, wie die logische UND-Verknüpfung von Verifizierungsfiltern (d.h., eine Antwort wird nur akzeptiert, wenn sie alle Filter besteht), können die Verifizierungsleistung verbessern. Diese Methode zeigt konsistente Verbesserungen über verschiedene Modellgrößen hinweg, was darauf hindeutet, dass Strategien, die mit kleineren Modellen entwickelt wurden, effektiv auf größere Modelle angewendet werden können, sofern alle Verifizierungen gültig sind.
Die Erkenntnisse aus der Erforschung des "Self-Improving Pretraining" haben weitreichende praktische Implikationen für die Entwicklung und Optimierung von LLMs, insbesondere im B2B-Bereich, wo Qualität, Sicherheit und Effizienz von größter Bedeutung sind.
Für Unternehmen, die LLMs einsetzen oder entwickeln, liefern diese Ergebnisse wertvolle Anhaltspunkte:
Die vorliegende Forschung eröffnet mehrere spannende Richtungen für weitere Untersuchungen:
Das Konzept des "Self-Improving Pretraining" markiert einen wichtigen Schritt hin zu robusteren, zuverlässigeren und faktengetreueren LLMs. Indem wir die Mechanismen der Selbstverbesserung besser verstehen und optimieren, können wir das volle Potenzial dieser Technologien für vielfältige Anwendungen erschließen.
Bibliography - Huang, J., Gu, S. S., Hou, L., Wu, Y., Wang, X., Yu, H., & Han, J. (2022). Large Language Models Can Self-Improve. arXiv preprint arXiv:2210.11610. - Tan, E. X., Dhuliawala, S., Xu, J., Yu, P., Sukhbaatar, S., Weston, J., & Golovneva, O. (2026). Self-Improving Pretraining: using post-trained models to pretrain better models. arXiv preprint arXiv:2601.21343. - Wu, T., Li, X., & Liu, P. (2023). Progress or Regress? Self-Improvement Reversal in Post-training. arXiv preprint arXiv:2407.05013. - Song, Y., Zhang, H., Eisenach, C., Kakade, S. M., Foster, D., & Ghai, U. (2024). Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models. OpenReview. - Akter, S. N., Prabhumoye, S., Nyberg, E., Patwary, M., Shoeybi, M., Choi, Y., & Catanzaro, B. (2025). Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data. NVIDIA Research. - Reed, C. J., Yue, X., Nrusimha, A., Ebrahimi, S., Vijaykumar, V., Mao, R., Li, B., Zhang, S., Guillory, D., Metzger, S., & Keutzer, K. (2022). Self-Supervised Pretraining Improves Self-Supervised Pretraining. WACV. - Parmar, J., Satheesh, S., Patwary, M., Shoeybi, M., & Catanzaro, B. (2024). Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models. arXiv preprint arXiv:2407.07263. - Prasad, A., Yuan, W., Pang, R. Y., Xu, J., Fazel-Zarandi, M., Bansal, M., Sukhbaatar, S., Weston, J., & Yu, J. (2025). Self-Consistency Preference Optimization. arXiv preprint arXiv:2411.04109.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen