Optimierung der Datenmischung für Sprachmodelle: Das DeMix-Framework als neue Lösung

Kategorien:

No items found.

Freigegeben:

February 4, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Optimierung der Datenmischung für das Pre-Training großer Sprachmodelle (LLMs) ist entscheidend für deren Leistungsfähigkeit, jedoch auch komplex und ressourcenintensiv.
Ein neues Framework namens DeMix löst die Suche nach der optimalen Datenmischung vom kostenintensiven Modelltraining, indem es Modell-Merging nutzt.
DeMix trainiert Komponentenmodelle auf verschiedenen Datensätzen und fusioniert diese anschließend, um die Leistung unbegrenzter Datenmischungen ohne zusätzlichen Trainingsaufwand zu prognostizieren.
Dieses Vorgehen ermöglicht eine effizientere und genauere Bestimmung der idealen Datenzusammensetzung im Vergleich zu herkömmlichen Methoden.
Die experimentellen Ergebnisse zeigen, dass DeMix sowohl in Bezug auf die Proxy-Genauigkeit als auch die Qualität der resultierenden Datenmischung überlegen ist und gleichzeitig die Rechenkosten senkt.
Zusätzlich wurde mit den DeMix Corpora ein 22 Billionen Tokens umfassender Datensatz mit validierten Mischungsverhältnissen veröffentlicht, um die offene Forschung zu fördern.

Revolution in der LLM-Vortrainingsoptimierung: DeMix entkoppelt Datensuche von Trainingsprozessen

Die Entwicklung und Optimierung großer Sprachmodelle (LLMs) ist ein hochkomplexer und ressourcenintensiver Prozess. Ein entscheidender Faktor für die Leistungsfähigkeit dieser Modelle ist die Zusammensetzung des Datensatzes, der während des Pre-Trainings verwendet wird. Die Identifizierung der optimalen Datenmischung, die sowohl allgemeine Kompetenzen als auch spezialisierte Fähigkeiten in Bereichen wie Mathematik und Programmierung ausbalanciert, stellt eine erhebliche Herausforderung dar. Herkömmliche Ansätze zur Datenmischungsoptimierung basieren entweder auf unzuverlässigen Proxy-Experimenten im kleinen Maßstab oder erfordern prohibitiv teure Großskalierungsuntersuchungen. Ein neues Framework namens Decouple Searching from Training Mix (DeMix), das Modell-Merging einsetzt, verspricht hier eine signifikante Verbesserung.

Die Herausforderung der Datenmischungsoptimierung

Das Pre-Training von LLMs erfordert eine sorgfältige Auswahl und Mischung von Datenquellen. Modelle müssen beispielsweise sowohl ein breites allgemeines Sprachverständnis als auch spezifische Fähigkeiten in komplexen Domänen wie mathematischem Denken oder Code-Generierung aufweisen. Eine unausgewogene Datenmischung kann zu Modellen führen, die entweder in spezialisierten Aufgaben schwach sind oder ein unzureichendes allgemeines Verständnis besitzen. Die gängige Praxis, kleinere Modelle (z.B. 8B Parameter) auf ausgewählten Datenmischungen mit erheblichem Token-Budget (z.B. 100B Tokens) zu trainieren, ist zwar relativ genau, aber extrem kostspielig. Methoden wie RegMix oder CLIMB versuchen, diesen Prozess durch umfangreiche, kleinskalige Proxy-Experimente zu automatisieren. Diese Ansätze trainieren regressive Prädiktoren, die Datenmischungen auf Verluste oder Downstream-Leistung abbilden. Die Validität dieser leichten Proxys wird jedoch zunehmend in Frage gestellt, da sie oft nicht auf komplexe Aufgaben verallgemeinerbar sind.

DeMix: Eine innovative Lösung durch Modell-Merging

DeMix schlägt einen neuartigen Ansatz vor, der die Suche nach der optimalen Datenmischung von den hohen Kosten des Proxy-Trainings entkoppelt. Anstatt für jede potenzielle Datenmischung ein separates Proxy-Modell zu trainieren, nutzt DeMix das Prinzip des Modell-Mergin. Der Prozess gliedert sich in folgende Schritte:

Komponentenmodell-Training: Zunächst werden eine Reihe von Komponentenmodellen auf einzelnen Kandidaten-Datensätzen trainiert. Diese Modelle werden von einem gemeinsamen Basismodell initialisiert und anschließend auf domänenspezifischen Daten spezialisiert, wobei ein fester Anteil allgemeiner Daten beigemischt wird, um die allgemeine Sprachkompetenz zu erhalten.
Modell-Merging als Proxy: Anstatt neue Modelle für jede Datenmischung zu trainieren, werden die Parameter dieser Komponentenmodelle gewichtet zusammengeführt. Die Gewichte dieser Fusion repräsentieren dabei die gewünschten Datenmischungsverhältnisse. Empirische Studien haben gezeigt, dass die Addition von Gewichts-Deltas von auf separaten Datensätzen trainierten Modellen die Gewichts-Deltas, die beim Training auf der Vereinigung dieser Datensätze entstehen, gut approximiert, solange die Parameter-Updates relativ klein sind. Dies ermöglicht die Synthese einer unbegrenzten Anzahl von Proxy-Modellen ohne zusätzlichen Trainingsaufwand.
Optimierung der Mischungsgewichte: Basierend auf diesen gefilterten Proxy-Modellen wird die optimale Datenmischung durch iterative Optimierung der Mischungsgewichte gefunden. Hierbei wird ein Prädiktor (z.B. LightGBM) trainiert, der Mischungsgewichte auf Ranking-Scores abbildet. Dieser Prädiktor wird dann genutzt, um eine große Anzahl neuer Mischungsverhältnisse zu bewerten und die besten Kandidaten iterativ zu verfeinern.

Experimentelle Validierung und Ergebnisse

Die Evaluierung von DeMix erfolgte anhand zweier Hauptkriterien: der Proxy-Konsistenz und der Mischungsqualität.

Proxy-Konsistenz

DeMix wurde mit konventionellen trainingsbasierten Ansätzen verglichen. Bei gleichem Rechenbudget zeigte DeMix eine deutlich höhere Genauigkeit und Kosteneffizienz. Insbesondere erreichte DeMix beim Merging von Komponentenmodellen, die auf 30 Milliarden Tokens trainiert wurden, eine makro-durchschnittliche Spearman-Korrelation (ρ) von 0,81 und eine Top-25%-ρ von 0,59, bei einem Gesamt-Token-Budget von nur 212 Milliarden. Trainingsbasierte Ansätze erreichten unter vergleichbaren Bedingungen lediglich 0,53 und 0,20. Um ein ähnliches Leistungsniveau zu erzielen, wäre ein sechsfacher Kostenanstieg erforderlich gewesen (1344B Tokens). Darüber hinaus zeigte DeMix eine hohe Wiederherstellungsrate der Fähigkeiten (bis zu 0,85), was bestätigt, dass gewichtetes Modell-Merging als zuverlässiger und effizienter Proxy für reale Datenmischungen dient.

Mischungsqualität

Die Qualität der durch DeMix erzeugten Datenmischungen wurde durch die Leistung eines Modells bewertet, das auf 50 Milliarden Tokens mit der optimierten Mischung trainiert wurde. DeMix erzielte hierbei eine überlegene Mischungsqualität bei geringeren Trainingskosten. Mit 224 gefilterten Proxys erreichte DeMix den Spitzenleistungsrang von 24,00, was weder von RegMix noch von CLIMB unter vergleichbaren Trainingsbudgets erreicht wurde. Die Ergebnisse deuten darauf hin, dass die Skalierung der Proxy-Anzahl die Mischungsqualität innerhalb eines bestimmten Bereichs verbessert. Eine zu hohe Anzahl von Proxys kann jedoch zu einem Rückgang der Leistung führen, möglicherweise durch Overfitting-Rauschen.

Ablationsstudien und DeMix Corpora

Ablationsstudien untersuchten den Einfluss verschiedener Merging-Strategien und des Anteils allgemeiner Daten in den Kandidaten-Datensätzen. Lineares Merging erwies sich als einfache und effektive Methode mit der besten Wiederherstellungsrate und makro-durchschnittlichen ρ. Die Beimischung allgemeiner Daten zu den domänenspezifischen Datensätzen ist entscheidend, da eine unzureichende Menge allgemeiner Daten die Genauigkeit des Proxys und die Wiederherstellungsrate der Fähigkeiten signifikant reduziert.

Ein weiterer wichtiger Beitrag ist die Veröffentlichung der DeMix Corpora, eines umfassenden 22 Billionen Tokens umfassenden Datensatzes mit hoher Qualität und validierten Mischungsverhältnissen. Dieser Datensatz, der aus heterogenen Open-Source-Quellen kuratiert und durch eine umfassende Datenbereinigungspipeline veredelt wurde, dient als Ressource für die Entwicklung großer LLM-Pre-Trainings und ermöglicht die direkte Wiederverwendung validierter Datenmischungen.

Ein Ausblick

DeMix stellt einen bedeutenden Fortschritt in der Optimierung des Pre-Trainings von großen Sprachmodellen dar. Durch die Entkopplung der Datensuche vom kostenintensiven Training mittels Modell-Merging werden Effizienz, Genauigkeit und Skalierbarkeit erheblich verbessert. Die Methode ermöglicht es, optimale Datenmischungen zu identifizieren, die eine ausgewogene Leistung über ein breites Spektrum von Aufgaben, von allgemeinem Sprachverständnis bis hin zu spezialisierten Bereichen wie Mathematik und Programmierung, gewährleisten. Die Veröffentlichung der DeMix Corpora unterstützt zudem die offene Forschung und ebnet den Weg für zukünftige Innovationen im Bereich der LLM-Entwicklung.

Referenzen

- Li, S., Zhao, F., Zhao, K., Ye, J., Liu, H., Shi, F., Xie, Z., Hu, Y., & Cao, S. (2026). Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training. arXiv preprint arXiv:2602.00747. - Liu, Q., Zheng, X., Muennighoff, N., Zeng, G., Dou, L., Pang, T., Jiang, J., & Lin, M. (2024). RegMix: Data Mixture as Regression for Language Model Pre-training. arXiv preprint arXiv:2407.01492. - Diao, S., Yang, Y., Fu, Y., Dong, X., Su, D., Kliegl, M., Chen, Z., Belcak, P., Suhara, Y., Yin, H., et al. (2025). CLIMB: Clustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-Training. arXiv preprint arXiv:2504.13161. - Wortsman, M., Ilharco, G., Gadre, S. Y., Roelofs, R., Gontijo-Lopes, R., Morcos, A. S., Namkoong, H., Farhadi, A., Carmon, Y., & Kornblith, S. (2022). Model soups: Averaging weights of multiple fine-tuned models improves accuracy without increasing inference time. In International Conference on Machine Learning (pp. 23965-23998). - Goddard, C., Siriwardhana, S., Ehghaghi, M., Meyers, L., Karpukhin, V., Benedict, B., McQuade, M., & Solawetz, J. (2024). Arcee’s MergeKit: A toolkit for merging large language models. arXiv preprint arXiv:2403.13257. - Davari, M., & Belilovsky, E. (2024). Model breadcrumbs: Scaling multi-task model merging with sparse masks. In European Conference on Computer Vision (pp. 270-287). - Deep, P. T., Bhardwaj, R., & Poria, S. (2024). Della-Merging: Reducing interference in model merging through magnitude-based sampling. arXiv preprint arXiv:2406.11617. - Yadav, P., Tam, D., Choshen, L., Raffel, C. A., & Bansal, M. (2023). TIES-Merging: Resolving interference when merging models. Advances in Neural Information Processing Systems, 36, 7093-7115. - Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., & Liu, T. (2017). LightGBM: A highly efficient gradient boosting decision tree. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17) (pp. 3149-3157). - OpenCompass Contributors. (2023). OpenCompass: A universal evaluation platform for foundation models. - Spearman, C. (1961). The proof and measurement of association between two things. - Clark, P., Cowhey, I., Etzioni, O., Khot, T., Sabharwal, A., Schoenick, C., & Tafjord, O. (2018). Think you have solved question answering? Try ARC, the AI2 reasoning challenge. arXiv preprint arXiv:1803.05457. - Zellers, R., Holtzman, A., Bisk, Y., Farhadi, A., & Choi, Y. (2019). HellaSwag: Can a machine really finish your sentence?. arXiv preprint arXiv:1905.07830. - Sakaguchi, K., Le Bras, R., Bhagavatula, C., & Choi, Y. (2021). WinoGrande: An adversarial Winograd Schema Challenge at scale. Communications of the ACM, 64(9), 99-106. - Bisk, Y., Zellers, R., Gao, J., & Choi, Y. (2020). PIQA: Reasoning about physical commonsense in natural language. In Proceedings of the AAAI conference on artificial intelligence (Vol. 34, pp. 7432-7439). - Sap, M., Rashkin, H., Chen, D., LeBras, R., & Choi, Y. (2019). SocialIQA: Commonsense reasoning about social interactions. arXiv preprint arXiv:1904.09728. - Chen, M., Tworek, J., Jun, H., Yuan, Q., de Oliveira Pinto, H. P., Kaplan, J., ... & Zaremba, W. (2021). Evaluating large language models trained on code. - Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., ... & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168. - Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., & Steinhardt, J. (2021). Measuring mathematical problem solving with the MATH dataset. arXiv preprint arXiv:2103.03874. - Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., et al. (2025). Qwen3 technical report. arXiv preprint arXiv:2505.09388. - Penedo, G., Kydlíček, H., Lozhkov, A., Mitchell, M., Raffel, C. A., Von Werra, L., & Wolf, T. (2024). The FineWeb datasets: Decanting the web for the finest text data at scale. Advances in Neural Information Processing Systems, 37, 30811-30849. - Li, J., Fang, A., Smyrnis, G., Ivgi, M., Jordan, M., Gadre, S. Y., Bansal, H., Guha, E., Keh, S. S., Arora, K., et al. (2024). DataComp-LM: In search of the next generation of training sets for language models. Advances in Neural Information Processing Systems, 37, 14200-14282. - Soldaini, L., Kinney, R., Bhagia, A., Schwenk, D., Atkinson, D., Authur, R., Bogin, B., Chandu, K., Dumas, J., Elazar, Y., et al. (2024). DOLMA: An open corpus of three trillion tokens for language model pretraining research. arXiv preprint. - Wang, Y., Fu, Z., Cai, J., Tang, P., Lyu, H., Fang, Y., Zheng, Z., Zhou, J., Zeng, G., Xiao, C., et al. (2025). Ultra-FineWeb: Efficient data filtering and verification for high-quality LLM training data. arXiv preprint arXiv:2505.05427. - Basant, A., Khairnar, A., Paithankar, A., Khattar, A., Renduchintala, A., Malte, A., Bercovich, A., Hazare, A., Rico, A., Ficek, A., et al. (2025). NVIDIA Nemotron Nano 2: An accurate and efficient hybrid Mamba-Transformer reasoning model. arXiv preprint arXiv:2508.14444. - Li, R., Allal, L. B., Zi, Y., Muennighoff, N., Kocetkov, D., Mou, C., Marone, M., Akiki, C., Li, J., Chim, J., et al. (2023). StarCoder: May the source be with you!. arXiv preprint arXiv:2305.06161. - Zhou, F., Wang, Z., Ranjan, N., Cheng, Z., Tang, L., He, G., Liu, Z., & Xing, E. P. (2025). MegaMath: Pushing the limits of open math corpora. arXiv preprint arXiv:2504.02807. - Fujii, K., Tajima, Y., Mizuki, S., Shimada, H., Shiotani, T., Saito, K., Ohi, M., Kawamura, M., Nakamura, T., Okamoto, T., et al. (2025). Rewriting pre-training data boosts LLM performance in math and code. arXiv preprint arXiv:2505.02881. - Huang, S., Cheng, T., Liu, J. K., Xu, W., Hao, J., Song, L., Xu, Y., Yang, J., Liu, J., Zhang, C., et al. (2025). OpenCoder: The open cookbook for top-tier code large language models. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 33167-33193). - Comanici, G., Bieber, E., Schaekermann, M., Pasupat, I., Sachdeva, N., Dhillon, I., Blistein, M., Ram, O., Zhang, D., Rosen, E., et al. (2025). Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities. arXiv preprint arXiv:2507.06261. - Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., et al. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774. - Fan, A., Jernite, Y., Perez, E., Grangier, D., Weston, J., & Auli, M. (2019). ELI5: Long form question answering. arXiv preprint arXiv:1907.09190. - Teknium. (2023). OpenHermes 2.5: An open dataset of synthetic data for generalist LLM assistants. HuggingFace. - Wang, X., Chen, Y., & Zhu, W. (2021). A survey on curriculum learning. IEEE transactions on pattern analysis and machine intelligence, 44(9), 4555-4576. - Lin, J., Wang, T., & Qian, K. (2025). Rec-R1: Bridging generative large language models and user-centric recommendation systems via reinforcement learning. arXiv preprint arXiv:2503.24289. - Bansal, P., & Sanghavi, S. (2025). Context-free synthetic data mitigates forgetting. arXiv preprint arXiv:2505.13811. - Allal, L. B., Tunstall, L., Tazi, N., Bakouch, E., Beeching, C., Patiño, C. M., Fourrier, C., Frere, T., Lozhkov, A., Raffel, C., et al. (2025). The Smol Training Playbook: The secrets to building world-class LLMs.