Effizientes Training von Sprachmodellen durch hochwertige Datensamples

Kategorien:

No items found.

Freigegeben:

January 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Eine neue Forschungsarbeit zeigt, dass ein einziger, sorgfältig ausgewählter Trainingsdatensatz ("Polymath-Sample") die Denkfähigkeiten von großen Sprachmodellen (LLMs) deutlich verbessern kann.
Dieser Ansatz, bekannt als "Polymath Learning", widerspricht der bisherigen Annahme, dass große Datenmengen für das Training von LLMs unerlässlich sind.
Die Studie hebt hervor, dass die Qualität und das Design des Trainingsmaterials entscheidender sind als dessen schiere Quantität.
Besonders hervorzuheben ist die Fähigkeit des "Polymath Learning", die Generalisierungsfähigkeit über verschiedene Wissensdomänen hinweg zu verbessern, selbst in Bereichen, die mathematisch weniger intensiv sind.
Synthetisch erzeugte, multidisziplinäre Samples zeigen dabei die besten Ergebnisse.

Im Bereich der Künstlichen Intelligenz, insbesondere bei großen Sprachmodellen (LLMs), ist die Entwicklung effizienter Trainingsmethoden von zentraler Bedeutung. Eine aktuelle Forschungsarbeit wirft ein neues Licht auf die Anforderungen an Trainingsdaten für Reinforcement Learning (RL) in LLMs und stellt die etablierte Annahme, dass ausschließlich große Datenmengen zu signifikanten Verbesserungen führen, infrage. Die Studie, betitelt "One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling", präsentiert ein innovatives Framework namens "Polymath Learning", das demonstriert, wie ein einziger, strategisch entworfener Trainingsdatensatz die Denkfähigkeiten von LLMs über diverse Disziplinen hinweg erheblich steigern kann.

Die Herausforderung der Datenökonomie im Reinforcement Learning

Bislang basierte der Erfolg von RL-Ansätzen zur Verbesserung der LLM-Fähigkeiten, wie sie beispielsweise von OpenAI-o1 oder Deepseek R1 gezeigt wurden, oft auf der Verfügbarkeit großer Mengen hochwertiger Trainingsdaten. Diese Daten, die oft Tausende von Beispielen umfassen, sind ressourcenintensiv in der Beschaffung und Verarbeitung. Die neue Forschung adressiert diese Herausforderung, indem sie untersucht, ob eine extrem hohe Dateneffizienz im RL-Training von LLMs möglich ist. Die zentrale Hypothese ist, dass die Qualität und das Design eines Samples, anstatt dessen bloßes Volumen, der Schlüssel zur Entfaltung verbesserter Denkfähigkeiten sein könnten.

"Polymath Learning": Ein Paradigmenwechsel

Das Konzept des "Polymath Learning" konzentriert sich auf die Entwicklung eines einzelnen Trainingsbeispiels, das eine multidisziplinäre Wirkung entfalten kann. Die Autoren der Studie präsentieren hierzu drei wesentliche Erkenntnisse:

1. Domänenübergreifende Generalisierung

Ein einzelnes, strategisch ausgewähltes mathematisches Denkbeispiel kann signifikante Leistungsverbesserungen über verschiedene Domänen hinweg bewirken. Dies umfasst nicht nur die Mathematik, sondern auch Bereiche wie Physik, Chemie und Biologie. Diese Beobachtung deutet darauf hin, dass RL grundlegende Denkmechanismen verbessern kann, die über spezifisches Fachwissen hinausgehen und somit in der Lage sind, Wissen domänenübergreifend zu transferieren. Die Forscher fanden heraus, dass ein einziges, sorgfältig ausgewähltes mathematisches Beispiel, das auf bestimmten mathematischen Kategorien basiert, größere Denkverbesserungen bei LLMs hervorruft als umfangreiche Datensätze mit Tausenden von Beispielen. Diese Verbesserungen erstrecken sich sogar auf weniger quantitative Fächer und Domänen, die weit von der Mathematik entfernt sind.

2. Charakteristika optimaler Samples

Die Wirksamkeit eines "Polymath-Samples" korreliert stark mit den darin enthaltenen herausragenden mathematischen Fähigkeiten, insbesondere solchen aus der Algebra und der Analysis (Precalculus). Diese Fähigkeiten scheinen entscheidend für eine breite Auswirkung auf die Denkfähigkeiten zu sein. Die Untersuchung des Spektrums an mathematischen Fähigkeiten in verschiedenen Samples zeigt, dass jene, die Algebra- und Precalculus-Fähigkeiten hoch gewichten, eine stärkere Leistung in der domänenübergreifenden Problemlösung zeigen.

3. Überlegenheit synthetischer Samples

Ein speziell entwickeltes, synthetisches Sample, das multidisziplinäre Elemente und ein umfassendes Spektrum relevanter Fähigkeiten integriert, übertrifft das Training mit natürlich vorkommenden Einzelbeispielen und sogar größeren, umfassenden Datensätzen über verschiedene Denk-Benchmarks hinweg. Dies unterstreicht das Potenzial des "Sample Engineering", also der präzisen Entwicklung von Trainingssamples, gegenüber der bloßen Erhöhung des Datenvolumens.

Methodologie und Experimente

Die Methodik des "Polymath Learning" basiert auf dem "Group-based Reinforcement Policy Optimization (GRPO)"-Algorithmus, der für extreme Dateneffizienz angepasst wurde. Im Gegensatz zu herkömmlichen GRPO-Ansätzen, die auf umfangreichen Datensätzen trainieren, beschränkt das "Polymath Learning" den Trainingsdatensatz auf ein einziges, gültiges Sample.

Die Forscher verwendeten den LLM Qwen2.5-7b-base und trainierten ihn über 140 Schritte. Die Samples wurden entweder natürlich aus dem MATH-Datensatz ausgewählt, basierend auf niedrigen LIMR-Scores (Less Is More for RL Scaling), um eine Überspezialisierung zu vermeiden, oder synthetisch generiert. Die synthetische Generierung erfolgte in zwei Schritten: Zunächst wurden Kandidatenprobleme mithilfe leistungsstarker LLMs wie OpenAI-O3, Gemini2.5-Pro und DeepSeek-R1 erstellt, die Wissen aus Physik, Chemie und Biologie integrierten. Anschließend wurden spezialisierte Probleme ausgewählt, die ein breites Spektrum an mathematischen Fähigkeiten abdecken.

Die Evaluation erfolgte auf einer Vielzahl von Benchmarks, darunter MATH500, AIME, MinervaMath sowie domänenübergreifende Tests in Physik, Chemie, Biologie, Ingenieurwesen und Informatik (GPQA-Diamond, Scibench, MMLU-Pro, SuperGPQA).

Ergebnisse und Implikationen

Die Ergebnisse zeigen, dass "Polymath Learning" mit einem einzigen hochwertigen Sample das In-Context-Learning übertrifft und in den meisten nicht-mathematischen Domänen sogar umfassendes Lernen mit Tausenden von Samples übertrifft. Das synthetische "Prime-Sample" erzielte die insgesamt stärkste Leistung, insbesondere in Physik und Chemie, was die verstärkte Denkfähigkeit durch gut integriertes multidisziplinäres Wissen hervorhebt. Darüber hinaus wurde eine Zunahme des Selbstverifizierungsverhaltens (z.B. "re-evaluate", "code") bei Modellen beobachtet, die mit "Polymath Learning" trainiert wurden.

Die Studie identifiziert Algebra und Precalculus als die zentralen mathematischen Fähigkeiten, die für domänenübergreifendes Denken entscheidend sind. Samples, die diese Fähigkeiten stark betonen, zeigen tendenziell bessere Leistungen. Synthetische, multidisziplinäre Samples weisen zudem ein breiteres Spektrum an Fähigkeiten auf als spezialisierte mathematische Samples derselben Kategorie, was ihre überlegene Leistung erklärt.

Die Forschungsarbeit schließt mit der Empfehlung, sich auf "Sample Engineering" zu konzentrieren – eine präzise Entwicklung von Trainingssamples – als effizienteres Paradigma zur Freisetzung und Verbesserung der Denkfähigkeiten von LLMs, anstatt sich ausschließlich auf die Erhöhung des Datenvolumens zu verlassen. Dies könnte den Weg für eine ressourcenschonendere und effektivere Entwicklung zukünftiger KI-Modelle ebnen.

Ausblick

Die Erkenntnisse aus dieser Studie sind von großer Bedeutung für die zukünftige Entwicklung von LLMs und Reinforcement Learning. Sie legen nahe, dass eine strategische und qualitative Herangehensweise an die Datenselektion und -generierung weitaus wirkungsvoller sein kann als die bloße Akkumulation großer Datenmengen. Für Unternehmen im B2B-Bereich, die auf die Leistungsfähigkeit von KI-Modellen angewiesen sind, bedeutet dies die Möglichkeit, mit geringerem Ressourcenaufwand bessere Ergebnisse zu erzielen. Das "Sample Engineering" könnte sich als ein entscheidender Faktor für die Skalierung und Effizienz von KI-Anwendungen erweisen.

Bibliographie

- Li, Y., Huang, Z., Wu, Y., Wang, W., Li, X., Luo, Y., Su, W., Zheng, B., & Liu, P. (2026). *One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling*. arXiv. - TheMoonlight.io. (n.d.). *[Literature Review] One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling*. Abgerufen von https://www.themoonlight.io/review/one-sample-to-rule-them-all-extreme-data-efficiency-in-rl-scaling - Hugging Face. (2026). *Daily Papers*. Abgerufen von https://huggingface.co/papers/date/2026-01-09 - Pu, Y., Niu, Y., Tang, J., Xiong, J., Hu, S., & Li, H. (2025). *One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning*. arXiv. - Grainger Engineering Office of Marketing and Communications. (2026). *Illinois AI research among the top five most-published at NeurIPS 2025*. Siebel School of Computing and Data Science. Abgerufen von https://siebelschool.illinois.edu/news/llinois-ai-research-neurips-2025 - Prime Intellect. (2026). *Recursive Language Models: the paradigm of 2026*. Abgerufen von https://www.primeintellect.ai/blog/rlm - Khatri, D., Madaan, L., Tiwari, R., Bansal, R., Duvvuri, S. S., Zaheer, M., Dhillon, I. S., Brandfonbrener, D., & Agarwal, R. (n.d.). *The Art of Scaling Reinforcement Learning Compute for LLMs*. arXiv. - Agarwal, R., Schwarzer, M., Castro, P. S., Courville, A. C., & Bellemare, M. (2021). Deep reinforcement learning at the edge of the statistical precipice. *Advances in Neural Information Processing Systems*, *34*, 29304–29320. - An, C., Xie, Z., Li, X., Li, L., Zhang, J., Gong, S., Zhong, M., Xu, J., Qiu, X., Wang, M., & Kong, L. (2025). Polaris: A post-training recipe for scaling reinforcement learning on advanced reasoning models. - AoPS. (2025). *AIME problem set 1983-2025*. - Carbonneaux, Q., Cohen, G., Gehring, J., Kahn, J., Kossen, J., Kreuk, F., McMilin, E., Meyer, M., Wei, Y., Zhang, D., et al. (2025). *Cwm: An open-weights llm for research on code generation with world models*. arXiv preprint arXiv:2510.02387. - Cui, G., Zhang, Y., Chen, J., Yuan, L., Wang, Z., Zuo, Y., Li, H., Fan, Y., Chen, H., Chen, W., Liu, Z., Peng, H., Bai, L., Ouyang, W., Cheng, Y., Zhou, B., & Ding, N. (2025). *The entropy mechanism of reinforcement learning for reasoning language models*. - GLM-V Team, Hong, W., Yu, W., Gu, X., Wang, G., Gan, G., Tang, H., Cheng, J., Qi, J., Ji, J., et al. (2025). *Glm-4.5v and glm-4.1v-thinking: Towards versatile multimodal reasoning with scalable reinforcement learning*. - Guo, D., Yang, D., Zhang, H., Song, J., Wang, P., Zhu, Q., Xu, R., Zhang, R., Ma, S., Bi, X., et al. (2025). Deepseek-r1 incentivizes reasoning in llms through reinforcement learning. *Nature*, *645*(8081), 633–638. - He, H., & Lab, T. M. (2025). *Defeating nondeterminism in LLM inference*. Thinking Machines Lab: Connectionism. - Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., & Steinhardt, J. (2021). *Measuring mathematical problem solving with the math dataset*. arXiv preprint arXiv:2103.03874. - Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., de Las Casas, D., Hendricks, L. A., Welbl, J., Clark, A., et al. (2022). *Training compute-optimal large language models*. arXiv preprint arXiv:2203.15556. - Hu, J., Liu, J. K., Xu, H., & Shen, W. (2025a). *Reinforce++: An efficient rlhf algorithm with robustness to both prompt and reward models*. - Hu, J., Zhang, Y., Han, Q., Jiang, D., Zhang, X., & Shum, H.-Y. (2025b). *Open-reasoner-zero: An open source approach to scaling up reinforcement learning on the base model*. arXiv preprint arXiv:2503.24290. - Ionides, E. L. (2008). Truncated importance sampling. *Journal of Computational and Graphical Statistics*, *17*(2), 295–311. - Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). *Scaling laws for neural language models*. arXiv preprint arXiv:2001.08361. - Kimi Team, Bai, Y., Bao, Y., Chen, G., Chen, J., Chen, N., Chen, R., Chen, Y., Chen, Y., Chen, Y., et al. (2025a). *Kimi k2: Open agentic intelligence*. arXiv preprint arXiv:2507.20534. - Kimi Team, Du, A., Gao, B., Xing, B., Jiang, C., Chen, C., Li, C., Xiao, C., Du, C., Liao, C., et al. (2025b). *Kimi k1. 5: Scaling reinforcement learning with llms*. arXiv preprint arXiv:2501.12599. - Li, A., Gong, B., Yang, B., Shan, B., Liu, C., Zhu, C., Zhang, C., Guo, C., Chen, D., Li, D., et al. (2025a). *Minimax-01: Scaling foundation models with lightning attention*. arXiv preprint arXiv:2501.08313. - Li, M., Kudugunta, S., & Zettlemoyer, L. (2025b). *(mis)fitting: A survey of scaling laws*. - Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. (2023). Let’s verify step by step. In *The Twelfth International Conference on Learning Representations*. - Liu, M., Diao, S., Lu, X., Hu, J., Dong, X., Choi, Y., Kautz, J., & Dong, Y. (2025a). *Prorl: Prolonged reinforcement learning expands reasoning boundaries in large language models*. - Liu, Z., Chen, C., Li, W., Qi, P., Pang, T., Du, C., Lee, W. S., & Lin, M. (2025b). *Understanding r1-zero-like training: A critical perspective*. - Liu, Z., Liu, J., He, Y., Wang, W., Liu, J., Pan, L., Hu, X., Xiong, S., Huang, J., Hu, J., Huang, S., Yang, S., Wang, J., Su, W., & Zheng, B. (2025c). *Part i: Tricks or traps? a deep dive into rl for llm reasoning*. - Loshchilov, I., & Hutter, F. (2019). *Decoupled weight decay regularization*. - Luo, M., Tan, S., Huang, R., Patel, A., Ariyak, A., Wu, Q., Shi, X., Xin, R., Cai, C., Weber, M., et al. (2025). *Deepcoder: A fully open-source 14b coder at o3-mini level*. Notion Blog. - Madaan, L., Singh, A. K., Schaeffer, R., Poulton, A., Koyejo, S., Stenetorp, P., Narang, S., & Hupkes, D. (2024). *Quantifying variance in evaluation benchmarks*. - Meurer, A., Smith, C. P., Paprocki, M., Čertík, O., Kirpichev, S. B., Rocklin, M., Kumar, A., Ivanov, S., Moore, J. K., Singh, S., et al. (2017). Sympy: symbolic computing in python. *PeerJ Computer Science*, *3*, e103. - MiniMax, Chen, A., Li, A., Gong, B., Jiang, B., Fei, B., Yang, B., Shan, B., Yu, C., Wang, C., et al. (2025). *Minimax-m1: Scaling test-time compute efficiently with lightning attention*. - Muennighoff, N., Rush, A. M., Barak, B., Le Scao, T., Piktus, A., Tazi, N., Pyysalo, S., Wolf, T., & Raffel, C. (2025). *Scaling data-constrained language models*. - Noukhovitch, M., Huang, S., Xhonneux, S., Hosseini, A., Agarwal, R., & Courville, A. (2024). *Asynchronous rlhf: Faster and more efficient off-policy rl for language models*. arXiv preprint arXiv:2410.18252. - OpenAI. (2024). *Openai o1 system card*. arXiv preprint arXiv:2412.16720. - OpenAI. (2025). *Introducing OpenAI o3 and o4-mini*. - Owen, D. (2024). *How predictable is language model benchmark performance?* arXiv preprint arXiv:2401.04757. - Piche, A., Pardinas, R., Kamalloo, E., & Bahdanau, D. (2025). *Pipelinerl*. - Porian, T., Wortsman, M., Jitsev, J., Schmidt, L., & Carmon, Y. (2025). *Resolving discrepancies in compute-optimal scaling of language models*. - Rastogi, A., Jiang, A. Q., Lo, A., Berrada, G., Lample, G., Rute, J., Barmentlo, J., Yadav, K., Khandelwal, K., Chandu, K. R., et al. (2025). *Magistral*. arXiv preprint arXiv:2506.10910. - Ruan, Y., Maddison, C. J., & Hashimoto, T. (2024). *Observational scaling laws and the predictability of language model performance*. - Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). *Proximal policy optimization algorithms*. - Seed, B., Chen, J., Fan, T., Liu, X., Liu, L., Lin, Z., Wang, M., Wang, C., Wei, X., Xu, W., et al. (2025). *Seed1. 5-thinking: Advancing superb reasoning models with reinforcement learning*. arXiv preprint arXiv:2504.13914. - Setlur, A., Nagpal, C., Fisch, A., Geng, X., Eisenstein, J., Agarwal, R., Agarwal, A., Berant, J., & Kumar, A. (2024). *Rewarding progress: Scaling automated process verifiers for llm reasoning*. - Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., Zhang, H., Zhang, M., Li, Y., Wu, Y., et al. (2024). *Deepseekmath: Pushing the limits of mathematical reasoning in open language models*. arXiv preprint arXiv:2402.03300. - Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., et al. (2022). *Beyond the imitation game: Quantifying and extrapolating the capabilities of language models*. arXiv preprint arXiv:2206.04615. - Wortsman, M., Dettmers, T., Zettlemoyer, L., Morcos, A., Farhadi, A., & Schmidt, L. (2023). Stable and low-precision training for large-scale vision-language models. *Advances in Neural Information Processing Systems*, *36*, 10271–10298. - xAI Team. (2025). *Grok 4*. - Xie, Y., Goyal, A., Zheng, W., Kan, M.-Y., Lillicrap, T. P., Kawaguchi, K., & Shieh, M. (2024). *Monte carlo tree search boosts reasoning via iterative preference learning*. arXiv preprint arXiv:2405.00451. - Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., et al. (2025). *Qwen3 technical report*. - Yao, F., Liu, L., Zhang, D., Dong, C., Shang, J., & Gao, J. (2025). *Your efficient RL framework secretly brings you off-policy RL training*. - Yu, Q., Zhang, Z., Zhu, R., Yuan, Y., Zuo, X., Yue, Y., Dai, W., Fan, T., Liu, G., Liu, L., et al. (2025). *Dapo: An open-source llm reinforcement learning system at scale*. arXiv preprint arXiv:2503.14476. - Yuan, Y., Yue, Y., Zhu, R., Fan, T., & Yan, L. (2025). *What’s behind PPO’s collapse in long-cot? value optimization holds the secret*. arXiv preprint arXiv:2503.01491. - Yue, Y., Yuan, Y., Yu, Q., Zuo, X., Zhu, R., Xu, W., Chen, J., Wang, C., Fan, T., Du, Z., et al. (2025). *Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks*. arXiv preprint arXiv:2504.05118. - Zhang, L., Hosseini, A., Bansal, H., Kazemi, M., Kumar, A., & Agarwal, R. (2025a). *Generative verifiers: Reward modeling as next-token prediction*. - Zhang, R., Arora, D., Mei, S., & Zanette, A. (2025b). *SPEED-RL: Faster training of reasoning models via online curriculum learning*. - Zheng, C., Liu, S., Li, M., Chen, X.-H., Yu, B., Gao, C., Dang, K., Liu, Y., Men, R., Yang, A., Zhou, J., & Lin, J. (2025a). *Group sequence policy optimization*. - Zheng, H., Zhou, Y., Bartoldson, B. R., Kailkhura, B., Lai, F., Zhao, J., & Chen, B. (2025b). *Act only when it pays: Efficient reinforcement learning for LLM reasoning via selective rollouts*. - Pu, Y., Niu, Y., Tang, J., Xiong, J., Hu, S., & Li, H. (2025). Compute-Optimal Scaling for Value-Based Deep RL. arXiv. Retrieved from https://arxiv.org/abs/2508.14881