Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Im Bereich der künstlichen Intelligenz, insbesondere bei der Entwicklung von Modellen zur Code-Generierung, stellt die Verfügbarkeit hochwertiger Trainingsdaten oft eine Herausforderung dar. Eine aktuelle Zusammenarbeit zwischen Forschenden der Tsinghua-Universität und Microsoft Research hat nun einen Ansatz vorgestellt, der dieses Paradigma grundlegend verändert. Das Team hat ein 7-Milliarden-Parameter-Modell namens X-Coder entwickelt, das ausschliesslich mit synthetischen Daten trainiert wurde und auf führenden Benchmarks Modelle mit doppelt so vielen Parametern übertrifft.
Die Forschung konzentriert sich auf die Entwicklung von Sprachmodellen (LLMs), die in der Lage sind, Code zu generieren, eine Fähigkeit, die in vielen Branchen von grosser Bedeutung ist. Bisher war es die gängige Annahme, dass grössere Modelle und umfangreiche reale Datensätze für eine überlegene Leistung unerlässlich sind. Die Ergebnisse des Teams stellen diese Annahme infrage, indem sie zeigen, dass die Qualität und Vielfalt synthetischer Daten einen entscheidenden Vorteil bieten können.
Das Herzstück dieses Erfolgs ist die neuartige Datenpipeline namens SynthSmith. Im Gegensatz zu früheren Ansätzen, die bestehende Aufgaben umschrieben oder erweiterten, generiert SynthSmith Aufgaben, Lösungen und Testfälle von Grund auf. Dieser Prozess umfasst mehrere Schritte:
Diese Methode ermöglicht es, hochdiverse und anspruchsvolle Trainingsdaten zu erzeugen, die nicht durch die Begrenzungen realer, menschlich erstellter Datensätze eingeschränkt sind.
Ein wesentlicher Erkenntnisgewinn aus den Experimenten ist, dass die Vielfalt der Aufgaben einen grösseren Einfluss auf die Modellleistung hat als die Anzahl der Lösungen pro Aufgabe. Datensätze mit einer grossen Bandbreite an unterschiedlichen Aufgaben und jeweils einer Lösung erwiesen sich als effektiver als Datensätze mit weniger Aufgaben, aber mehreren Lösungen pro Aufgabe. Dies deutet darauf hin, dass die Generalisierungsfähigkeit eines Modells primär durch die Breite der konfrontierten logischen Herausforderungen gefördert wird.
Der mit 7 Milliarden Parametern ausgestattete X-Coder erreichte auf der Benchmark LiveCodeBench v5 eine durchschnittliche Erfolgsquote von 62,9 % und auf der neueren Version v6 von 55,8 %. Diese Werte übertreffen die Leistung von Modellen wie DeepCoder-14B-Preview und AReal-boba2-14B, die jeweils 14 Milliarden Parameter besitzen und auf stärkeren Basismodellen basieren. Dies ist ein Beleg dafür, dass die Effizienz im Training und die Qualität der Daten die schiere Grösse des Modells überwinden können.
Ein weiterer Vorteil des synthetischen Ansatzes ist die Reduzierung von Benchmark-Kontaminationen. Da der X-Coder ausschliesslich mit synthetischen Daten trainiert wurde, konnte er keine Aufgaben aus älteren Benchmarks auswendig lernen. Dies zeigte sich in einem geringeren Leistungsabfall auf neueren Benchmark-Versionen im Vergleich zu Modellen, die mit realen Daten trainiert wurden und auf älteren Versionen oft deutlich höhere Werte erreichten.
Das Training des X-Coders erfolgte in zwei Phasen: ein überwachtes Fine-Tuning (SFT) und eine anschliessende Reinforcement-Learning-Phase (RL). Für das SFT wurden 128 H200 GPUs über 220 Stunden eingesetzt, während das RL 32 H200 GPUs über sieben Tage beanspruchte. Die Forschenden planen, die Modellgewichte zu veröffentlichen, um kleineren Entwicklungsteams den Zugang zu leistungsstarken KI-Programmierassistenten zu ermöglichen, ohne hohe Infrastrukturkosten tragen zu müssen.
Die Ergebnisse dieser Forschung haben weitreichende Implikationen. Sie belegen, dass hochwertige synthetische Daten eine praktikable Alternative zu realen Daten darstellen können, insbesondere in Bereichen, in denen reale Daten knapp, teuer oder mit Urheberrechtsproblemen behaftet sind. Der Fokus verschiebt sich von der reinen Skalierung der Modellgrösse hin zur Optimierung der Trainingsmethodik und der Datenqualität. Dies könnte die Entwicklung effizienterer und zugänglicherer grosser Sprachmodelle vorantreiben und neue Möglichkeiten für spezialisierte KI-Assistenten in verschiedenen technischen Domänen eröffnen.
Die zunehmende Bedeutung synthetischer Daten zeigt sich auch in anderen Bereichen der KI. Unternehmen wie Datology AI entwickeln Frameworks zur Generierung informationsdichterer Trainingsdaten, und Nvidia setzt stark auf synthetische Daten in der Robotik, um den Mangel an realen Trainingsdaten zu kompensieren. Die hier vorgestellten Erkenntnisse könnten diesen Trend weiter verstärken und die KI-Landschaft nachhaltig prägen.
Bibliography - Kemper, J. (2026, 24. Januar). Microsoft-Tsinghua team trains 7B coding model that beats 14B rivals using only synthetic data. The Decoder. - Kasanmascheff, M. (2026, 24. Januar). AI Coding: Microsoft’s 7B X-Coder Outperforms 14B Rivals on Synthetic Data. WinBuzzer. - Synthetic data beats model size: New 7B AI coders top 14B rivals. (2026, 24. Januar). AI Tech Suite News. - Wu, J., Li, H., Zhang, X., Guo, J., Luo, J., Liu, S., Huang, Y., Chu, R., Li, S., Yang, Y. (2026, 11. Januar). X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests. arXiv. - Microsoft Research. (2024, 12. Dezember). Phi-4 Technical Report. - Feng, H., Zhao, P., Sun, Q., Xu, C., Yang, F., Wang, L., Ma, Q., Lin, Q., Rajmohan, S., Zhang, D., Zhang, Q. (2025, 10. Juli). WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models. ACL Anthology. - Xu, Z., Liu, Y., Yin, Y., Zhou, M., Poovendran, R. (2025, 1. Januar). KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding. KodCode.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen