Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeiten von großen Sprachmodellen (LLMs) im Software Engineering erfahren eine signifikante Transformation. Ursprünglich auf die Generierung einzelner Code-Schnipsel fokussiert, entwickeln sich diese Modelle zunehmend zu autonomen "Agenten", die in der Lage sind, komplexe Software-Repositories eigenständig zu navigieren, zu bearbeiten und zu testen. Diese Entwicklung, bekannt als "agentisches Software Engineering", stellt neue Anforderungen an die Trainingsmethoden von LLMs. Eine vielversprechende, jedoch bislang wenig erforschte Strategie ist das so genannte "agentic Mid-training" – ein Zwischenschritt im Trainingsprozess, der darauf abzielt, grundlegende agentische Verhaltensweisen in den Modellen zu verankern.
Traditionelle Trainingsmethoden für Code-Agenten basieren oft auf Post-Training, bei dem Modelle durch überwachtes Fine-Tuning (SFT) auf kuratierten Trajektorien und/oder Reinforcement Learning (RL) aus Ausführungsfeedback lernen. Obwohl diese Ansätze effektiv sein können, sind sie aufgrund des hohen Ressourcenbedarfs und der begrenzten Verfügbarkeit hochwertiger, agentischer Trajektorien skaliert. Ein zentrales Problem ist die Diskrepanz zwischen statischen Trainingsdaten und der dynamischen, feedbackreichen Umgebung realer Softwareentwicklung. Statische Daten, wie beispielsweise GitHub Commits, zeigen zwar die fertigen Änderungen, aber nicht den iterativen Prozess, wie ein Entwickler oder ein Agent diese Änderungen vornimmt, Kontext berücksichtigt oder auf Testfeedback reagiert.
Das daVinci-Dev-Projekt adressiert diese Herausforderung durch einen systematischen Ansatz für agentisches Mid-Training. Im Mittelpunkt steht die Entwicklung von "agent-native Daten", die den authentischen Workflow eines Software-Agenten widerspiegeln. Diese Daten setzen sich aus zwei komplementären Arten von Trajektorien zusammen:
Für die Erstellung der kontextuell-nativen Trajektorien wurden Millionen von Pull Requests aus GitHub gesammelt und in ein strukturiertes Format umgewandelt. Dabei wurden sowohl ein allgemeiner Datensatz (Dctx_gen) als auch ein Python-fokussierter Datensatz (Dctx_py) erstellt, um eine breite Abdeckung und gleichzeitig eine Ausrichtung an spezifischen Benchmarks zu gewährleisten. Die umwelt-nativen Trajektorien (Denv) wurden durch die Ausführung eines Agenten in realen Docker-Umgebungen generiert, die aus GitHub PRs abgeleitet wurden. Diese Trajektorien umfassen sowohl erfolgreiche als auch nicht-erfolgreiche Ausführungen, um realistische Debugging-Szenarien abzubilden.
Die daVinci-Dev-Modelle, basierend auf Qwen2.5-Modellen, wurden mit diesen agent-native Daten im Mid-Training trainiert. Die Evaluation auf dem SWE-Bench Verified Benchmark zeigte signifikante Verbesserungen:
Diese Ergebnisse übertreffen die Leistung des vorherigen offenen Mid-Training-Rezepts Kimi-Dev, obwohl daVinci-Dev weniger als die Hälfte der Mid-Training-Tokens (73,1 Milliarden gegenüber ca. 150 Milliarden) verwendet. Dies deutet auf eine höhere Token-Effizienz und eine verbesserte Fähigkeit hin, agentische Verhaltensweisen zu internalisieren.
Neben den spezifischen Verbesserungen im agentischen Software Engineering zeigten die daVinci-Dev-Modelle auch Generalisierungsvorteile. Bei standardmäßigen Code-Generierungsaufgaben (HumanEval, EvalPlus) und wissenschaftlichen Benchmarks (GPQA, SciBench) konnten Leistungssteigerungen beobachtet werden. Dies legt nahe, dass die im Mid-Training erworbenen Fähigkeiten zur autonomen Softwareentwicklung grundlegende Denkfähigkeiten fördern, die über reines Codieren hinausgehen.
Das Konzept des agentischen Mid-Trainings ist auch skalierbar. Die Fülle an öffentlich verfügbaren GitHub Pull Requests bietet ein enormes Potenzial für die Erweiterung der Datensätze. Darüber hinaus können Fortschritte in der automatisierten Umgebungskonstruktion dazu beitragen, noch tiefere und verifizierbarere Trainingsdaten zu generieren.
Die Forschung im Rahmen von daVinci-Dev demonstriert, dass agentische Coding-Fähigkeiten von LLMs durch einen datenzentrierten Ansatz, der GitHub Pull Requests und ausführbare Interaktionstrajektorien nutzt, erheblich verbessert werden können. Die Kombination von kontextuell-nativen und umwelt-nativen Daten bietet einen effizienten Weg, um Modelle auf die dynamischen Anforderungen des Software Engineerings vorzubereiten. Während die traditionelle Codegenerierung weiterhin eine Rolle spielt, markiert dieser Fokus auf agentisches Mid-Training einen Schritt in Richtung autonomer KI-Softwareentwickler. Zukünftige Arbeiten könnten die Anwendung dieses Ansatzes auf breitere Sprachökosysteme und komplexere Wartungsaufgaben umfassen, um die Lücke zwischen statischen historischen Daten und dynamischen Ausführungsumgebungen weiter zu schließen.
Bibliographie
- Zeng, J., Fu, D., Mi, T., Zhuang, Y., Huang, Y., Li, X., ... & Liu, P. (2026). daVinci-Dev: Agent-native Mid-training for Software Engineering. arXiv preprint arXiv:2601.18418. - AI Research Roundup. (2026, Januar 27). daVinci-Dev: Agent-native mid-training for LLMs [Video]. YouTube. - GAIR. (o. J.). GAIR/daVinci-Dev-72B. Hugging Face. Abgerufen am 27. Januar 2026. - OpenAI. (o. J.). Building agents. OpenAI Developer Tracks. Abgerufen am 27. Januar 2026. - Govindaraj, P. (2026, Januar 28). daVinci-Dev: Agent-native Mid-training for Software Engineering [Video]. YouTube. - Cognition Team. (2025, Juni). Coding Agents 101: The Art of Actually Getting Things Done. Devin.ai.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen