Neuer Ansatz im Software Engineering: Agentenbasiertes Mid-Training für große Sprachmodelle

Kategorien:

No items found.

Freigegeben:

January 31, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Weiterentwicklung von Large Language Models (LLMs) im Bereich des Software Engineerings verlagert sich von der reinen Codegenerierung hin zu autonomen, agentenbasierten Systemen.
"Agentic Mid-training" stellt einen neuen Ansatz dar, der darauf abzielt, grundlegende agentische Verhaltensweisen in LLMs durch Training mit großen, authentischen Workflow-Daten zu verankern.
Das daVinci-Dev-Projekt führt "agent-native Daten" ein, die aus kontextuell-nativen und umwelt-nativen Trajektorien bestehen, um die Lücke zwischen statischen Trainingsdaten und dynamischen Entwicklungsumgebungen zu schließen.
Kontextuell-native Trajektorien, abgeleitet aus GitHub Pull Requests, bilden den vollständigen Informationsfluss eines Entwicklungszyklus ab, während umwelt-native Trajektorien reale Interaktionen und Feedback aus ausführbaren Umgebungen erfassen.
Die daVinci-Dev-Modelle (32B und 72B) erreichen auf dem SWE-Bench Verified Benchmark hohe Lösungsraten von 56,1 % bzw. 58,5 % und übertreffen damit bestehende offene Trainingsrezepte.
Dieser Ansatz zeigt auch Generalisierungsvorteile bei allgemeinen Code-Generierungsaufgaben und wissenschaftlichen Benchmarks.

Revolution in der Softwareentwicklung: Agenten-natives Mid-Training für KI-gestütztes Software Engineering

Die Fähigkeiten von großen Sprachmodellen (LLMs) im Software Engineering erfahren eine signifikante Transformation. Ursprünglich auf die Generierung einzelner Code-Schnipsel fokussiert, entwickeln sich diese Modelle zunehmend zu autonomen "Agenten", die in der Lage sind, komplexe Software-Repositories eigenständig zu navigieren, zu bearbeiten und zu testen. Diese Entwicklung, bekannt als "agentisches Software Engineering", stellt neue Anforderungen an die Trainingsmethoden von LLMs. Eine vielversprechende, jedoch bislang wenig erforschte Strategie ist das so genannte "agentic Mid-training" – ein Zwischenschritt im Trainingsprozess, der darauf abzielt, grundlegende agentische Verhaltensweisen in den Modellen zu verankern.

Die Herausforderung: Diskrepanz zwischen Training und Realität

Traditionelle Trainingsmethoden für Code-Agenten basieren oft auf Post-Training, bei dem Modelle durch überwachtes Fine-Tuning (SFT) auf kuratierten Trajektorien und/oder Reinforcement Learning (RL) aus Ausführungsfeedback lernen. Obwohl diese Ansätze effektiv sein können, sind sie aufgrund des hohen Ressourcenbedarfs und der begrenzten Verfügbarkeit hochwertiger, agentischer Trajektorien skaliert. Ein zentrales Problem ist die Diskrepanz zwischen statischen Trainingsdaten und der dynamischen, feedbackreichen Umgebung realer Softwareentwicklung. Statische Daten, wie beispielsweise GitHub Commits, zeigen zwar die fertigen Änderungen, aber nicht den iterativen Prozess, wie ein Entwickler oder ein Agent diese Änderungen vornimmt, Kontext berücksichtigt oder auf Testfeedback reagiert.

daVinci-Dev: Ein systematischer Ansatz für agentisches Mid-Training

Das daVinci-Dev-Projekt adressiert diese Herausforderung durch einen systematischen Ansatz für agentisches Mid-Training. Im Mittelpunkt steht die Entwicklung von "agent-native Daten", die den authentischen Workflow eines Software-Agenten widerspiegeln. Diese Daten setzen sich aus zwei komplementären Arten von Trajektorien zusammen:

Kontextuell-native Trajektorien: Diese Trajektorien bewahren den vollständigen Informationsfluss, den ein Agent erlebt. Sie basieren auf GitHub Pull Requests (PRs) und rekonstruieren den prozeduralen Prozess hinter jeder Codeänderung, einschließlich der Lokalisierung relevanter Dateien, des Verständnisses des Code-Kontextes und der iterativen Anwendung von Änderungen. Dies gewährleistet eine breite Abdeckung und Vielfalt der Entwicklungsmuster.
Umwelt-native Trajektorien: Diese Trajektorien werden in ausführbaren Repositories gesammelt und erfassen Beobachtungen, die aus tatsächlichen Tool-Aufrufen und Testausführungen stammen. Sie bieten eine authentische Interaktionstiefe, indem sie den dynamischen Feedback-Loop aus Bearbeitung, Test und Überarbeitung abbilden, der in der realen Entwicklung unerlässlich ist.

Implementierung und Ergebnisse

Für die Erstellung der kontextuell-nativen Trajektorien wurden Millionen von Pull Requests aus GitHub gesammelt und in ein strukturiertes Format umgewandelt. Dabei wurden sowohl ein allgemeiner Datensatz (Dctx_gen) als auch ein Python-fokussierter Datensatz (Dctx_py) erstellt, um eine breite Abdeckung und gleichzeitig eine Ausrichtung an spezifischen Benchmarks zu gewährleisten. Die umwelt-nativen Trajektorien (Denv) wurden durch die Ausführung eines Agenten in realen Docker-Umgebungen generiert, die aus GitHub PRs abgeleitet wurden. Diese Trajektorien umfassen sowohl erfolgreiche als auch nicht-erfolgreiche Ausführungen, um realistische Debugging-Szenarien abzubilden.

Die daVinci-Dev-Modelle, basierend auf Qwen2.5-Modellen, wurden mit diesen agent-native Daten im Mid-Training trainiert. Die Evaluation auf dem SWE-Bench Verified Benchmark zeigte signifikante Verbesserungen:

Das 32B-Modell erreichte eine Lösungsrate von 56,1 %.
Das 72B-Modell erreichte eine Lösungsrate von 58,5 %.

Diese Ergebnisse übertreffen die Leistung des vorherigen offenen Mid-Training-Rezepts Kimi-Dev, obwohl daVinci-Dev weniger als die Hälfte der Mid-Training-Tokens (73,1 Milliarden gegenüber ca. 150 Milliarden) verwendet. Dies deutet auf eine höhere Token-Effizienz und eine verbesserte Fähigkeit hin, agentische Verhaltensweisen zu internalisieren.

Generalisierung und Skalierbarkeit

Neben den spezifischen Verbesserungen im agentischen Software Engineering zeigten die daVinci-Dev-Modelle auch Generalisierungsvorteile. Bei standardmäßigen Code-Generierungsaufgaben (HumanEval, EvalPlus) und wissenschaftlichen Benchmarks (GPQA, SciBench) konnten Leistungssteigerungen beobachtet werden. Dies legt nahe, dass die im Mid-Training erworbenen Fähigkeiten zur autonomen Softwareentwicklung grundlegende Denkfähigkeiten fördern, die über reines Codieren hinausgehen.

Das Konzept des agentischen Mid-Trainings ist auch skalierbar. Die Fülle an öffentlich verfügbaren GitHub Pull Requests bietet ein enormes Potenzial für die Erweiterung der Datensätze. Darüber hinaus können Fortschritte in der automatisierten Umgebungskonstruktion dazu beitragen, noch tiefere und verifizierbarere Trainingsdaten zu generieren.

Fazit und Ausblick

Die Forschung im Rahmen von daVinci-Dev demonstriert, dass agentische Coding-Fähigkeiten von LLMs durch einen datenzentrierten Ansatz, der GitHub Pull Requests und ausführbare Interaktionstrajektorien nutzt, erheblich verbessert werden können. Die Kombination von kontextuell-nativen und umwelt-nativen Daten bietet einen effizienten Weg, um Modelle auf die dynamischen Anforderungen des Software Engineerings vorzubereiten. Während die traditionelle Codegenerierung weiterhin eine Rolle spielt, markiert dieser Fokus auf agentisches Mid-Training einen Schritt in Richtung autonomer KI-Softwareentwickler. Zukünftige Arbeiten könnten die Anwendung dieses Ansatzes auf breitere Sprachökosysteme und komplexere Wartungsaufgaben umfassen, um die Lücke zwischen statischen historischen Daten und dynamischen Ausführungsumgebungen weiter zu schließen.

Bibliographie

- Zeng, J., Fu, D., Mi, T., Zhuang, Y., Huang, Y., Li, X., ... & Liu, P. (2026). daVinci-Dev: Agent-native Mid-training for Software Engineering. arXiv preprint arXiv:2601.18418. - AI Research Roundup. (2026, Januar 27). daVinci-Dev: Agent-native mid-training for LLMs [Video]. YouTube. - GAIR. (o. J.). GAIR/daVinci-Dev-72B. Hugging Face. Abgerufen am 27. Januar 2026. - OpenAI. (o. J.). Building agents. OpenAI Developer Tracks. Abgerufen am 27. Januar 2026. - Govindaraj, P. (2026, Januar 28). daVinci-Dev: Agent-native Mid-training for Software Engineering [Video]. YouTube. - Cognition Team. (2025, Juni). Coding Agents 101: The Art of Actually Getting Things Done. Devin.ai.