SERA: Neue Ansätze zur Entwicklung effizienter Coding Agents

Kategorien:

No items found.

Freigegeben:

January 29, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

SERA (Soft-Verified Efficient Repository Agents) ist eine neue Methode zur effizienten und kostengünstigen Entwicklung spezialisierter Coding Agents.
Die Methode ermöglicht das Training von KI-Modellen, die sich an private Codebasen anpassen können, ohne diese Dritten zugänglich zu machen.
SERA erreicht mit Supervised Finetuning (SFT) vergleichbare Leistungen wie führende Open-Weight-Modelle und übertrifft Open-Source-Lösungen.
Ein zentraler Aspekt ist die "Soft Verified Generation" (SVG), die synthetische Trainingsdaten ohne aufwendige Testinfrastruktur generiert.
Die Kosten für die Erstellung von SERA-Modellen sind signifikant niedriger als bei Reinforcement Learning oder traditionellen Methoden zur synthetischen Datengenerierung.
SERA ist als Teil der "Ai2 Open Coding Agents"-Serie quelloffen verfügbar und soll die Forschung im Bereich Coding Agents demokratisieren.
Die Methode zeigt, dass auch unvollständig verifizierte Daten für das Training von Coding Agents effektiv sein können.

Als Senior Specialist Journalist und Analyst für Mindverse, Ihrem KI-Partner, präsentieren wir Ihnen heute eine detaillierte Analyse einer Entwicklung, die das Potenzial hat, die Landschaft der Softwareentwicklung durch künstliche Intelligenz maßgeblich zu beeinflussen: SERA: Soft-Verified Efficient Repository Agents. Dieses Konzept, das kürzlich vom Allen Institute for AI (Ai2) vorgestellt wurde, verspricht eine Revolution in der Art und Weise, wie Coding Agents trainiert und eingesetzt werden, insbesondere im Hinblick auf private Codebasen und Kosteneffizienz.

Die Herausforderung bei der Entwicklung von Coding Agents

Coding Agents, also KI-Systeme, die Software entwickeln, testen und warten können, haben in den letzten Jahren erhebliche Fortschritte gemacht. Sie sind in der Lage, Bugs zu beheben, Code zu refaktorieren und sogar Pull Requests zu erstellen. Trotz dieser Fortschritte stehen viele dieser Systeme vor ähnlichen Herausforderungen:

Geschlossene Systeme: Viele leistungsstarke Coding Agents sind proprietär, was ihre Anpassung an spezifische Kundenbedürfnisse erschwert.
Hohe Trainingskosten: Das Training dieser Modelle erfordert oft erhebliche Rechenressourcen und ist daher teuer.
Anpassung an private Codebasen: Die Spezialisierung auf unternehmensinterne oder private Codebasen ist komplex und birgt Datenschutzbedenken, da der Code oft externen Anbietern zugänglich gemacht werden muss.

Diese Faktoren haben dazu geführt, dass die Entwicklung und der Einsatz von Coding Agents hauptsächlich auf große Unternehmen und Forschungseinrichtungen mit umfangreichen Ressourcen beschränkt waren.

SERA: Ein Paradigmenwechsel in der Agentenentwicklung

SERA (Soft-Verified Efficient Repository Agents) wurde entwickelt, um diese Barrieren zu überwinden. Es handelt sich um eine Methode, die es ermöglicht, spezialisierte Coding Agents schnell und kostengünstig zu erstellen, die sich an jede Codebasis anpassen können. Die Kerninnovationen von SERA liegen in der Effizienz der Datengenerierung und der Verifizierung.

Soft Verified Generation (SVG): Der Schlüssel zur Effizienz

Die zentrale Komponente von SERA ist die "Soft Verified Generation" (SVG). Traditionelle Methoden zur Generierung synthetischer Trainingsdaten für Coding Agents erfordern einen hohen Grad an Verifizierung, oft durch das Ausführen von Unit-Tests. Dies ist zeitaufwendig, ressourcenintensiv und setzt eine umfassende Testinfrastruktur voraus.

SVG vereinfacht diesen Prozess erheblich. Anstatt die Korrektheit von synthetischen Code-Patches durch Unit-Tests zu überprüfen, vergleicht SVG diese lediglich mit einem Referenz-Patch auf Zeilenebene. Wenn ein generierter Patch eine ausreichende Übereinstimmung (z.B. 50% oder mehr) mit dem Referenz-Patch aufweist, wird er als verifiziert betrachtet. Dieses Konzept basiert auf der Beobachtung, dass der Wert einer Trajektorie für das Training nicht unbedingt in der vollkommenen Korrektheit des Patches liegt, sondern in den Fähigkeiten, die sie demonstriert, wie die Interpretation einer Anweisung, die Navigation durch eine Codebasis und die Umsetzung einer Absicht in Code.

Das SVG-Verfahren umfasst zwei Rollouts:

Erster Rollout: Ein "Teacher-Modell" erhält eine vage Anweisung, eine Änderung an einer Codebasis vorzunehmen, beginnend mit einer zufällig ausgewählten Funktion. Dies erzeugt eine Trajektorie und einen Patch.
Synthetische PR-Generierung: Die Trajektorie des ersten Rollouts wird in einen synthetischen Pull Request (PR) umgewandelt.
Zweiter Rollout: Das Teacher-Modell versucht, den ursprünglichen Patch basierend auf der Beschreibung des synthetischen PR zu reproduzieren. Dies erzeugt einen zweiten Patch.
Soft-Verifizierung: Die beiden Patches werden auf Zeilenebene verglichen, um die Qualität der generierten Daten zu beurteilen.

Diese Methode reduziert den Bedarf an Testinfrastruktur und ermöglicht die Datengenerierung aus jeder beliebigen Codebasis, unabhängig von deren Testabdeckung oder -qualität. Dies führt zu einer massiven Reduzierung der Kosten und Komplexität bei der Erstellung von Trainingsdaten.

Kosten- und Leistungseffizienz

Die Forschung hinter SERA zeigt, dass diese Methode extrem kosteneffizient ist. Im Vergleich zu Reinforcement Learning ist die Erstellung von SERA-Modellen bis zu 26-mal günstiger, und im Vergleich zu früheren Methoden zur synthetischen Datengenerierung sogar bis zu 57-mal günstiger, um eine gleichwertige Leistung zu erzielen. Ein SERA-Modell kann bereits für etwa 1.300 US-Dollar an eine bestimmte Codebasis spezialisiert werden.

SERA-32B, ein 32 Milliarden Parameter umfassender Coding Agent, erreicht auf dem SWE-bench Verified Benchmark eine Auflösungsrate von 49,5 % bei 32K Kontext und 54,2 % bei 64K Kontext. Dies stellt einen neuen Stand der Technik für vollständig quelloffene Modelle dar und erreicht die Leistung von führenden Open-Weight-Modellen wie Devstral-Small-2 und GLM-4.5-Air.

Spezialisierung auf private Codebasen

Ein wesentlicher Vorteil von SERA ist die Fähigkeit zur Spezialisierung auf private Codebasen. Während geschlossene Modelle oft Schwierigkeiten mit weniger verbreiteten Sprachen oder proprietärem Code haben, erlaubt SERA Unternehmen, ein kleines, lokales Modell auf ihre eigene Codebasis zu trainieren, ohne den Code Dritten zugänglich zu machen. Dies ist besonders relevant für Start-ups, regulierte Branchen und Open-Source-Maintainer.

Experimente haben gezeigt, dass ein spezialisiertes SERA-Modell von 32 Milliarden Parametern die Leistung seines 100 Milliarden Parameter umfassenden Teacher-Modells (GLM-4.5-Air) auf Codebasen wie Django und Sympy übertreffen kann, nachdem es mit nur 8.000 Samples trainiert wurde.

Ablationen und Analysen: Erkenntnisse aus der Forschung

Die Entwicklung von SERA umfasste umfangreiche Analysen zu verschiedenen Designentscheidungen. Hier sind einige der wichtigsten Erkenntnisse:

Verifizierung: Überraschenderweise zeigte sich, dass eine strikte Verifizierung der Trainingsdaten keinen signifikanten Vorteil gegenüber einer Soft-Verifizierung oder sogar unverifizierten Daten bietet. Dies deutet darauf hin, dass auch unvollständige oder "falsche" Trajektorien wichtige Fähigkeiten für Coding Agents vermitteln können.
Trunkierung: Die Art und Weise, wie lange Trajektorien auf die Kontextlänge des Basismodells zugeschnitten werden, beeinflusst die Leistung. Trajektorien mit einem hohen "Trunkierungsverhältnis" (d.h. die meisten Schritte passen in den Kontext) führen zu besseren Ergebnissen als zufällig geschnittene Trajektorien.
Datenfilterung für Spezialisierung: Das Filtern von Trajektorien mit übermäßig langen Edits oder Tool-Calls kann die Leistung bei der Spezialisierung auf bestimmte Repositories verbessern, ist jedoch nicht universell anwendbar und sollte auf die spezifischen Codebase-Eigenschaften abgestimmt werden.
Teacher-Modelle: Die Qualität der "Reasoning Traces" (Gedankengänge) des Teacher-Modells ist entscheidend. Modelle mit elaborierteren Reasoning Traces führen zu besseren Ergebnissen im Student-Modell.
Mischen von Rollouts: Das Mischen von Trajektorien aus dem ersten und zweiten Rollout kann die Stichprobengröße erhöhen und in datenbeschränkten Umgebungen zu Leistungssteigerungen führen.

Robuste Evaluierung und Best Practices

Die Forscher legten großen Wert auf die statistische Robustheit ihrer Ergebnisse. Ihre Analyse von 78 experimentellen Bedingungen mit jeweils drei Zufallssamen (insgesamt 234 Evaluierungsläufe) führte zu wichtigen Empfehlungen für die Evaluierung von Coding Agents:

Mindestens 3 Seeds (Zufallssamen) verwenden, idealerweise mehr für kleine Effekte.
Standardabweichungen zusammen mit den Mittelwerten angeben.
Das Signal-Rausch-Verhältnis (SNR) berechnen; Ergebnisse mit SNR unter 2 sollten als vorläufig betrachtet werden.
Sicherstellen, dass Verbesserungen über verschiedene Modellkonfigurationen hinweg übertragbar sind.
Skalierungsgesetze verwenden, um die Effizienz der Experimente und die Robustheit der Ergebnisse zu überprüfen.

Diese Empfehlungen sind entscheidend, um die Verlässlichkeit von Forschungsergebnissen in einem Bereich zu gewährleisten, der oft durch hohe Varianz und die Gefahr von zufälligen Verbesserungen gekennzeichnet ist.

Bereitstellung und Zugänglichkeit

SERA ist als Teil der "Ai2 Open Coding Agents"-Serie verfügbar und wird mit allen notwendigen Komponenten veröffentlicht, um die Arbeit zu reproduzieren und zu erweitern: Trainingsdaten, Generierungscode, Modellgewichte und Evaluierungsskripte. Dies soll die Forschung im Bereich Coding Agents demokratisieren und den Zugang für individuelle Forscher und kleine akademische Labore erleichtern.

Die Integration mit Claude Code wird durch einen leichtgewichtigen Proxy-Server ermöglicht, der die Kompatibilität zwischen den SWE-Agent-Toolformaten, auf denen SERA trainiert wurde, und der Anthropic API herstellt. Dies erlaubt eine nahtlose Nutzung von SERA in der Claude Code-Umgebung.

Ausblick und Fazit

SERA stellt einen wichtigen Schritt in der Entwicklung von Coding Agents dar. Durch die Kombination von Kosteneffizienz, der Fähigkeit zur Spezialisierung auf private Codebasen und der Zugänglichkeit durch Open-Source-Veröffentlichung hat SERA das Potenzial, die Art und Weise, wie Software entwickelt wird, grundlegend zu verändern. Es ermöglicht kleineren Teams und einzelnen Entwicklern, leistungsstarke KI-gestützte Entwicklungstools zu nutzen, ohne dabei Kompromisse bei Datenschutz oder Kosten eingehen zu müssen.

Die Erkenntnisse aus der Forschung zu SERA unterstreichen die Bedeutung einer sorgfältigen und robusten Methodik in der KI-Forschung. Die Konzentration auf Effizienz und die Bereitschaft, traditionelle Annahmen (wie die Notwendigkeit strikter Verifizierung) zu hinterfragen, haben zu einem System geführt, das nicht nur leistungsstark, sondern auch praktisch anwendbar ist.

Mindverse verfolgt diese Entwicklungen genau, um unseren B2B-Kunden stets die aktuellsten und relevantesten Einblicke in die Welt der KI zu bieten. SERA ist ein Beispiel dafür, wie Innovationen in der KI-Forschung greifbare Vorteile für die Geschäftswelt schaffen können, indem sie komplexe Technologien zugänglicher und anpassbarer machen.

Bibliographie

- Allen Institute for AI. (2026). Open Coding Agents: Fast, accessible coding agents that adapt to any repo. Ai2 Blog. - Shen, E., Tormoen, D., Shah, S., Farhadi, A., & Dettmers, T. (2026). SERA: Soft-Verified Efficient Repository Agents. arXiv preprint arXiv:2601.20789. - Dettmers, T. (2026). My Journey Towards Coding Agents: Building SERA. Tim Dettmers' Blog. - Barron, J. (2026). Apiiro's Guardian Agent, Ai2's Open Coding Agents, and more — Daily News Digest. SD Times. - Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., & Narasimhan, K. (2023). SWE-bench: Can Language Models Resolve Real-World GitHub Issues?. arXiv preprint arXiv:2310.06770. - Yang, J., Lieret, K. A., Jimenez, C. E., Wettig, A., Khandpur, K., Zhang, Y., Hui, B., Press, O., Schmidt, L., & Yang, D. (2025). SWE-smith: Scaling Data for Software Engineering Agents. arXiv preprint arXiv:2504.21798. - Cao, S., Li, D., Zhao, F., Yuan, S., Hegde, S., Chen, C., Ruan, C., Griggs, T., Liu, S., Tang, E., Liaw, R., Moritz, P., Zaharia, M., Gonzalez, J. E., & Stoica, I. (2025). SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent. arXiv preprint arXiv:2511.16108. - Luo, M., Jain, N., Singh, J., Tan, S., Patel, A., et al. (2025). DeepSWE: Training a Fully Open-sourced, State-of-the-Art Coding Agent by Scaling RL. Together AI Blog. - GLM-4.5 Team, Zeng, A., Lv, X., Zheng, Q., Hou, Z., Chen, B., et al. (2025). GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models. arXiv preprint arXiv:2508.06471. - Kwon, W., Li, Z., Zhuang, S., Sheng, Y., Zheng, L., Yu, C. H., Gonzalez, J. E., Zhang, H., & Stoica, I. (2023). Efficient Memory Management for Large Language Model Serving with PagedAttention. Symposium on Operating Systems Principles.