Innovatives Docker-freies Framework zur Entwicklung von Software-Engineering-Agenten

Kategorien:

No items found.

Freigegeben:

February 4, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

SWE-World ist ein Docker-freies Framework zur Entwicklung von Software-Engineering-Agenten.
Es ersetzt physische Ausführungsumgebungen durch ein gelerntes Surrogatmodell.
Das Framework ermöglicht das Training und die Bewertung von Agenten ohne kostspielige Container-Einrichtung und -Wartung.
SWE-World nutzt LLM-basierte Modelle, die auf realen Agent-Umgebungs-Interaktionsdaten trainiert werden.
Es kann Zwischenergebnisse und Test-Feedback vorhersagen, was eine skalierbare Entwicklung ermöglicht.
Experimente zeigen deutliche Leistungssteigerungen bei Agenten wie Qwen2.5-Coder-32B.
Das Konzept des "Test-Time Scaling" (TTS) wird durch SWE-World effizienter gestaltet.

Die Entwicklung von künstlicher Intelligenz (KI) hat in den letzten Jahren bedeutende Fortschritte gemacht, insbesondere im Bereich der Large Language Models (LLMs). Diese Modelle zeigen eine wachsende Fähigkeit, komplexe Aufgaben zu lösen, darunter auch solche im Software Engineering (SWE). Ein zentrales Forschungsfeld ist dabei die Entwicklung von Software-Engineering-Agenten, die in der Lage sind, Code-Modifikationen autonom durchzuführen.

Herausforderungen in der Entwicklung von Software-Engineering-Agenten

Traditionell verlassen sich die meisten Ansätze zur Entwicklung von SWE-Agenten auf Feedback aus containerisierten Umgebungen, typischerweise unter Verwendung von Technologien wie Docker. Diese Umgebungen sind essenziell, um eine konsistente und isolierte Ausführung von Programmen und Tests zu gewährleisten. Sie erfordern jedoch eine vollständige Einrichtung der Abhängigkeiten und eine physische Ausführung der Software. Dieser Ansatz ist ressourcenintensiv und wartungsaufwändig, was das Training und die Skalierbarkeit von Agenten erheblich erschwert.

Die Notwendigkeit Docker-freier Umgebungen

Die hohen Anforderungen an Rechenleistung und Wartung, die mit containerisierten Umgebungen einhergehen, haben Forscher dazu veranlasst, nach alternativen Lösungen zu suchen. Ein vielversprechender Ansatz ist die Entwicklung Docker-freier Frameworks, die es ermöglichen, SWE-Agenten effizienter zu trainieren und zu bewerten. Dies würde die Abhängigkeit von einer kostspieligen Infrastruktur reduzieren und die Entwicklung von Agenten zugänglicher machen.

SWE-World: Ein innovatives Docker-freies Framework

In diesem Kontext wurde SWE-World vorgeschlagen, ein Docker-freies Framework, das physische Ausführungsumgebungen durch ein gelerntes Surrogatmodell ersetzt. Dieses Modell wird darauf trainiert, Zwischenergebnisse der Ausführung und das finale Test-Feedback vorherzusagen. Dadurch können Agenten lernen, ohne direkt mit physischen, containerisierten Umgebungen interagieren zu müssen.

Funktionsweise von SWE-World

SWE-World nutzt LLM-basierte Modelle, die auf Daten aus realen Agent-Umgebungs-Interaktionen trainiert werden. Anstatt den Code in einer tatsächlichen Umgebung auszuführen, simuliert das Surrogatmodell die Ergebnisse. Dies bewahrt den standardmäßigen Interaktionszyklus zwischen Agent und Umgebung, eliminiert jedoch die Notwendigkeit des kostspieligen Aufbaus und der Wartung von Umgebungen während der Agentenoptimierung und -bewertung.

Vorteile des Docker-freien Ansatzes

Ein wesentlicher Vorteil von SWE-World ist die Möglichkeit, die finalen Bewertungsergebnisse von Kandidatentrajektorien ohne tatsächliche Einreichung zu simulieren. Dies ermöglicht die Auswahl der besten Lösung aus mehreren Versuchen zur Testzeit, was ein effektives "Test-Time Scaling" (TTS) bei Software-Engineering-Aufgaben erleichtert. TTS bezieht sich auf Strategien, die die Leistung eines Agenten durch die Durchführung mehrerer Versuche oder die Nutzung zusätzlicher Rechenressourcen während der Inferenzzeit verbessern.

Experimentelle Ergebnisse und Leistungssteigerungen

Experimente mit SWE-World auf dem SWE-bench Verified Benchmark, einem Benchmark für die Bewertung von Software-Engineering-Agenten, zeigten signifikante Leistungssteigerungen. Beispielsweise konnte der Qwen2.5-Coder-32B-Agent seine Erfolgsquote von 6,2 % auf 52,0 % durch Docker-freies Supervised Fine-Tuning (SFT) steigern. Mit Docker-freiem Reinforcement Learning (RL) erreichte er 55,0 %, und mit zusätzlichem Test-Time Scaling (TTS) sogar 68,2 %.

Vergleich mit anderen Ansätzen

Diese Ergebnisse positionieren SWE-World als einen vielversprechenden Ansatz zur Überwindung der Skalierbarkeitsprobleme herkömmlicher Methoden. Andere Forschungsarbeiten, wie die Entwicklung von SWE-Dev, haben ebenfalls das Potenzial von Open-Source-LLMs für SWE-Agenten gezeigt und eine Auflösungsrate von 36,6 % für das Qwen2.5-Coder-32B-Modell auf SWE-bench Verified erreicht. Konzepte wie "Inference Scaling" durch Erhöhung der Interaktionsrunden innerhalb eines einzigen Laufs wurden ebenfalls untersucht, um die Leistung zu verbessern.

Die Rolle von LLMs und Reinforcement Learning

Die Forschung im Bereich der Software-Engineering-Agenten betont zunehmend die Bedeutung von LLMs als Denkmodule und von Reinforcement Learning als Trainingsmechanismus. DeepSWE, ein weiterer fortschrittlicher Coding-Agent, der auf Qwen3-32B basiert und ausschließlich mit Reinforcement Learning trainiert wurde, erreichte beeindruckende 59 % auf SWE-Bench-Verified mit Test-Time Scaling. Dies unterstreicht das Potenzial von RL-basierten Methoden, komplexe, mehrstufige Aufgaben im Software Engineering zu bewältigen.

Einheitliche Agenten und Benchmarks

Die Bestrebungen, die Effizienz und Skalierbarkeit von SWE-Agenten zu verbessern, führen auch zur Entwicklung von "Unified Software Engineering Agents" (USEagent). Diese Agenten sollen nicht auf spezifische Aufgaben spezialisiert sein, sondern eine Vielzahl von Software-Engineering-Aufgaben orchestrieren und handhaben können. Hierfür ist ein vereinheitlichter Benchmark, wie USEbench, entscheidend, der verschiedene Aufgaben wie Codierung, Testen und Patchen kombiniert.

Herausforderungen bei der Vereinheitlichung

Die Entwicklung solcher vereinheitlichter Agenten bringt Herausforderungen mit sich, darunter die Anpassung an Aufgaben jenseits fester Arbeitsabläufe, die Bereitstellung zuverlässiger und flexibler Aktionen sowie ein effektives Wissensmanagement. Die Fähigkeit eines Meta-Agenten, verschiedene Aktionen basierend auf dem Aufgabentyp und dem Aufgabenstatus zu orchestrieren, ist hierbei entscheidend.

Zukünftige Perspektiven

Die Forschung an Docker-freien Umgebungen und die Entwicklung von lernfähigen Surrogatmodellen stellen einen wichtigen Schritt dar, um die Skalierbarkeit und Effizienz von Software-Engineering-Agenten zu verbessern. Diese Fortschritte könnten die Entwicklung von KI-gestützten Softwareentwicklern erheblich beschleunigen und die Art und Weise, wie Software erstellt und gewartet wird, transformieren. Die kontinuierliche Verbesserung von LLMs und Reinforcement Learning-Techniken wird dabei eine zentrale Rolle spielen.

Der Weg zum autonomen Software-Ingenieur

Das Ziel ist die Schaffung von KI-Software-Ingenieuren, die in der Lage sind, komplexe Probleme autonom zu lösen, neue Funktionen zu implementieren und sogar Code zu übernehmen, der von anderen geschrieben wurde. Die hier diskutierten Entwicklungen legen den Grundstein für eine Zukunft, in der KI-Agenten als integrale Bestandteile von Softwareentwicklungsteams agieren können.

Bibliography

- Sun, S., Song, H., Huang, L., Jiang, J., Le, R., Lv, Z., Chen, Z., Hu, Y., Luo, W., Zhao, W. X., Song, Y., Xu, H., Zhang, T., & Wen, J.-R. (2026, February 4). SWE-World: Building Software Engineering Agents in Docker-Free Environments. arXiv.org. https://arxiv.org/abs/2602.03419 - Wang, H., Hou, Z., Wei, Y., Tang, J., & Dong, Y. (2025, July 27). SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling. ACL Anthology. https://aclanthology.org/2025.findings-acl.193.pdf - Luo, M., Jain, N., Singh, J., Tan, S., Patel, A., Wu, Q., Ariyak, A., Cai, C., Venkat, T., Zhu, S., Athiwaratkun, B., Roongta, M., Zhang, C., Li, L. E., Popa, R. A., Sen, K., & Stoica, I. (2025, July 2). DeepSWE: Training a Fully Open-sourced, State-of-the-Art Coding Agent by Scaling RL. Together AI. https://www.together.ai/blog/deepswe - Deng, X., Da, J., Pan, E., He, Y. Y., Ide, C., Garg, K., Lauffer, N., Park, A., Pasari, N., Rane, C., Sampath, K., Krishnan, M., Kundurthy, S., Hendryx, S., Wang, Z., Zhang, C. B. C., Jacobson, N., Liu, B., & Kenstler, B. (2025, September 18). SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? Scale AI. https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20(9).pdf - Applis, L., Zhang, Y., Liang, S., Jiang, N., Tan, L., & Roychoudhury, A. (2025, December 9). Unified Software Engineering Agent as AI Software Engineer. arXiv.org. https://arxiv.org/pdf/2506.14683 - Xia, C. S., Wang, Z., Yang, Y., Wei, Y., & Zhang, L. (2025, November 24). LIVE-SWE-AGENT: Can Software Engineering Agents Self-Evolve on the Fly? arXiv.org. https://arxiv.org/pdf/2511.13646