Neuartige Ansätze zur Erweiterung der Fähigkeiten von Sprachmodellen durch LLM-in-Sandbox

Kategorien:

No items found.

Freigegeben:

January 24, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

LLM-in-Sandbox ermöglicht grossen Sprachmodellen (LLMs) die Interaktion mit einer virtuellen Computerumgebung, um ihre Problemlösungsfähigkeiten über reine Textgenerierung hinaus zu erweitern.
Starke LLMs zeigen verbesserte Leistungen in verschiedenen, nicht-codebezogenen Domänen wie Mathematik, Physik und Biowissenschaften, indem sie externe Ressourcen nutzen, Dateiverwaltung betreiben und Code ausführen.
LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL) trainiert Modelle, die Sandbox-Umgebung effektiv zu nutzen, was zu einer breiteren Generalisierung und Leistungssteigerung führt, selbst bei schwächeren Modellen.
Die Implementierung von LLM-in-Sandbox bietet Effizienzvorteile, einschliesslich einer Reduzierung des Token-Verbrauchs bei langen Kontexten und geringem Infrastruktur-Overhead.
Durch die Sandbox-Interaktion können LLMs multimodale Inhalte erzeugen und autonome Werkzeuge erwerben, was ihre Fähigkeiten über die reine Text-zu-Text-Verarbeitung hinaus erweitert.

Die rapide Entwicklung von generativer Künstlicher Intelligenz (KI) hat zu einer Verschiebung von reinen Textgenerierungsmodellen hin zu agentischen Systemen geführt. Diese Systeme sind in der Lage, autonom zu handeln, komplexe Aufgaben zu lösen und mit ihrer Umgebung zu interagieren. Eine aktuelle Entwicklung in diesem Bereich ist die Einführung von "LLM-in-Sandbox", einem Paradigma, das grossen Sprachmodellen (LLMs) den Zugang zu einer virtuellen Computerumgebung ermöglicht. Diese Erweiterung soll die allgemeine Intelligenz von LLMs in nicht-codebezogenen Domänen fördern und ihre Anwendungsbereiche signifikant erweitern.

LLM-in-Sandbox: Eine neue Ära der agentischen Intelligenz

Das Kernkonzept von LLM-in-Sandbox besteht darin, LLMs eine virtuelle Computerumgebung zur Verfügung zu stellen, in der sie Aufgaben durch Interaktion und Exploration lösen können. Diese Sandbox, typischerweise ein über Docker-Container implementiertes Ubuntu-System, bietet den LLMs drei fundamentale Meta-Fähigkeiten:

Zugriff auf externe Ressourcen: LLMs können das Internet nutzen, um neues Wissen zu erwerben oder domänenspezifische Tools zu installieren.
Dateiverwaltung: Modelle können Dateien erstellen, lesen, bearbeiten und organisieren, was insbesondere für die Verarbeitung langer Kontexte von Vorteil ist.
Code-Ausführung: LLMs können beliebige Programme und Skripte ausführen, um Berechnungen durchzuführen, Daten zu verarbeiten oder Formatierungsanforderungen zu erfüllen.

Diese Fähigkeiten ermöglichen es LLMs, über die reine Textgenerierung hinauszugehen und komplexe Probleme durch iteratives Agieren und Reagieren auf Umgebungsfeedback zu lösen.

Experimentelle Evidenz und Leistungssteigerung

Umfassende Experimente wurden durchgeführt, um den Nutzen von LLM-in-Sandbox in verschiedenen nicht-codebezogenen Domänen zu evaluieren. Dabei wurden sowohl führende proprietäre als auch Open-Source-Modelle, einschliesslich code-spezialisierter und kleinerer Allzweck-LLMs, verglichen. Die Ergebnisse zeigen, dass starke agentische Modelle signifikante Leistungssteigerungen in Bereichen wie Mathematik, Physik, Chemie, Biomedizin, Langkontext-Verständnis und Befolgung von Anweisungen erzielen. Beispielsweise konnte ein Modell wie Qwen3-Coder bei mathematischen Aufgaben eine Steigerung von bis zu 24,2 % verzeichnen.

Interessanterweise zeigten schwächere Modelle ohne zusätzliches Training in der Sandbox-Umgebung anfänglich keine oder sogar eine schlechtere Leistung. Dies unterstreicht die Notwendigkeit, Modelle explizit für die effektive Nutzung der Sandbox zu trainieren.

Analyse der Sandbox-Nutzung

Eine detaillierte Analyse der Interaktionen der Modelle mit der Sandbox-Umgebung offenbarte spezifische Nutzungsmuster:

Externe Ressourcen: In Chemie-Aufgaben installierten Modelle autonom Java-Laufzeitumgebungen und luden Bibliotheken herunter, um molekulare Eigenschaften zu bestimmen.
Dateiverwaltung: Bei Aufgaben mit langen Texten, die 100.000 Token überschreiten, nutzten Modelle Shell-Befehle wie grep oder sed, um relevante Abschnitte zu finden und Python-Skripte zur systematischen Informationsgewinnung zu schreiben.
Code-Ausführung (Berechnung): Zur Einhaltung komplexer Formatierungsanforderungen, wie der Generierung von Sätzen mit gleicher Zeichenanzahl und unterschiedlichen Wörtern, schrieben Modelle Python-Skripte zur Zeichenzählung und iterativen Verfeinerung.

Starke Modelle passten ihre Nutzungsmuster an die Aufgabenanforderungen an, wobei mathematische Aufgaben eine hohe Berechnungshäufigkeit aufwiesen und Chemie-Aufgaben den höchsten externen Ressourcenverbrauch zeigten. Bei Langkontext-Aufgaben war eine hohe Dateibetriebsfrequenz zu beobachten, was die Bedeutung der dateibasierten Kontextverarbeitung unterstreicht. Die Speicherung von Dokumenten in der Sandbox führte im Durchschnitt zu erheblichen Leistungssteigerungen, insbesondere bei Modellen wie Claude, DeepSeek und Kimi.

Im Gegensatz dazu zeigten schwächere Modelle eine deutlich geringere Nutzung der Sandbox-Fähigkeiten, obwohl sie mehr Interaktionsschritte benötigten, was auf eine ineffektive Werkzeugnutzung hindeutet.

LLM-in-Sandbox Reinforcement Learning: Generalisierung durch Training

Um die Lücke zwischen starken und schwächeren Modellen zu schliessen und das volle Potenzial der Sandbox-Umgebung zu erschliessen, wurde LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL) entwickelt. Dieser Ansatz trainiert LLMs auf allgemeinen, kontextbasierten Aufgaben innerhalb der Sandbox, wodurch sie lernen, die Umgebung effektiv zu erkunden, ohne dass spezialisierte agentische Daten erforderlich sind.

Methodik des Trainings

LLM-in-Sandbox-RL kombiniert das Training in einer Sandbox-Umgebung mit der Nutzung von Daten aus allgemeinen Domänen. Kontextbasierte Aufgaben, bei denen Hintergrundmaterialien als Dateien in der Sandbox gespeichert sind, zwingen das Modell zur aktiven Exploration, um relevante Informationen zu finden. Dies fördert die natürliche Nutzung der Sandbox-Fähigkeiten. Im Gegensatz zu bestehenden Ansätzen, die entweder keine Sandbox-Interaktion (LLM-RL) oder domänenspezifische Daten (SWE-RL) verwenden, bietet LLM-in-Sandbox-RL eine breite Übertragbarkeit und Skalierbarkeit.

Die Trainingsdaten umfassen ein breites Spektrum an Texten, von Enzyklopädien bis hin zu sozialen Medien, und die Aufgaben reichen von freier Generierung bis hin zu Multiple-Choice-Fragen. Die Sandbox-Konfiguration wird durch die Speicherung von Kontexten als Dateien und die Verwendung von Ablenkungsdateien angereichert, um die Komplexität zu erhöhen.

Ergebnisse des Reinforcement Learnings

Das Training mit LLM-in-Sandbox-RL führte zu einer breiten Generalisierung über verschiedene Achsen:

Domänen: Trotz des Trainings mit allgemeinen, kontextbasierten Daten verbesserte LLM-in-Sandbox-RL die Leistung in allen bewerteten Domänen, einschliesslich Langkontext, Mathematik, Physik und sogar Software-Engineering (SWE)-Aufgaben.
Modellfähigkeiten: Schwächere Modelle (z.B. Qwen3-4B-Instruct) zeigten nach dem Training eine signifikant bessere Leistung im LLM-in-Sandbox-Modus. Auch stärkere Modelle (z.B. Qwen3-Coder) profitierten von konsistenten Leistungssteigerungen.
Inferenzmodi: Überraschenderweise verbesserte das Training im LLM-in-Sandbox-Modus auch den reinen LLM-Modus der Modelle, was darauf hindeutet, dass agentische Fähigkeiten auf nicht-agentische Generierung übertragen werden können.

Die Platzierung des Kontexts in der Sandbox, anstatt ihn direkt in den Prompt zu integrieren, erwies sich als entscheidend für eine stärkere Generalisierung, da dies das Modell zur aktiven Exploration der Umgebung anregt.

Analyse der Generalisierung

Die Generalisierungseffekte des LLM-in-Sandbox-RL-Trainings lassen sich durch eine erhöhte Nutzung der Sandbox-Fähigkeiten erklären. Modelle zeigten nach dem Training eine gesteigerte Nutzung externer Ressourcen, Dateiverwaltung und Berechnung. Schwächere Modelle verbesserten ihre Fähigkeitsnutzung erheblich und reduzierten die Anzahl der benötigten Interaktionsschritte, was auf eine effizientere Problemlösung hinweist.

Darüber hinaus wurden Veränderungen in den Denkprozessen der Modelle beobachtet. Die Ausgaben im reinen LLM-Modus zeigten nach dem Training eine verbesserte strukturelle Organisation und Verifizierungsverhalten, was darauf hindeutet, dass die durch die Sandbox-Interaktion erlernten Denkweisen auf andere Inferenzmodi übertragen werden.

Effiziente Bereitstellung von LLM-in-Sandbox

Neben den Leistungsverbesserungen wurden auch praktische Aspekte der Bereitstellung von LLM-in-Sandbox in realen Systemen untersucht, insbesondere im Hinblick auf Rechenkosten und Infrastruktur.

Rechenanalyse

Der Token-Verbrauch pro Abfrage variiert je nach Aufgabe. Während LLM-in-Sandbox bei den meisten Aufgaben aufgrund der Multi-Turn-Exploration mehr Token verbraucht, reduziert es bei Langkontext-Aufgaben den Token-Verbrauch drastisch, indem Inhalte in lokalen Dateien statt im Prompt gespeichert werden. Diese Reduzierung kann bis zu achtfach sein. Im Durchschnitt verbraucht LLM-in-Sandbox über alle Aufgaben hinweg nur 0,5- bis 0,8-mal so viele Token wie der reine LLM-Modus.

Hinsichtlich der Geschwindigkeit zeigt LLM-in-Sandbox eine wettbewerbsfähige Durchsatzrate. Ein signifikanter Teil der Token stammt aus der Umgebung (z.B. Code-Ausführungsergebnisse), die schneller verarbeitet werden kann als modellgenerierte Token. Dies führt dazu, dass die Ausführung in der Umgebung weniger als 4 % der Gesamtzeit beansprucht, während sie 37 % bis 51 % der Trajektorie ausmacht.

Sandbox-Infrastruktur

Ein wesentlicher Vorteil von LLM-in-Sandbox ist das leichte und allgemeine Sandbox-Design. Der Infrastruktur-Overhead ist gering: Ein einziges Docker-Image von etwa 1,1 GB wird für alle Aufgaben gemeinsam genutzt, im Gegensatz zu terabytegrossen, aufgabenspezifischen Umgebungen anderer Code-Agenten. Modelle installieren bei Bedarf autonom aufgabenspezifische Pakete zur Laufzeit. Der Speicherbedarf pro Sandbox-Container ist minimal, was selbst bei einer hohen Anzahl gleichzeitiger Sandboxes auf einem einzelnen DGX-Knoten zu einem geringen Gesamtspeicherverbrauch führt.

LLM-in-Sandbox: Jenseits der Textgenerierung

LLM-in-Sandbox erweitert die Fähigkeiten von LLMs über die reine Textgenerierung hinaus und ermöglicht grundlegend neue Funktionen:

Multimodale Fähigkeiten: LLMs können nun Bilder, Videos, Audio und interaktive Anwendungen verarbeiten und generieren, indem sie spezialisierte Software innerhalb der Sandbox orchestrieren.
Datei-Operationen: Anstatt nur zu beschreiben, was eine Datei enthalten sollte, können LLMs tatsächlich Dateien wie .png, .mp4 oder .html direkt erzeugen, die sofort nutzbar sind.
Autonome Tool-Akquisition: LLMs können autonom Softwarebibliotheken entdecken, installieren und nutzen, was ihnen einen unbegrenzten Werkzeugzugang verschafft.

Fallstudien demonstrieren diese Potenziale, etwa die Erstellung interaktiver Karten, Konferenzposter, animierter Videos oder Originalmusik durch LLMs in der Sandbox. Obwohl die Ergebnisse noch Einschränkungen aufweisen, deuten sie auf eine vielversprechende Richtung hin: LLMs, die mit Rechenumgebungen interagieren, könnten sich zu allgemeinen digitalen Kreationssystemen entwickeln.

Schlussfolgerung und Ausblick

LLM-in-Sandbox stellt einen Paradigmenwechsel dar, der LLMs den Zugang zu einer virtuellen Computerumgebung ermöglicht und starke Modelle befähigt, diese Umgebung für allgemeine Aufgaben zu nutzen. Es wird erwartet, dass LLM-in-Sandbox zur Standard-Infrastruktur für die Bereitstellung von LLMs avanciert und diese von reinen Textgeneratoren zu vielseitigen digitalen Arbeitskräften transformiert.

Darüber hinaus dient LLM-in-Sandbox als standardisierter Teststand für die Bewertung agentischer Fähigkeiten, indem es grundlegende Fertigkeiten wie Exploration, Werkzeugnutzung und Selbstverifizierung misst. Die Metrik der Leistungsdifferenz zwischen LLM-in-Sandbox- und reinem LLM-Modus bietet einen Indikator für das agentische Potenzial eines Modells.

Zukünftige Arbeiten könnten sich auf das "Sandbox-native" Training von Modellen konzentrieren, bei dem die Sandbox-Interaktion zu einem primären Trainingsziel wird, sowohl durch grossangelegtes Reinforcement Learning mit realem Umgebungsfeedback als auch durch die Integration von Sandbox-ähnlichem Denken in die Vortrainingsphase. Dies könnte den Weg zu einer noch umfassenderen und allgemeineren Künstlichen Intelligenz ebnen.

Bibliographie

- Anthropic. Claude code. 2025a. - Anthropic. Claude sonnet. 2025b. - Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020. - Cheng, D., Gu, Y., Huang, S., Bi, J., Huang, M., and Wei, F. Instruction pre-training: Language models are supervised multitask learners. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 2529–2550, 2024. - Dao, T., Fu, D., Ermon, S., Rudra, A., and Ré, C. Flashattention: Fast and memory-efficient exact attention with io-awareness. Advances in neural information processing systems, 35:16344–16359, 2022. - Guo, D., Yang, D., Zhang, H., Song, J., Wang, P., Zhu, Q., Xu, R., Zhang, R., Ma, S., Bi, X., et al. DeepSeek-r1 incentivizes reasoning in llms through reinforcement learning. Nature, 645(8081):633–638, 2025. - HuggingFace. Math-verify, 2025. - Jain, N., Singh, J., Shetty, M., Zhang, T., Zheng, L., Sen, K., and Stoica, I. R2e-gym: Procedural environment generation and hybrid verifiers for scaling open-weights swe agents. In Second Conference on Language Modeling, 2025. - Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., and Narasimhan, K. Swe-bench: Can language models resolve real-world github issues? arXiv preprint arXiv:2310.06770, 2023. - Kwon, W., Li, Z., Zhuang, S., Sheng, Y., Zheng, L., Yu, C. H., Gonzalez, J. E., Zhang, H., and Stoica, I. Efficient memory management for large language model serving with pagedattention. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023. - Lambert, N., Morrison, J., Pyatkin, V., Huang, S., Ivison, H., Brahman, F., Miranda, L. J. V., Liu, A., Dziri, N., Lyu, S., et al. Tulu 3: pushing frontiers in open language model post-training. arXiv preprint arXiv:2411.15124, 2024. - Lin, C.-Y. Rouge: a package for automatic evaluation of summaries. In Text summarization branches out, pp. 74–81, 2004. - Liu, A., Mei, A., Lin, B., Xue, B., Wang, B., Xu, B., Wu, B., Zhang, B., Lin, C., Dong, C., et al. Deepseek-v3. 2: Pushing the frontier of open large language models. arXiv preprint arXiv:2512.02556, 2025. - Luo, M., Jain, N., Singh, J., Tan, S., Patel, A., Wu, Q., Ariyak, A., Cai, C., Venkat, T., Zhu, S., Athiwaratkun, B., Roongta, M., Zhang, C., Li, L. E., Popa, R. A., Sen, K., and Stoica, I. DeepSWE: training a state-of-the-art coding agent from scratch by scaling rl, 2025. Notion Blog. - MAA. American invitational mathematics examination - aime, 2025. - MiniMax. MiniMax m2 & agent: ingenious in simplicity, 2025. - Pan, J., Wang, X., Neubig, G., Jaitly, N., Ji, H., Suhr, A., and Zhang, Y. Training software engineering agents and verifiers with swe-gym. arXiv preprint arXiv:2412.21139, 2024. - Pyatkin, V., Malik, S., Graf, V., Ivison, H., Huang, S., Dasigi, P., Lambert, N., and Hajishirzi, H. Generalizing verifiable instruction following. arXiv preprint arXiv:2507.02833, 2025. - Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., Zhang, H., Zhang, M., Li, Y., Wu, Y., et al. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024. - Singh, A., Fry, A., Perelman, A., Tart, A., Ganesh, A., El-Kishky, A., McLaughlin, A., Low, A., Ostrow, A., Ananthram, A., et al. OpenAI gpt-5 system card. arXiv preprint arXiv:2601.03267, 2025. - Tan, S., Luo, M., Cai, C., Venkat, T., Montgomery, K., Hao, A., Wu, T., Balyan, A., Roongta, M., Wang, C., Li, L. E., Popa, R. A., and Stoica, I. RLLM: a framework for post-training language agents, 2025. Notion Blog. - Team, A. A. Artificial analysis long context reasoning benchmark(lcr), 2025. - Team, K., Bai, Y., Bao, Y., Chen, G., Chen, J., Chen, N., Chen, R., Chen, Y., Chen, Y., Chen, Y., et al. Kimi k2: open agentic intelligence. arXiv preprint arXiv:2507.20534, 2025. - Wang, X., Li, B., Song, Y., Xu, F. F., Tang, X., Zhuge, M., Pan, J., Song, Y., Li, B., Singh, J., et al. Openhands: an open platform for ai software developers as generalist agents. arXiv preprint arXiv:2407.16741, 2024. - Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837, 2022. - Wei, Y., Duchenne, O., Copet, J., Carbonneaux, Q., Zhang, L., Fried, D., Synnaeve, G., Singh, R., and Wang, S. I. Swe-rl: Advancing llm reasoning via reinforcement learning on open software evolution. arXiv preprint arXiv:2502.18449, 2025. - Xu, X., Xu, Q., Xiao, T., Chen, T., Yan, Y., ZHANG, J., Diao, S., Yang, C., and Wang, Y. UGPhysics: a comprehensive benchmark for undergraduate physics reasoning with large language models. In Forty-second International Conference on Machine Learning. - Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025a. - Yang, J., Jimenez, C. E., Wettig, A., Lieret, K., Yao, S., Narasimhan, K., and Press, O. Swe-agent: Agent-computer interfaces enable automated software engineering. Advances in Neural Information Processing Systems, 37:50528–50652, 2024. - Yang, J., Lieret, K., Jimenez, C. E., Wettig, A., Khandpur, K., Zhang, Y., Hui, B., Press, O., Schmidt, L., and Yang, D. Swe-smith: Scaling data for software engineering agents. arXiv preprint arXiv:2504.21798, 2025b. - Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., and Cao, Y. React: synergizing reasoning and acting in language models. In The eleventh international conference on learning representations, 2022. - Yu, Q., Zhang, Z., Zhu, R., Yuan, Y., Zuo, X., Yue, Y., Dai, W., Fan, T., Liu, G., Liu, L., et al. Dapo: an open-source llm reinforcement learning system at scale. arXiv preprint arXiv:2503.14476, 2025. - Zhang, D., Liu, W., Tan, Q., Chen, J., Yan, H., Yan, Y., Li, J., Huang, W., Yue, X., Ouyang, W., et al. Chemllm: a chemical large language model. arXiv preprint arXiv:2402.06852, 2024. - Zheng, L., Chiang, W., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E., et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in neural information processing systems, 36:46595–46623, 2023. - Zheng, L., Yin, L., Xie, Z., Sun, C. L., Huang, J., Yu, C. H., Cao, S., Kozyrakis, C., Stoica, I., Gonzalez, J. E., et al. Sglang: Efficient execution of structured language model programs. Advances in neural information processing systems, 37:62557–62583, 2024. - Zuo, Y., Qu, S., Li, Y., Chen, Z., Zhu, X., Hua, E., Zhang, K., Ding, N., and Zhou, B. MedXpertQA: Benchmarking expert-level medical reasoning and understanding. In Forty-second International Conference on Machine Learning.