Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von generativer Künstlicher Intelligenz (KI) hat zu einer Verschiebung von reinen Textgenerierungsmodellen hin zu agentischen Systemen geführt. Diese Systeme sind in der Lage, autonom zu handeln, komplexe Aufgaben zu lösen und mit ihrer Umgebung zu interagieren. Eine aktuelle Entwicklung in diesem Bereich ist die Einführung von "LLM-in-Sandbox", einem Paradigma, das grossen Sprachmodellen (LLMs) den Zugang zu einer virtuellen Computerumgebung ermöglicht. Diese Erweiterung soll die allgemeine Intelligenz von LLMs in nicht-codebezogenen Domänen fördern und ihre Anwendungsbereiche signifikant erweitern.
Das Kernkonzept von LLM-in-Sandbox besteht darin, LLMs eine virtuelle Computerumgebung zur Verfügung zu stellen, in der sie Aufgaben durch Interaktion und Exploration lösen können. Diese Sandbox, typischerweise ein über Docker-Container implementiertes Ubuntu-System, bietet den LLMs drei fundamentale Meta-Fähigkeiten:
Diese Fähigkeiten ermöglichen es LLMs, über die reine Textgenerierung hinauszugehen und komplexe Probleme durch iteratives Agieren und Reagieren auf Umgebungsfeedback zu lösen.
Umfassende Experimente wurden durchgeführt, um den Nutzen von LLM-in-Sandbox in verschiedenen nicht-codebezogenen Domänen zu evaluieren. Dabei wurden sowohl führende proprietäre als auch Open-Source-Modelle, einschliesslich code-spezialisierter und kleinerer Allzweck-LLMs, verglichen. Die Ergebnisse zeigen, dass starke agentische Modelle signifikante Leistungssteigerungen in Bereichen wie Mathematik, Physik, Chemie, Biomedizin, Langkontext-Verständnis und Befolgung von Anweisungen erzielen. Beispielsweise konnte ein Modell wie Qwen3-Coder bei mathematischen Aufgaben eine Steigerung von bis zu 24,2 % verzeichnen.
Interessanterweise zeigten schwächere Modelle ohne zusätzliches Training in der Sandbox-Umgebung anfänglich keine oder sogar eine schlechtere Leistung. Dies unterstreicht die Notwendigkeit, Modelle explizit für die effektive Nutzung der Sandbox zu trainieren.
Eine detaillierte Analyse der Interaktionen der Modelle mit der Sandbox-Umgebung offenbarte spezifische Nutzungsmuster:
grep oder sed, um relevante Abschnitte zu finden und Python-Skripte zur systematischen Informationsgewinnung zu schreiben.Starke Modelle passten ihre Nutzungsmuster an die Aufgabenanforderungen an, wobei mathematische Aufgaben eine hohe Berechnungshäufigkeit aufwiesen und Chemie-Aufgaben den höchsten externen Ressourcenverbrauch zeigten. Bei Langkontext-Aufgaben war eine hohe Dateibetriebsfrequenz zu beobachten, was die Bedeutung der dateibasierten Kontextverarbeitung unterstreicht. Die Speicherung von Dokumenten in der Sandbox führte im Durchschnitt zu erheblichen Leistungssteigerungen, insbesondere bei Modellen wie Claude, DeepSeek und Kimi.
Im Gegensatz dazu zeigten schwächere Modelle eine deutlich geringere Nutzung der Sandbox-Fähigkeiten, obwohl sie mehr Interaktionsschritte benötigten, was auf eine ineffektive Werkzeugnutzung hindeutet.
Um die Lücke zwischen starken und schwächeren Modellen zu schliessen und das volle Potenzial der Sandbox-Umgebung zu erschliessen, wurde LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL) entwickelt. Dieser Ansatz trainiert LLMs auf allgemeinen, kontextbasierten Aufgaben innerhalb der Sandbox, wodurch sie lernen, die Umgebung effektiv zu erkunden, ohne dass spezialisierte agentische Daten erforderlich sind.
LLM-in-Sandbox-RL kombiniert das Training in einer Sandbox-Umgebung mit der Nutzung von Daten aus allgemeinen Domänen. Kontextbasierte Aufgaben, bei denen Hintergrundmaterialien als Dateien in der Sandbox gespeichert sind, zwingen das Modell zur aktiven Exploration, um relevante Informationen zu finden. Dies fördert die natürliche Nutzung der Sandbox-Fähigkeiten. Im Gegensatz zu bestehenden Ansätzen, die entweder keine Sandbox-Interaktion (LLM-RL) oder domänenspezifische Daten (SWE-RL) verwenden, bietet LLM-in-Sandbox-RL eine breite Übertragbarkeit und Skalierbarkeit.
Die Trainingsdaten umfassen ein breites Spektrum an Texten, von Enzyklopädien bis hin zu sozialen Medien, und die Aufgaben reichen von freier Generierung bis hin zu Multiple-Choice-Fragen. Die Sandbox-Konfiguration wird durch die Speicherung von Kontexten als Dateien und die Verwendung von Ablenkungsdateien angereichert, um die Komplexität zu erhöhen.
Das Training mit LLM-in-Sandbox-RL führte zu einer breiten Generalisierung über verschiedene Achsen:
Die Platzierung des Kontexts in der Sandbox, anstatt ihn direkt in den Prompt zu integrieren, erwies sich als entscheidend für eine stärkere Generalisierung, da dies das Modell zur aktiven Exploration der Umgebung anregt.
Die Generalisierungseffekte des LLM-in-Sandbox-RL-Trainings lassen sich durch eine erhöhte Nutzung der Sandbox-Fähigkeiten erklären. Modelle zeigten nach dem Training eine gesteigerte Nutzung externer Ressourcen, Dateiverwaltung und Berechnung. Schwächere Modelle verbesserten ihre Fähigkeitsnutzung erheblich und reduzierten die Anzahl der benötigten Interaktionsschritte, was auf eine effizientere Problemlösung hinweist.
Darüber hinaus wurden Veränderungen in den Denkprozessen der Modelle beobachtet. Die Ausgaben im reinen LLM-Modus zeigten nach dem Training eine verbesserte strukturelle Organisation und Verifizierungsverhalten, was darauf hindeutet, dass die durch die Sandbox-Interaktion erlernten Denkweisen auf andere Inferenzmodi übertragen werden.
Neben den Leistungsverbesserungen wurden auch praktische Aspekte der Bereitstellung von LLM-in-Sandbox in realen Systemen untersucht, insbesondere im Hinblick auf Rechenkosten und Infrastruktur.
Der Token-Verbrauch pro Abfrage variiert je nach Aufgabe. Während LLM-in-Sandbox bei den meisten Aufgaben aufgrund der Multi-Turn-Exploration mehr Token verbraucht, reduziert es bei Langkontext-Aufgaben den Token-Verbrauch drastisch, indem Inhalte in lokalen Dateien statt im Prompt gespeichert werden. Diese Reduzierung kann bis zu achtfach sein. Im Durchschnitt verbraucht LLM-in-Sandbox über alle Aufgaben hinweg nur 0,5- bis 0,8-mal so viele Token wie der reine LLM-Modus.
Hinsichtlich der Geschwindigkeit zeigt LLM-in-Sandbox eine wettbewerbsfähige Durchsatzrate. Ein signifikanter Teil der Token stammt aus der Umgebung (z.B. Code-Ausführungsergebnisse), die schneller verarbeitet werden kann als modellgenerierte Token. Dies führt dazu, dass die Ausführung in der Umgebung weniger als 4 % der Gesamtzeit beansprucht, während sie 37 % bis 51 % der Trajektorie ausmacht.
Ein wesentlicher Vorteil von LLM-in-Sandbox ist das leichte und allgemeine Sandbox-Design. Der Infrastruktur-Overhead ist gering: Ein einziges Docker-Image von etwa 1,1 GB wird für alle Aufgaben gemeinsam genutzt, im Gegensatz zu terabytegrossen, aufgabenspezifischen Umgebungen anderer Code-Agenten. Modelle installieren bei Bedarf autonom aufgabenspezifische Pakete zur Laufzeit. Der Speicherbedarf pro Sandbox-Container ist minimal, was selbst bei einer hohen Anzahl gleichzeitiger Sandboxes auf einem einzelnen DGX-Knoten zu einem geringen Gesamtspeicherverbrauch führt.
LLM-in-Sandbox erweitert die Fähigkeiten von LLMs über die reine Textgenerierung hinaus und ermöglicht grundlegend neue Funktionen:
.png, .mp4 oder .html direkt erzeugen, die sofort nutzbar sind.Fallstudien demonstrieren diese Potenziale, etwa die Erstellung interaktiver Karten, Konferenzposter, animierter Videos oder Originalmusik durch LLMs in der Sandbox. Obwohl die Ergebnisse noch Einschränkungen aufweisen, deuten sie auf eine vielversprechende Richtung hin: LLMs, die mit Rechenumgebungen interagieren, könnten sich zu allgemeinen digitalen Kreationssystemen entwickeln.
LLM-in-Sandbox stellt einen Paradigmenwechsel dar, der LLMs den Zugang zu einer virtuellen Computerumgebung ermöglicht und starke Modelle befähigt, diese Umgebung für allgemeine Aufgaben zu nutzen. Es wird erwartet, dass LLM-in-Sandbox zur Standard-Infrastruktur für die Bereitstellung von LLMs avanciert und diese von reinen Textgeneratoren zu vielseitigen digitalen Arbeitskräften transformiert.
Darüber hinaus dient LLM-in-Sandbox als standardisierter Teststand für die Bewertung agentischer Fähigkeiten, indem es grundlegende Fertigkeiten wie Exploration, Werkzeugnutzung und Selbstverifizierung misst. Die Metrik der Leistungsdifferenz zwischen LLM-in-Sandbox- und reinem LLM-Modus bietet einen Indikator für das agentische Potenzial eines Modells.
Zukünftige Arbeiten könnten sich auf das "Sandbox-native" Training von Modellen konzentrieren, bei dem die Sandbox-Interaktion zu einem primären Trainingsziel wird, sowohl durch grossangelegtes Reinforcement Learning mit realem Umgebungsfeedback als auch durch die Integration von Sandbox-ähnlichem Denken in die Vortrainingsphase. Dies könnte den Weg zu einer noch umfassenderen und allgemeineren Künstlichen Intelligenz ebnen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen