Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren beeindruckende Fortschritte erzielt, insbesondere in ihrer Fähigkeit, komplexe Entscheidungen in dynamischen Umgebungen zu treffen. Ein zentraler Mechanismus zur Erweiterung ihrer Kapazitäten sind sogenannte Agent Skills – strukturierte Pakete prozeduralen Wissens und ausführbarer Ressourcen, die LLM-Agenten zur Laufzeit dynamisch laden. Bislang dominierte das Paradigma der Inferenzzeit-Fähigkeitserweiterung, bei dem relevante Fähigkeiten aus einer Wissensbank abgerufen und als natürliche Sprachführung in den Kontext des Modells injiziert wurden.
Dieses etablierte Vorgehen weist jedoch fundamentale Einschränkungen auf. Erstens kann Rausch bei der Retrieval-Phase zu irrelevanten oder irreführenden Anweisungen führen, die den Kontext des Agenten beeinträchtigen. Zweitens verursachen die injizierten Fähigkeitsinhalte einen erheblichen Token-Overhead, der sich bei Multi-Turn-Interaktionen summiert und die Skalierbarkeit begrenzt. Drittens, und das ist entscheidend, führt ein Modell, das lediglich Fähigkeitsbeschreibungen in seinem Prompt befolgt, diese Fähigkeiten zwar aus, lernt sie aber nicht wirklich. Die Kompetenz verbleibt im Kontext und nicht in den Modellparametern selbst.
Vor diesem Hintergrund stellt sich die Frage, ob Fähigkeiten nicht in die Modellparameter internalisiert werden können, wodurch die Notwendigkeit des Abrufs zur Inferenzzeit entfiele. Die menschliche Fähigkeitsaneignung folgt einem ähnlichen Muster: eine explizite Anweisungsphase weicht einer internalisierten Phase, in der dasselbe Verhalten autonom aus dem Gedächtnis ausgeführt wird. Die Inferenzzeit-Fähigkeitserweiterung verankert Agenten dauerhaft in der ersten Phase. Reinforcement Learning (RL) bietet einen natürlichen Weg zur zweiten Phase, indem es den Agenten dazu antreibt, effektive Strategien als intrinsische Politik zu konsolidieren, anstatt sie aus dem Kontext zu lesen.
Forscher haben mit SKILL0 ein neues Reinforcement-Learning-Framework vorgestellt, das die Fähigkeiteninternalisierung als explizites Trainingsziel formuliert. SKILL0 realisiert diesen Ansatz durch In-Context Reinforcement Learning (ICRL). Dabei werden Fähigkeiten während des Trainings als In-Context-Anleitung bereitgestellt, jedoch zur Inferenzzeit vollständig entfernt. Dies ermöglicht es der RL-Optimierung, den Übergang von kontextabhängiger Ausführung zu autonomem Verhalten direkt zu steuern.
SKILL0 führt ein Trainingscurriculum ein, das mit einem vollständigen Fähigkeitskontext beginnt und diesen schrittweise zurückzieht. Fähigkeiten werden offline nach Kategorien gruppiert und zusammen mit der Interaktionshistorie in einem kompakten visuellen Kontext dargestellt. Dies soll dem Modell die Werkzeugnutzung und die Bearbeitung von Multi-Turn-Aufgaben beibringen. Ein dynamisches Curriculum bewertet anschließend die On-Policy-Nützlichkeit jeder Fähigkeitsdatei, indem die Agentenleistung mit und ohne die Fähigkeit auf einer passenden Validierungsteilaufgabe verglichen wird. Fähigkeiten werden nur dann beibehalten, wenn die aktuelle Politik noch davon profitiert, und ansonsten verworfen, bis das Budget Null erreicht und der Agent ohne jeglichen Fähigkeitskontext operiert.
Die Agenten-Automatisierung wird als sequenzielles Entscheidungsproblem formuliert. Der Agent generiert basierend auf einer Aufgabenanweisung eine Abfolge von Aktionen. Bei jedem Schritt agiert der Agent in einer strukturierten Umgebung, die eine textuelle Beobachtung des aktuellen Zustands liefert. Die Aktion wird von einer Richtlinie abgeleitet, die die Modellparameter und die bisherige Historie berücksichtigt.
Die Fähigkeiten sind in einer hierarchischen Bibliothek, der SkillBank, organisiert. Diese enthält allgemeine strategische Prinzipien und aufgabenspezifisches Wissen. Während des Trainings wird ein Subset von Fähigkeitsdateien ausgewählt, die nach einem Kriterium der On-Policy-Nützlichkeit bewertet werden.
Ein wesentlicher Aspekt von SKILL0 ist der Einsatz eines Kontext-Rendering-Mechanismus. Dieser bildet den textuellen Interaktionskontext (einschließlich Historie und abgerufener Fähigkeiten) auf ein kompaktes RGB-Bild ab. Die komprimierte visuelle Kontext-Einbettung wird dann der Politik zugeführt, was den Token-Overhead erheblich reduziert und gleichzeitig die für die Entscheidungsfindung notwendigen strukturellen Informationen bewahrt. Die Politik kann dabei sogar das Kompressionsverhältnis dynamisch anpassen.
ICRL kombiniert die Stichprobeneffizienz und induktive Bias des Skill-Prompting mit der Explorationsfähigkeit des Reinforcement Learnings. Ein zusammengesetzter Reward optimiert gemeinsam den Aufgabenerfolg und die Kompressionseffizienz. Dieser Reward berücksichtigt das Kompressionsverhältnis und die erfolgreiche Erledigung der Aufgabe mit Fähigkeitsunterstützung.
Umfassende Experimente mit SKILL0 wurden auf den Benchmarks ALFWorld und Search-QA durchgeführt. ALFWorld ist ein textbasiertes Spiel mit 3.827 Aufgabeninstanzen in sechs Kategorien von Haushaltsaktivitäten. Search-QA umfasst mehrere Such-erweiterte QA-Benchmarks, darunter Single-Hop- und Multi-Hop-QA-Datensätze.
SKILL0 zeigte eine signifikante Leistungssteigerung gegenüber Standard-RL-Baselines. Auf ALFWorld wurde eine Verbesserung von +9,7 % und auf Search-QA von +6,6 % erzielt. Insbesondere erreicht SKILL0 (3B-Modell) eine durchschnittliche Erfolgsrate von 87,9 % auf ALFWorld und 40,8 % auf Search-QA, was AgentOCR deutlich übertrifft. Mit 7B-Modellen wurden sogar Werte von 89,8 % auf ALFWorld und 44,4 % auf Search-QA erreicht, wodurch andere RL-basierte Methoden wie EvolveR, AgentOCR und GRPO übertroffen wurden.
Ein entscheidender Vorteil von SKILL0 ist die erhebliche Reduzierung der Token-Kosten. Durch die visuelle Kontextmodellierung und Fähigkeiteninternalisierung benötigt SKILL0 im Durchschnitt weniger als 0,5k Token pro Schritt. Dies stellt eine massive Reduzierung im Vergleich zu textbasierten oder Fähigkeiten-erweiterten Methoden wie SkillRL dar, die mehr als das Fünffache an Token verbrauchen (2,21k bzw. 0,87k Token pro Schritt).
Die Analyse der Trainingsdynamik zeigte, dass SKILL0 über den gesamten Optimierungsverlauf hinweg höhere Reward-Kurven beibehält als die AgentOCR-Baseline. Die Validierungsgenauigkeit verbesserte sich bei SKILL0 stetig, während andere Methoden wie GRPO und SkillRL relativ früh stagnierten. Dies deutet darauf hin, dass der Leistungsvorteil von SKILL0 auf internalisiertem Wissen und nicht auf der Abhängigkeit von expliziten Fähigkeitenbeschreibungen beruht.
Die Nützlichkeit der Fähigkeiten zeigte ein konsistentes Muster von Anstieg und Abfall während des Trainings. In frühen Phasen war die Nützlichkeit gering, da die Politik noch nicht gelernt hatte, die Fähigkeiten zu nutzen. Im Verlauf des Trainings lernte die Politik, ihre Aktionen im bereitgestellten Fähigkeitskontext zu verankern, was zu einem stetigen Anstieg der Nützlichkeit führte. In späteren Phasen reduzierte das dynamische Curriculum schrittweise das Fähigkeitenbudget, wodurch die Politik gezwungen wurde, das Fähigkeitenwissen in ihre Parameter zu internalisieren, anstatt sich auf externe Prompts zu verlassen. Dieser Verlauf bestätigt die synergetische Funktionsweise von ICRL und Curriculum Learning.
Ablationsstudien bestätigten die Effektivität des dynamischen Curriculums und des Fähigkeitenbudgets. Ein statisch niedriges Budget begrenzte die frühe Exploration und führte zu instabilem Lernen. Hingegen zeigte die Curriculum-Strategie von SKILL0 eine überlegene Fähigkeiteninternalisierung und übertraf feste Budgets in Inferenz-Settings ohne Fähigkeiten.
SKILL0 etabliert die Fähigkeiteninternalisierung als ein neues, prinzipienbasiertes und skalierbares Paradigma. Es bietet eine vielversprechende Alternative zum herkömmlichen "Retrieve-then-Prompt"-Ansatz, indem es die Abhängigkeit von externen Fähigkeiten zur Inferenzzeit eliminiert. Die erzielten Verbesserungen in der Leistung und Effizienz, insbesondere die erhebliche Reduzierung der Token-Kosten, unterstreichen das Potenzial dieser Methode. SKILL0 ebnet den Weg von werkzeugverstärkten zu wirklich autonomen LLM-Agenten und selbstgenügsamer Intelligenz.
Eine Limitation von SKILL0 ist die Abhängigkeit von der Qualität der anfänglichen SkillBank, und die offline relevanzgesteuerte Fähigkeitsgruppierung erfordert eine Neu-Partitionierung bei der Anwendung auf neue Aufgabenbereiche.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen