Fähigkeitsinternalisierung in KI: Das SKILL0 Framework im Fokus

Kategorien:

No items found.

Freigegeben:

April 4, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

SKILL0 ist ein neues Framework, das Large Language Models (LLMs) beibringt, Fähigkeiten zu internalisieren, anstatt sich bei der Ausführung auf externe Anweisungen zu verlassen.
Es nutzt In-Context Reinforcement Learning (ICRL) und ein dynamisches Curriculum, um die Abhängigkeit von externen Fähigkeiten schrittweise zu reduzieren.
SKILL0 erreicht auf Benchmarks wie ALFWorld und Search-QA eine signifikant verbesserte Leistung und Effizienz.
Die Methode reduziert den Token-Verbrauch erheblich, indem sie Kontext in kompakte visuelle Darstellungen komprimiert.
Die Forschung ebnet den Weg für autonomere und effizientere KI-Agenten in komplexen Umgebungen.

Fähigkeitsinternalisierung in Large Language Models: Ein Paradigmenwechsel mit SKILL0

Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren beeindruckende Fortschritte erzielt, insbesondere in ihrer Fähigkeit, komplexe Entscheidungen in dynamischen Umgebungen zu treffen. Ein zentraler Mechanismus zur Erweiterung ihrer Kapazitäten sind sogenannte Agent Skills – strukturierte Pakete prozeduralen Wissens und ausführbarer Ressourcen, die LLM-Agenten zur Laufzeit dynamisch laden. Bislang dominierte das Paradigma der Inferenzzeit-Fähigkeitserweiterung, bei dem relevante Fähigkeiten aus einer Wissensbank abgerufen und als natürliche Sprachführung in den Kontext des Modells injiziert wurden.

Dieses etablierte Vorgehen weist jedoch fundamentale Einschränkungen auf. Erstens kann Rausch bei der Retrieval-Phase zu irrelevanten oder irreführenden Anweisungen führen, die den Kontext des Agenten beeinträchtigen. Zweitens verursachen die injizierten Fähigkeitsinhalte einen erheblichen Token-Overhead, der sich bei Multi-Turn-Interaktionen summiert und die Skalierbarkeit begrenzt. Drittens, und das ist entscheidend, führt ein Modell, das lediglich Fähigkeitsbeschreibungen in seinem Prompt befolgt, diese Fähigkeiten zwar aus, lernt sie aber nicht wirklich. Die Kompetenz verbleibt im Kontext und nicht in den Modellparametern selbst.

SKILL0: Ein neuer Ansatz zur Fähigkeiteninternalisierung

Vor diesem Hintergrund stellt sich die Frage, ob Fähigkeiten nicht in die Modellparameter internalisiert werden können, wodurch die Notwendigkeit des Abrufs zur Inferenzzeit entfiele. Die menschliche Fähigkeitsaneignung folgt einem ähnlichen Muster: eine explizite Anweisungsphase weicht einer internalisierten Phase, in der dasselbe Verhalten autonom aus dem Gedächtnis ausgeführt wird. Die Inferenzzeit-Fähigkeitserweiterung verankert Agenten dauerhaft in der ersten Phase. Reinforcement Learning (RL) bietet einen natürlichen Weg zur zweiten Phase, indem es den Agenten dazu antreibt, effektive Strategien als intrinsische Politik zu konsolidieren, anstatt sie aus dem Kontext zu lesen.

Forscher haben mit SKILL0 ein neues Reinforcement-Learning-Framework vorgestellt, das die Fähigkeiteninternalisierung als explizites Trainingsziel formuliert. SKILL0 realisiert diesen Ansatz durch In-Context Reinforcement Learning (ICRL). Dabei werden Fähigkeiten während des Trainings als In-Context-Anleitung bereitgestellt, jedoch zur Inferenzzeit vollständig entfernt. Dies ermöglicht es der RL-Optimierung, den Übergang von kontextabhängiger Ausführung zu autonomem Verhalten direkt zu steuern.

Methodik von SKILL0

SKILL0 führt ein Trainingscurriculum ein, das mit einem vollständigen Fähigkeitskontext beginnt und diesen schrittweise zurückzieht. Fähigkeiten werden offline nach Kategorien gruppiert und zusammen mit der Interaktionshistorie in einem kompakten visuellen Kontext dargestellt. Dies soll dem Modell die Werkzeugnutzung und die Bearbeitung von Multi-Turn-Aufgaben beibringen. Ein dynamisches Curriculum bewertet anschließend die On-Policy-Nützlichkeit jeder Fähigkeitsdatei, indem die Agentenleistung mit und ohne die Fähigkeit auf einer passenden Validierungsteilaufgabe verglichen wird. Fähigkeiten werden nur dann beibehalten, wenn die aktuelle Politik noch davon profitiert, und ansonsten verworfen, bis das Budget Null erreicht und der Agent ohne jeglichen Fähigkeitskontext operiert.

Agenten-Schleife und Fähigkeitenmanagement

Die Agenten-Automatisierung wird als sequenzielles Entscheidungsproblem formuliert. Der Agent generiert basierend auf einer Aufgabenanweisung eine Abfolge von Aktionen. Bei jedem Schritt agiert der Agent in einer strukturierten Umgebung, die eine textuelle Beobachtung des aktuellen Zustands liefert. Die Aktion wird von einer Richtlinie abgeleitet, die die Modellparameter und die bisherige Historie berücksichtigt.

Die Fähigkeiten sind in einer hierarchischen Bibliothek, der SkillBank, organisiert. Diese enthält allgemeine strategische Prinzipien und aufgabenspezifisches Wissen. Während des Trainings wird ein Subset von Fähigkeitsdateien ausgewählt, die nach einem Kriterium der On-Policy-Nützlichkeit bewertet werden.

Kontext-Rendering und Effizienz

Ein wesentlicher Aspekt von SKILL0 ist der Einsatz eines Kontext-Rendering-Mechanismus. Dieser bildet den textuellen Interaktionskontext (einschließlich Historie und abgerufener Fähigkeiten) auf ein kompaktes RGB-Bild ab. Die komprimierte visuelle Kontext-Einbettung wird dann der Politik zugeführt, was den Token-Overhead erheblich reduziert und gleichzeitig die für die Entscheidungsfindung notwendigen strukturellen Informationen bewahrt. Die Politik kann dabei sogar das Kompressionsverhältnis dynamisch anpassen.

In-Context Reinforcement Learning (ICRL)

ICRL kombiniert die Stichprobeneffizienz und induktive Bias des Skill-Prompting mit der Explorationsfähigkeit des Reinforcement Learnings. Ein zusammengesetzter Reward optimiert gemeinsam den Aufgabenerfolg und die Kompressionseffizienz. Dieser Reward berücksichtigt das Kompressionsverhältnis und die erfolgreiche Erledigung der Aufgabe mit Fähigkeitsunterstützung.

Experimentelle Ergebnisse

Umfassende Experimente mit SKILL0 wurden auf den Benchmarks ALFWorld und Search-QA durchgeführt. ALFWorld ist ein textbasiertes Spiel mit 3.827 Aufgabeninstanzen in sechs Kategorien von Haushaltsaktivitäten. Search-QA umfasst mehrere Such-erweiterte QA-Benchmarks, darunter Single-Hop- und Multi-Hop-QA-Datensätze.

Leistungsverbesserungen und Token-Effizienz

SKILL0 zeigte eine signifikante Leistungssteigerung gegenüber Standard-RL-Baselines. Auf ALFWorld wurde eine Verbesserung von +9,7 % und auf Search-QA von +6,6 % erzielt. Insbesondere erreicht SKILL0 (3B-Modell) eine durchschnittliche Erfolgsrate von 87,9 % auf ALFWorld und 40,8 % auf Search-QA, was AgentOCR deutlich übertrifft. Mit 7B-Modellen wurden sogar Werte von 89,8 % auf ALFWorld und 44,4 % auf Search-QA erreicht, wodurch andere RL-basierte Methoden wie EvolveR, AgentOCR und GRPO übertroffen wurden.

Ein entscheidender Vorteil von SKILL0 ist die erhebliche Reduzierung der Token-Kosten. Durch die visuelle Kontextmodellierung und Fähigkeiteninternalisierung benötigt SKILL0 im Durchschnitt weniger als 0,5k Token pro Schritt. Dies stellt eine massive Reduzierung im Vergleich zu textbasierten oder Fähigkeiten-erweiterten Methoden wie SkillRL dar, die mehr als das Fünffache an Token verbrauchen (2,21k bzw. 0,87k Token pro Schritt).

Trainingsdynamik und Nützlichkeit der Fähigkeiten

Die Analyse der Trainingsdynamik zeigte, dass SKILL0 über den gesamten Optimierungsverlauf hinweg höhere Reward-Kurven beibehält als die AgentOCR-Baseline. Die Validierungsgenauigkeit verbesserte sich bei SKILL0 stetig, während andere Methoden wie GRPO und SkillRL relativ früh stagnierten. Dies deutet darauf hin, dass der Leistungsvorteil von SKILL0 auf internalisiertem Wissen und nicht auf der Abhängigkeit von expliziten Fähigkeitenbeschreibungen beruht.

Die Nützlichkeit der Fähigkeiten zeigte ein konsistentes Muster von Anstieg und Abfall während des Trainings. In frühen Phasen war die Nützlichkeit gering, da die Politik noch nicht gelernt hatte, die Fähigkeiten zu nutzen. Im Verlauf des Trainings lernte die Politik, ihre Aktionen im bereitgestellten Fähigkeitskontext zu verankern, was zu einem stetigen Anstieg der Nützlichkeit führte. In späteren Phasen reduzierte das dynamische Curriculum schrittweise das Fähigkeitenbudget, wodurch die Politik gezwungen wurde, das Fähigkeitenwissen in ihre Parameter zu internalisieren, anstatt sich auf externe Prompts zu verlassen. Dieser Verlauf bestätigt die synergetische Funktionsweise von ICRL und Curriculum Learning.

Ablationsstudien

Ablationsstudien bestätigten die Effektivität des dynamischen Curriculums und des Fähigkeitenbudgets. Ein statisch niedriges Budget begrenzte die frühe Exploration und führte zu instabilem Lernen. Hingegen zeigte die Curriculum-Strategie von SKILL0 eine überlegene Fähigkeiteninternalisierung und übertraf feste Budgets in Inferenz-Settings ohne Fähigkeiten.

Fazit und Ausblick

SKILL0 etabliert die Fähigkeiteninternalisierung als ein neues, prinzipienbasiertes und skalierbares Paradigma. Es bietet eine vielversprechende Alternative zum herkömmlichen "Retrieve-then-Prompt"-Ansatz, indem es die Abhängigkeit von externen Fähigkeiten zur Inferenzzeit eliminiert. Die erzielten Verbesserungen in der Leistung und Effizienz, insbesondere die erhebliche Reduzierung der Token-Kosten, unterstreichen das Potenzial dieser Methode. SKILL0 ebnet den Weg von werkzeugverstärkten zu wirklich autonomen LLM-Agenten und selbstgenügsamer Intelligenz.

Eine Limitation von SKILL0 ist die Abhängigkeit von der Qualität der anfänglichen SkillBank, und die offline relevanzgesteuerte Fähigkeitsgruppierung erfordert eine Neu-Partitionierung bei der Anwendung auf neue Aufgabenbereiche.

Bibliografie

- Lu, Z., Yao, Z., Wu, J., Han, C., Gu, Q., Cai, X., Lu, W., Xiao, J., Zhuang, Y., & Shen, Y. (2026). SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization. arXiv preprint arXiv:2604.02268. - GitHub Repository: ZJU-REAL/SkillZero. (2026). Official code for "SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization". - Hugging Face Daily Papers. (2026). SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization. - alphaXiv. (2026). SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization. - YouTube. (2026). SKILL0: Internalizing Agent Skills via In-Context Reinforcement Learning. - ChatPaper. (2026). SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization.