Neuer Ansatz zur Verbesserung der Leistungsfähigkeit großer Sprachmodelle bei komplexen Aufgaben

Kategorien:

No items found.

Freigegeben:

February 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Große Sprachmodelle (LRMs) zeigen in komplexen Aufgaben, insbesondere im Umgang mit Tools, oft ein "Lazy Reasoning"-Verhalten, das durch mangelnde Aufgabenzerlegung gekennzeichnet ist.
Das D-CORE-Framework (Decomposing tasks and Composing Reasoning processes) wurde entwickelt, um dieses Problem durch einen zweistufigen Trainingsansatz zu beheben.
Die erste Stufe, die Selbst-Destillation, fördert die Fähigkeit der Modelle zur Aufgabenzerlegung, indem sie komplexe Aufgaben in handhabbare Unterschritte unterteilt.
Die zweite Stufe, Diversity-Aware GRPO (DA-GRPO), nutzt Reinforcement Learning, um die reflektierende Denkfähigkeit zu verbessern und ein homogenes Denken zu vermeiden.
D-CORE erreicht signifikante Leistungssteigerungen auf verschiedenen Benchmarks und übertrifft selbst größere Modelle in komplexen Szenarien.

Die Weiterentwicklung großer Sprachmodelle (Large Reasoning Models, LRMs) zur Bewältigung komplexer realer Probleme ist ein zentrales Thema in der aktuellen Forschung. Insbesondere die Fähigkeit zum effektiven Einsatz von Tools und zur Durchführung komplexer Schlussfolgerungen stellt eine große Herausforderung dar. Eine kürzlich veröffentlichte Studie beleuchtet ein Phänomen namens "Lazy Reasoning" bei LRMs und schlägt einen neuartigen Ansatz zur Behebung dieses Problems vor.

Das Phänomen des "Lazy Reasoning" bei LRMs

Empirische Analysen haben gezeigt, dass aktuelle große Sprachmodelle (LRMs) in komplexen Tool-Anwendungsszenarien oft eine unzureichende Fähigkeit zur Zerlegung von Aufgaben in Unteraufgaben aufweisen. Dieses Defizit führt zu einem ineffizienten und repetitiven Denkprozess, der als "Lazy Reasoning" bezeichnet wird. Anstatt komplexe Probleme systematisch in kleinere, handhabbare Schritte zu zerlegen, neigen die Modelle dazu, umfangreiche, aber sinnlose Argumentationsketten zu generieren, die die Optimierung durch Reinforcement Learning (RL) behindern und letztendlich zu suboptimalen Ergebnissen führen.

Ein Beispiel hierfür ist die Beobachtung, dass in Multi-Turn-Szenarien, bei denen mehrere Interaktionen erforderlich sind, LRMs im Vergleich zu spezialisierten Modellen deutlich abfallen. Während sie bei Einzel-Turn-Aufgaben oder mathematischen Problemen gute Leistungen erbringen, zeigen sie bei komplexeren Aufgaben, die eine tiefere Planung und strukturelle Zerlegung erfordern, Schwächen. Dies äußert sich in einem geringen Anteil an Aufgabenzerlegung und einem übermäßigen, oft ineffektiven Reflexionsverhalten, bei dem das Modell viel Kapazität für redundante Generationen aufwendet, ohne substanzielle Fortschritte zu erzielen.

D-CORE: Ein zweistufiges Trainingsframework

Um die identifizierten Einschränkungen des "Lazy Reasoning" zu überwinden, wurde das D-CORE-Framework (Decomposing tasks and Composing Reasoning processes) entwickelt. Dieses Framework zielt darauf ab, die Fähigkeit von LRMs zur autonomen Bewältigung komplexer Tool-Anwendungen durch einen zweistufigen Trainingsprozess zu verbessern:

Stufe 1: Anreize für die Aufgabenzerlegung durch Selbst-Destillation

Die erste Stufe des D-CORE-Frameworks konzentriert sich auf die Vermittlung von Fähigkeiten zur Aufgabenzerlegung und zur Ausführung von Unteraufgaben durch Selbst-Destillation. Im Gegensatz zu traditionellen Methoden, die auf externe "Lehrer"-Modelle angewiesen sind, nutzt D-CORE die intrinsische Fähigkeit des LRM, qualitativ hochwertige Denkprozesse zu generieren, wenn es mit expliziter struktureller Anleitung versehen wird.

Dieser Prozess umfasst mehrere Schritte:

Aufgabenzerlegung: Das LRM wird angewiesen, komplexe Anfragen in eine Reihe von Unteraufgaben zu zerlegen. Dies geschieht unter Berücksichtigung von Kontextinformationen wie Systemrichtlinien, Toolsets und Konversationshistorien. Referenzpfade und Wenige-Schuss-Beispiele werden bereitgestellt, um den Erfolg der Zerlegung zu verbessern.
Argumentationsgenerierung: Für jede zerlegte Unteraufgabe generiert das LRM einen Argumentationsprozess und entsprechende Tool-Aufrufe. Sequenzielle Unteraufgaben werden iterativ verarbeitet, um die Kontextabhängigkeit zu wahren, während parallele Unteraufgaben gleichzeitig behandelt werden. Bei Tool-irrelevanten Anfragen erklärt das Modell, warum eine Zerlegung nicht anwendbar ist.
Komposition: Die generierten Unteraufgaben, Argumentationsprozesse, Tool-Aufrufe und Tool-Antworten werden zu vollständigen Argumentationspfaden zusammengeführt. Reflexionsmechanismen werden in die Kompositionsvorlagen für parallele und irrelevante Szenarien integriert.
Destillation: Basierend auf den zusammengesetzten Argumentationspfaden wird Supervised Fine-Tuning (SFT) auf das LRM angewendet. Dadurch erwirbt das LRM Fähigkeiten zur Aufgabenzerlegung und Unteraufgaben-Ausführung, indem es die Wahrscheinlichkeit der Generierung dieser Pfade maximiert.

Stufe 2: Diversity-Aware GRPO zur Verbesserung der reflektierenden Denkfähigkeit

Obwohl die Selbst-Destillation die Aufgabenzerlegung verbessert, kann sie die reflektierende Denkfähigkeit und die Exploration des Modells unterdrücken. Dies führt zu einer geringen Varianz der Belohnungen, was die Optimierung durch Standard-GRPO (Generalized Policy Optimization) behindert. Um diesem "Homogenisierungseffekt" entgegenzuwirken, führt D-CORE eine Diversity-Aware GRPO (DA-GRPO) ein.

DA-GRPO modifiziert die Vorteilfunktion des Reinforcement Learning mit einem entropiebasierten Term, um den Kollaps des Gradienten zu verhindern und die Vielfalt der Argumentation zu fördern. Das Konzept basiert auf der Beobachtung, dass Token mit hoher Entropie oft mit reflektierenderem Denken korrelieren. Durch die Neugestaltung der Vorteilfunktion mit einem Term, der die Entropie berücksichtigt, wird das Modell dazu angeregt, vielfältigere Argumentationspfade zu erkunden und seine Reflexionsfähigkeiten wiederherzustellen.

Die Formulierung von DA-GRPO stellt sicher, dass selbst bei geringen Belohnungsvarianzen ein Lernfortschritt erzielt wird. Ein positiver entropiebasierter Vorteil ermöglicht es dem Modell, weiterhin zu lernen und die Wahrscheinlichkeit der Generierung von Token mit hoher Entropie zu erhöhen, wodurch deren Entropie reduziert und sie wahrscheinlicher erzeugt werden.

Experimentelle Ergebnisse und Leistungsbewertung

Die Wirksamkeit von D-CORE wurde auf verschiedenen Benchmarks bewertet, darunter BFCLv3 und τ-bench. Die Ergebnisse zeigen signifikante Verbesserungen:

Auf τ-bench erzielte D-CORE eine Steigerung der Genauigkeit um 18,6 % für Qwen3-8B und 17,7 % für Qwen3-14B. Insbesondere bei komplexen Aufgaben wie der Fluglinien-Aufgabe, die 4-5 Unteraufgaben pro Anfrage erfordert, zeigte D-CORE-14B mit 46,0 % die höchste Genauigkeit.
Auf BFCLv3 erreichte D-CORE eine Genauigkeitssteigerung von 11,4 % für Qwen3-8B und 13,4 % für Qwen3-14B. Bei herausfordernden Multi-Turn-Aufgaben wurden sogar Verbesserungen von 30,8 % erzielt.
D-CORE-8B setzte einen neuen Leistungsstandard unter den 8B-Modellen mit einer Gesamtgenauigkeit von 77,7 %, während D-CORE-14B mit 79,3 % eine neue Bestmarke erreichte und dabei 70B-Modelle übertraf, obwohl es fünfmal kleiner ist.

Diese Ergebnisse unterstreichen die Überlegenheit von D-CORE gegenüber bestehenden Methoden und zeigen, dass die Kombination aus Selbst-Destillation und Diversity-Aware GRPO effektiv ist, um das "Lazy Reasoning" zu mindern und die Leistung von LRMs in komplexen Tool-Anwendungsszenarien zu verbessern. Ablationsstudien bestätigten, dass sowohl die Selbst-Destillation als auch DA-GRPO entscheidend zur Gesamtleistung beitragen und dass eine sorgfältige Abstimmung der DA-GRPO-Parameter eine optimale Balance zwischen Exploration und Ausnutzung ermöglicht.

Allgemeingültigkeit und zukünftige Perspektiven

Das D-CORE-Framework zeigte auch eine gute Generalisierungsfähigkeit auf Out-of-Distribution-Aufgaben wie ACEBench, τ²-Bench und BFCLv4-agentic. Dies deutet darauf hin, dass die erzielten Leistungssteigerungen auf intrinsischen Verbesserungen bei der Aufgabenzerlegung und Argumentation beruhen und nicht auf einem Overfitting an spezifische Trainingsdaten. Die Fähigkeit, "Lazy Reasoning" in Multi-Turn-Aufgaben signifikant zu reduzieren, von 45 % auf 6 % bei inkorrekten Antworten, ist ein weiterer Beleg für die Wirksamkeit des Ansatzes.

Zukünftige Forschungsarbeiten könnten das D-CORE-Framework auf multimodale Modelle ausweiten und fortgeschrittene Reinforcement-Learning-Algorithmen zur weiteren Steigerung der Effizienz der Argumentation untersuchen. Die Erkenntnisse aus dieser Studie sind von Bedeutung für die Entwicklung robusterer und intelligenterer KI-Systeme, die in der Lage sind, komplexe Probleme in der realen Welt effektiver zu lösen.

Die hier vorgestellten Ergebnisse bieten wertvolle Einblicke für Unternehmen, die große Sprachmodelle in ihren Geschäftsprozessen einsetzen oder entwickeln. Die Fähigkeit, komplexe Aufgaben effizient zu zerlegen und präzise Schlussfolgerungen zu ziehen, ist entscheidend für die Leistungsfähigkeit von KI-basierten Tools in Bereichen wie Automatisierung, Datenanalyse und Entscheidungsfindung. Mindverse als Ihr KI-Partner verfolgt diese Entwicklungen aufmerksam, um Ihnen stets die neuesten und effektivsten Lösungen anbieten zu können.

Bibliographie

- Xu, Bowen et al. (2026). D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use. arXiv:2602.02160. - Hugging Face (2026). Paper page - D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use. Verfügbar unter: https://huggingface.co/papers/2602.02160 (Letzter Zugriff: 2024-07-29). - The Moonlight (o. D.). Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use. Verfügbar unter: https://www.themoonlight.io/en/review/d-core-incentivizing-task-decomposition-in-large-reasoning-models-for-complex-tool-use (Letzter Zugriff: 2024-07-29). - Huang, Zhenya et al. (2025). Decompose, Analyze and Rethink: Solving Intricate Problems with Human-like Reasoning Cycle. Proceedings.com. Verfügbar unter: https://www.proceedings.com/content/079/079017-0012open.pdf (Letzter Zugriff: 2024-07-29). - Reppert, Justin et al. (2023). Iterated Decomposition: Improving Science Q&A by Supervising Reasoning Processes. arXiv:2301.01751. - Bhar, Swarnadeep et al. (2025). COCORELI: Cooperative, Compositional Reconstitution & Execution of Language Instructions. arXiv:2509.04470. - Sun, Qiushi et al. (2023). Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration. arXiv:2310.00280. - ACL Anthology (o. D.). [PDF] ManuSearch: Democratizing Deep Search in Large ... - ACL Anthology. Verfügbar unter: https://aclanthology.org/anthology-files/anthology-files/pdf/findings/2025.findings-emnlp.130.pdf (Letzter Zugriff: 2024-07-29).