Verbesserung der Entscheidungsfindung bei großen Sprachmodellen durch RL-Fine-Tuning und Explorationsmechanismen

Kategorien:

No items found.

Freigegeben:

January 31, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Große Sprachmodelle (LLMs) zeigen in Entscheidungsszenarien oft suboptimales Verhalten, das durch Gier, Frequenzverzerrung und die „Knowing-Doing-Lücke“ gekennzeichnet ist.
RL-Fine-Tuning (RLFT) auf selbstgenerierten Chain-of-Thought (CoT)-Rationalen verbessert die Entscheidungsfindung von LLMs, indem es die Exploration erhöht und die Knowing-Doing-Lücke verringert.
Die Implementierung klassischer Explorationsmechanismen wie $\epsilon$ -greedy oder LLM-spezifischer Ansätze wie Selbstkorrektur kann die Explorationsfähigkeiten weiter verbessern.
CoT-Reasoning spielt eine entscheidende Rolle für die Leistung von LLMs in Entscheidungsszenarien, sowohl bei In-Context Learning (ICL) als auch bei RLFT.
Die Bereitstellung von mehr „Denkzeit“ (höheres Generierungsbudget) während des RLFT kann die Leistung erheblich steigern, erhöht jedoch die Rechenkosten.

Die Leistungsfähigkeit großer Sprachmodelle (Large Language Models, LLMs) hat in den letzten Jahren erheblich zugenommen und ihr Anwendungsspektrum erweitert sich stetig. Insbesondere im Bereich der agentischen Anwendungen, bei denen LLMs als autonome Entscheidungsträger agieren, weckt ihr Potenzial großes Interesse. Eine zentrale Hypothese besagt, dass LLMs durch die Nutzung von Common Sense und Chain-of-Thought (CoT)-Reasoning komplexe Domänen effektiv erkunden und effizient lösen können. Jüngste Studien beleuchten jedoch, dass LLM-Agenten in Entscheidungsszenarien häufig suboptimal agieren und Schwierigkeiten bei der Exploration haben. Dieser Artikel analysiert die Ursachen dieser suboptimalen Leistung und untersucht, wie Reinforcement Learning Fine-Tuning (RLFT) auf selbstgenerierten CoT-Rationalen diese Herausforderungen mindern kann.

Suboptimale Entscheidungsfindung von LLMs: Eine Analyse der Fehlerursachen

Die Forschung identifiziert primär drei Hauptursachen für das suboptimale Verhalten von LLMs in Entscheidungsszenarien:

Gier (Greediness)

Die Gier manifestiert sich darin, dass LLMs die besten bisher gesehenen Aktionen übermäßig bevorzugen, was zu einer unzureichenden Exploration des Handlungsraums führt. Dies führt dazu, dass ein signifikanter Teil des potenziellen Aktionsraums unerforscht bleibt. Beispielsweise zeigen Modelle wie Gemma2, dass selbst größere Modelle mit CoT-Fähigkeiten nur einen Bruchteil der verfügbaren Aktionen abdecken, was zu einem hohen kumulativen Regret führt.

Frequenzverzerrung (Frequency Bias)

Eine weitere häufige Fehlerquelle ist die Frequenzverzerrung, bei der LLMs dazu neigen, die am häufigsten im Kontext vorkommenden Aktionen zu wiederholen, selbst wenn diese nur geringe Belohnungen liefern. Kleinere Modelle sind von dieser Verzerrung stärker betroffen, während größere Modelle sie tendenziell abschwächen, jedoch weiterhin zu gierigem Verhalten neigen. Dies deutet darauf hin, dass die Frequenzverzerrung ein Artefakt des überwachten Vortrainings sein könnte und RL als Gegenmaßnahme dienen kann.

Die Knowing-Doing-Lücke

Die Knowing-Doing-Lücke beschreibt die Diskrepanz zwischen dem Wissen eines Modells über die optimale Vorgehensweise und seiner tatsächlichen Fähigkeit, dieses Wissen in Handlungen umzusetzen. LLMs können beispielsweise den Upper-Confidence-Bound (UCB)-Algorithmus korrekt beschreiben und die notwendigen Berechnungen durchführen, wählen aber dennoch häufig eine gierige Aktion anstelle der optimalen Aktion. Dies unterstreicht die Herausforderung, dass Modelle zwar wissen, "was" zu tun ist, aber Schwierigkeiten haben, "wie" sie es tun sollen.

Reinforcement Learning Fine-Tuning (RLFT) als Lösungsansatz

Um diese Mängel zu beheben, wird Reinforcement Learning Fine-Tuning (RLFT) auf selbstgenerierten CoT-Rationalen vorgeschlagen. RLFT ermöglicht es dem Modell, seinen Denkprozess iterativ zu verfeinern und CoT-Muster sowie Aktionen zu bevorzugen, die zu höheren Belohnungen führen. Die Experimente, die mit Gemma2-Modellen (in den Größen 2B, 9B und 27B) in Multi-Armed-Bandit (MAB)-Szenarien, kontextuellen Banditen und textbasiertem Tic-Tac-Toe durchgeführt wurden, zeigen vielversprechende Ergebnisse:

Verbesserung der Entscheidungsfindung

RLFT reduziert das kumulative Regret über verschiedene Umgebungen und Modellgrößen hinweg. Es schließt die Leistungslücke zu größeren Modellen und optimalen Algorithmen wie UCB. Dies deutet darauf hin, dass die Stärkung selbstgenerierter CoT-Rationalen in Richtung von Umgebungsbelohnungen die Leistung in einfachen Entscheidungsszenarien verbessert.

Minderung von Gier und Frequenzverzerrung

RLFT führt zu einer erhöhten Aktionsabdeckung und mindert somit die Gier der Modelle. Nach einer anfänglichen Phase der Verringerung der Aktionsabdeckung lernt der Agent durch weiteres Fine-Tuning, den Aktionsraum besser zu erkunden. Ebenso wirkt RLFT der Frequenzverzerrung entgegen, indem es den Anteil häufiger Aktionen reduziert und die Diversität der gewählten Aktionen erhöht, auch wenn die Verzerrung bei sehr häufigen Wiederholungen nicht vollständig beseitigt wird.

Schließung der Knowing-Doing-Lücke

RLFT ist in der Lage, die Knowing-Doing-Lücke zu verringern. Obwohl LLMs wissen, wie eine Aufgabe zu lösen ist, scheitern sie oft an der Umsetzung. Durch RLFT lernen die Modelle, ihr Wissen effektiver in Handlungen umzusetzen, was sich in einer verbesserten Leistung in Umgebungen wie Tic-Tac-Toe zeigt.

Explorationsmechanismen und ihre Effekte

Obwohl RLFT die Exploration fördert, bleibt die Aktionsabdeckung oft suboptimal. Daher wurden verschiedene klassische und LLM-spezifische Explorationsmechanismen untersucht:

Try-all Aktionen: Eine einfache Strategie, bei der zu Beginn alle Aktionen ausprobiert werden, führt zu den größten Leistungsverbesserungen. Dies deutet darauf hin, dass LLMs, wenn sie ausreichend Informationen über die (Sub-)Optimalität von Aktionen erhalten, diese entsprechend auswählen können, was ihre inhärenten Explorationsschwächen unterstreicht.
$\epsilon$ -greedy: Dieser klassische Mechanismus, bei dem mit einer Wahrscheinlichkeit $\epsilon$ eine zufällige Aktion gewählt wird, zeigt positive Effekte auf die Exploration.
Kontext-Randomisierung: Durch das Modifizieren der Kontextrepräsentation wird Zufälligkeit in die Aktionsvorhersagen eingeführt, was die Exploration verbessert.
Kontext-Zusammenfassung: Das Bereitstellen einer Zusammenfassung der bisherigen Interaktionen hilft dem Agenten, bessere Entscheidungen zu treffen.
Selbstkorrektur und Selbstkonsistenz: Diese LLM-spezifischen Ansätze, bei denen Modelle ihre eigenen Antworten korrigieren oder mehrere Antworten generieren und per Mehrheitsentscheidung die beste auswählen, tragen ebenfalls zur Verbesserung der Exploration bei.
Explorationsbonus: Ein Belohnungsbonus für bisher unversuchte Aktionen während des RLFT steigert die Exploration signifikant und reduziert das Regret. Dies betont die Bedeutung des Reward Shaping, um ein gewünschtes Verhalten in Entscheidungsszenarien zu fördern.

Ablationen und weitere Erkenntnisse

RLFT in zustandsbehafteten Umgebungen (Tic-Tac-Toe)

RLFT verbessert die Gewinnrate von LLMs in zustandsbehafteten Umgebungen wie Tic-Tac-Toe erheblich. Dies gilt auch gegenüber stärkeren Gegnern wie Monte Carlo Tree Search (MCTS). Die Bereitstellung der gültigen Aktionen im Kontext ist hier entscheidend, da das Modell sonst Schwierigkeiten hat, die richtigen Aktionen auszuwählen.

Bedeutung von CoT für RLFT

CoT-Reasoning ist sowohl für die In-Context Learning (ICL)-Leistung als auch für RLFT von entscheidender Bedeutung. Ohne CoT erreicht RLFT kaum die Leistung von ICL mit CoT, was die Funktion von CoT als vitalen Explorations- und Rationalisierungsmechanismus für die Entscheidungsfindung unterstreicht.

Expert Behavior Cloning vs. Thought Cloning

Das Trainieren von LLMs auf Expertendaten durch Supervised Fine-Tuning (SFT) kann ebenfalls zu einer Leistung führen, die mit der von UCB vergleichbar ist. Thought Cloning (TC), das Expertenaktionen und den zugehörigen Denkprozess umfasst, ist insbesondere in komplexeren Entscheidungsszenarien vielversprechend.

Einfluss der „Denkzeit“

Eine Erhöhung der dem Agenten zur Verfügung stehenden „Denkzeit“ (Generierungsbudget) während des RLFT führt zu einer konsistenten Leistungsverbesserung. Dies spiegelt wider, dass der Agent die zusätzlichen Token effektiv nutzt, um seine Entscheidungen zu rationalisieren. Eine größere Denkzeit geht jedoch mit erheblichen Rechenkosten einher, insbesondere bei mehrstufigen Entscheidungsprozessen.

Fazit und Ausblick

Die Analyse zeigt, dass LLMs in Entscheidungsszenarien häufig unter Gier, Frequenzverzerrung und der Knowing-Doing-Lücke leiden. Reinforcement Learning Fine-Tuning (RLFT) auf selbstgenerierten Chain-of-Thought (CoT)-Rationalen erweist sich als effektiver Ansatz, um diese Probleme zu mindern und die Entscheidungsfähigkeit von LLMs zu verbessern. Die Integration klassischer Explorationsmechanismen und LLM-spezifischer Strategien kann die Exploration weiter optimieren. CoT-Reasoning und ausreichend „Denkzeit“ sind dabei entscheidende Faktoren für den Erfolg. Zukünftige Forschungsarbeiten sollten die Explorationsfähigkeiten von LLM-Agenten in komplexeren Umgebungen untersuchen, die eine zielgerichtete Exploration erfordern. Auch die Optimierung der Balance zwischen Leistungssteigerung und Rechenkosten bei erhöhter Denkzeit bleibt ein wichtiges Forschungsfeld, möglicherweise durch den Einsatz moderner rekurrenten Architekturen.

Bibliographie

Schmied, T., Bornschein, J., Grau-Moya, J., Wulfmeier, M., & Pascanu, R. (2025). LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities. arXiv preprint arXiv:2504.16078.
Grams, T., Betz, P., Marton, S., Lüdtke, S., & Bartelt, C. (2025). Disentangling Exploration of Large Language Models by Optimal Exploitation. arXiv preprint arXiv:2501.08925.
Harris, K., & Slivkins, A. (2025). Should You Use Your Large Language Model to Explore or Exploit? arXiv preprint arXiv:2502.00225.
Nie, A., Su, Y., Chang, B., Lee, J., Chi, E. H., Le, Q. V., & Chen, M. (2025). Evolve: Evaluating and Optimizing LLMs For Exploration. OpenReview.
Chen, S., Chen, X., Huang, Y., Xie, R., & Dhingra, B. (2025). When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training. arXiv preprint arXiv:2509.24923.
Ruoss, A., Pardo, F., Chan, H., Li, B., Mnih, V., & Genewein, T. (2024). LMACT: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations. arXiv preprint arXiv:2412.01441.
Paglieri, D., Cupiał, B., Coward, S., Piterbarg, U., Wolczyk, M., Khan, A., ... & Fergus, R. (2024). BALROG: Benchmarking Agentic LLM and VLM Reasoning on Games. arXiv preprint arXiv:2411.13543.
Kumar, A., Zhuang, V., Agarwal, R., Su, Y., Co-Reyes, J. D., Singh, A., ... & Roelofs, R. (2024). Training Language Models to Self-Correct via Reinforcement Learning. arXiv preprint arXiv:2409.12917.
Wang, Y., Yue, X., & Chen, W. (2025). Critique Fine-Tuning: Learning to Critique is More Effective Than Learning to Imitate. arXiv preprint arXiv:2501.17703.
Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., ... & Zhou, D. (2022). Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171.
Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & Bi, X. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948.
Krishnamurthy, A., Harris, K., Foster, D. J., Zhang, C., & Slivkins, A. (2024). Can large language models explore in-context? arXiv preprint arXiv:2403.15371.
Hu, S., & Clune, J. (2023). Thought cloning: Learning to think while acting by imitating human thinking. Advances in Neural Information Processing Systems, 36, 44451-44469.
Auer, P. (2002). Using confidence bounds for exploitation-exploration trade-offs. Journal of Machine Learning Research, 3(Nov), 397-422.