Das Wichtigste in Kürze
- Die Quantifizierung von Unsicherheit (Uncertainty Quantification, UQ) in großen Sprachmodellen (LLMs) entwickelt sich von einer passiven Metrik zu einem aktiven Steuerungssignal.
- UQ wird zunehmend in fortgeschrittenen Denkprozessen, bei autonomen Agenten und im Reinforcement Learning eingesetzt, um das Modellverhalten in Echtzeit zu beeinflussen.
- Traditionelle UQ-Methoden, die auf die nachträgliche Bewertung beschränkt sind, reichen für komplexe, dynamische LLM-Anwendungen nicht mehr aus.
- Neue Ansätze nutzen UQ, um Denkpfade zu gewichten, kognitive Anstrengungen zu optimieren und metakognitive Entscheidungen in Agentensystemen zu steuern.
- Theoretische Rahmenwerke wie Bayessche Methoden und konforme Prädiktion untermauern diese Entwicklung und bieten strengere Garantien für die Zuverlässigkeit.
- Herausforderungen umfassen die Robustheit der Unsicherheitssignale, die Entwicklung aussagekräftiger Benchmarks und die Skalierbarkeit für komplexe Systeme.
Die rapide Entwicklung großer Sprachmodelle (LLMs) hat zu bemerkenswerten Fähigkeiten in der Textgenerierung, Argumentation und Entscheidungsfindung geführt. Gleichzeitig stellt die inhärente Unzuverlässigkeit dieser Modelle, die sich in Form von faktischen Fehlern, Verzerrungen und Halluzinationen äußert, ein kritisches Hindernis für ihren Einsatz in hochsensiblen Bereichen wie Medizin, Recht und Finanzen dar. Als Antwort auf diese Herausforderung hat sich die Quantifizierung von Unsicherheit (Uncertainty Quantification, UQ) als Schlüsseltechnologie zur Steigerung der Vertrauenswürdigkeit etabliert.
Dieser Artikel, verfasst von einem Senior Specialist Journalisten und Analysten für Mindverse, beleuchtet die funktionale Evolution der Unsicherheit in LLMs: von einer passiven, diagnostischen Metrik zu einem aktiven Steuerungssignal, das das Modellverhalten in Echtzeit lenkt. Wir analysieren, wie Unsicherheit in drei Kernbereichen als aktives Steuerungssignal genutzt wird: in fortgeschrittenen Denkprozessen zur Optimierung der Berechnung und zur Auslösung von Selbstkorrekturmechanismen, bei autonomen Agenten zur Steuerung metakognitiver Entscheidungen über Werkzeugnutzung und Informationssuche sowie im Reinforcement Learning zur Minderung von "Reward Hacking" und zur Ermöglichung der Selbstverbesserung durch intrinsische Belohnungen. Diese Entwicklungen werden durch aufkommende theoretische Rahmenwerke wie Bayessche Methoden und konforme Prädiktion untermauert, die eine vereinheitlichte Perspektive auf diesen transformativen Trend bieten.
Die Evolution der Unsicherheit: Von der passiven Metrik zum aktiven Signal
Traditionell konzentrierte sich die UQ auf die nachträgliche Bewertung und Kalibrierung von Modellausgaben. Methoden, die auf Bayes'scher Inferenz, Ensembles oder informationstheoretischen Metriken basieren, zielten darauf ab, Konfidenzwerte für einzelne Generierungen zu liefern. Diese Ansätze behandeln Unsicherheit als eine passive, diagnostische Metrik, die an abgeschlossene Ausgaben gekoppelt ist. Eine solche Herangehensweise erweist sich jedoch als unzureichend für die nächste Generation von LLM-Systemen, die mehrstufige Denkprozesse, interaktive Umgebungen und die Abstimmung mit komplexen menschlichen Werten erfordern.
Die Grenzen der traditionellen UQ zeigen sich insbesondere in drei Punkten:
- Unanwendbarkeit bei mehrstufigen Denkprozessen: Bei Ketten von Gedanken können frühe Fehler ganze Sequenzen entgleisen lassen. Ein abschließender, nachträglicher Score ist unzureichend; Modelle benötigen kontinuierliche Unsicherheitssignale in Zwischenschritten, um in Echtzeit zurückzuspringen, Verzweigungen zu nutzen oder sich anzupassen.
- Unzureichend für autonome Agenten: Für LLM-Agenten informiert Unsicherheit verschiedene Entscheidungen, z. B. ob auf parametrisches Wissen zurückgegriffen, Werkzeuge eingesetzt oder menschlicher Input eingeholt werden soll. Ein einziger retrospektiver Score auf eine Textausgabe unterstützt solche proaktiven Entscheidungen nicht.
- Fehlanpassung an dynamische und interaktive Systeme: Klassische UQ geht von statischen, monolithischen Ausgaben aus. Moderne LLM-Systeme beinhalten jedoch verzweigte Denkpfade, Umweltinteraktionen und iterative Abstimmungsschleifen, die erfordern, dass sich Unsicherheit dynamisch mit dem Systemverhalten entwickelt.
Diese Einschränkungen erfordern einen funktionalen Wandel: Unsicherheit muss über die passive Bewertung hinausgehen und zu einem aktiven Steuerungssignal werden, das in die operationelle Schleife des Modells integriert ist.
Fortgeschrittene Denkprozesse: Unsicherheit als Wegweiser
In fortgeschrittenen Denkprozessen mit LLMs hat sich Unsicherheit von einem passiven, nachträglichen Qualitätsscore zu einem aktiven internen Signal entwickelt, das die Entscheidungsfindung leitet. Dies betrifft die Gewichtung von Denkpfaden, die Steuerung innerhalb einzelner Denkpfade und die effiziente Allokation kognitiver Anstrengungen.
Gewichtete Auswahl zwischen Denkpfaden
Die Skalierung zur Inferenzzeit, bei der Modelle viele Denkspuren generieren und diese dann aggregieren, ist zu einer Standardstrategie zur Verbesserung der Robustheit geworden. Unsicherheit ermöglicht eine nuancierte Auswahl zwischen generierten Denkpfaden, um die Gesamtgenauigkeit zu verbessern.
- Konfidenzgewichtete Auswahl: Neuere Arbeiten gehen über die "Ein Pfad, eine Stimme"-Funktion hinaus, indem sie Unsicherheit als Gewichtungssignal nutzen. Methoden wie Confidence-Informed Self-Consistency (CISC) weisen jedem Denkpfad einen ganzheitlichen Konfidenzscore zu, der auf seiner längennormalisierten Wahrscheinlichkeit basiert und dann die endgültige Abstimmung gewichtet. Confidence Enhanced Reasoning (CER) bewertet stattdessen die Konfidenz an entscheidenden Zwischenschritten und aggregiert diese zu einem robusteren Score.
- Abwägung von Nutzen und Genauigkeit: Gewichtete Methoden offenbaren ein Spannungsfeld zwischen dem Nutzen von Konfidenzwerten für lokale Entscheidungen und ihrer Genauigkeit für die globale Kalibrierung. Ein scharfes, lokal diskriminierendes Signal ist nützlicher für die Pfadauswahl, selbst wenn es global "überkonfident" ist.
Innerhalb eines Denkpfades: Von der Inferenz zum Training
Innerhalb eines Denkpfades ist Unsicherheit nicht nur ein retrospektives Konfidenzmaß, sondern ein aktives Steuerungssignal, das die Argumentation während der Inferenz leitet und als Trainingsziel dient.
- Inferenzzeitliche Führung: Unsicherheit bietet Echtzeit-Feedback, das es Modellen ermöglicht, ihre Argumentation während des Ablaufs anzupassen. Uncertainty-Aware Adaptive Guidance (UAG) überwacht die Unsicherheit auf Schritt-Ebene und zieht sich bei Abweichungen zu Checkpoints mit geringer Unsicherheit zurück. Spontaneous Self-Correction (SPOC) weist dem Modell duale Rollen als Vorschlagender und Überprüfender zu, wobei Unsicherheit zur Aktionsauswahl (Fortsetzung, Rückverfolgung oder Revision) verwendet wird.
- Verbesserungen zur Trainingszeit: Unsicherheit treibt auch Fortschritte im Modelltraining voran. Uncertainty-Sensitive Tuning lehrt Modelle, sich bei hoher Unsicherheit zu enthalten, und stellt dann allgemeine Fähigkeiten wieder her, während eine kalibrierte Zurückhaltung beibehalten wird. Uncertainty-Aware Fine-Tuning modifiziert die Verlustfunktion selbst und belohnt höhere Unsicherheit bei letztendlich falschen Vorhersagen, um zuverlässigere Schätzungen zu erzeugen.
Optimierung des kognitiven Aufwands: Unsicherheit als ökonomisches Signal
Die Herausforderung bei Denkaufgaben besteht darin, Modelle zu befähigen, "bei Bedarf zu denken", d. h. zusätzliche Argumentation nur bei Bedarf durchzuführen, anstatt einfache Aufgaben zu überdenken. Unsicherheit bietet eine kostengünstige Kontrolle, um Effizienz und Genauigkeit in Einklang zu bringen.
- Kritische Punkte oder Zustände: UnCert-CoT wendet dieses Prinzip auf strukturierte Argumentationsaufgaben wie die Codegenerierung an. An kritischen Entscheidungspunkten misst das Modell die Unsicherheit und aktiviert bei Überschreitung eines Schwellenwerts die Chain-of-Thought (CoT)-Dekodierung; andernfalls fährt es mit der direkten Codegenerierung fort.
- Momentum-Unsicherheit: Momentum Uncertainty Reasoning (MUR) verfolgt eine trajektorienbezogene Perspektive. Anstatt sich auf einzelne Schwellenwerte zu verlassen, aggregiert MUR die Unsicherheit über Schritte hinweg und weist flexibel ein "Denkbudget" Regionen des Denkpfades zu.
Autonome Agenten: Metakognition durch Unsicherheit
Bei LLM-Agenten hat sich Unsicherheit von einer passiven Texteigenschaft zu einem aktiven metakognitiven Signal entwickelt, das agentisches Verhalten antreibt: von der strategischen Reaktion auf interne Zustände über die Steuerung der Entscheidungsfindung bei der Werkzeugnutzung bis hin zum Management der Unsicherheitspropagation in mehrstufigen Arbeitsabläufen.
Von der Enthaltung zur Anfrage: Reaktion auf interne Unsicherheit
Damit ein LLM von einem statischen Generator zu einem autonomen Agenten wird, muss es Metakognition entwickeln, d. h. die Fähigkeit, "zu wissen, was es nicht weiß". Die strategische Reaktion eines Agenten auf seine eigene Unsicherheit ist ein Schlüsselmerkmal von Intelligenz.
- Passive Verteidigung: Die grundlegende Strategie ist die passive Verteidigung, bei der der Agent bei hoher Unsicherheit, insbesondere in hochsensiblen Bereichen, abspringt.
- Diagnostische Reaktion: Weiter fortgeschritten ist die diagnostische Reaktion, bei der der Agent die Ursache seiner Verwirrung hinterfragt, sei es Wissenslücken, Fähigkeitsgrenzen oder Abfrageambiguität.
- Proaktive Anfrage: Die ausgeklügeltste Strategie ist die proaktive Anfrage, bei der der Agent eine optimale Strategie lernt, um klärende Fragen zu stellen und so zukünftige Unsicherheit strategisch zu reduzieren.
Entscheidungsgrenze für die Werkzeugnutzung
Eine Schlüsselkompetenz moderner LLM-Agenten ist die Nutzung externer Werkzeuge (z. B. Suchmaschinen und APIs), um die Grenzen des parametrischen Wissens zu überwinden. Dies führt zu einem Kerndilemma: Wann sollte ein Agent auf internes Wissen zurückgreifen und wann die Kosten der Werkzeugnutzung in Kauf nehmen?
- Inferenzzeitliche Kontrolle: Die frühesten Methoden verwenden inferenzzeitliche Kontrolle, bei der das Modell eine vorläufige Antwort generiert und Werkzeuge nur dann aufruft, wenn die Echtzeit-Unsicherheit hoch ist, was die Effizienz verbessert.
- Training-time Self-Awareness: Fortgeschrittenere Ansätze verfolgen die "Training-time Self-Awareness", bei der Agenten auf spezialisierten Datensätzen feinabgestimmt werden, um Wissensgrenzen zu internalisieren und kalibrierte intrinsische Strategien für die Werkzeugnutzung zu entwickeln.
Uncertainty Propagation in mehrstufigen Workflows
Bei komplexen mehrstufigen Aufgaben ist die Unsicherheit dynamisch: kleine Fehler können sich durch einen Workflow akkumulieren und ausbreiten, was letztendlich zum Scheitern der Aufgabe führt. Traditionelle Unsicherheitsmethoden bewerten typischerweise einzelne Ausgaben und übersehen diesen kumulativen Effekt. Der Aufbau zuverlässiger Langzeit-Agenten erfordert die explizite Modellierung, wie sich Unsicherheit über den "Gedanken-Aktions-Beobachtungs"-Zyklus entwickelt.
- SAUP-Framework: Das SAUP (Situation-Awareness Uncertainty Propagation)-Framework verfolgt die Unsicherheit bei jedem Schritt und gewichtet ihre Bedeutung basierend auf dem Kontext.
- UProp-Framework: Das UProp-Framework bietet eine informationstheoretische Grundlage, die die Gesamtunsicherheit in intrinsische Unsicherheit (IU) im aktuellen Schritt und extrinsische Unsicherheit (EU), die von früheren Schritten geerbt wurde, zerlegt.
Multi-Agenten-Systeme
Mit dem Fortschritt der Forschung von Einzelagenten zu Multi-Agenten-Systemen (MAS) werden Unsicherheitsherausforderungen nicht nur skaliert, sondern grundlegend transformiert. Unsicherheit entsteht nun sowohl innerhalb der internen Argumentation jedes Agenten als auch in der Kommunikation und den Interaktionen zwischen Agenten. Eine zentrale Sorge ist, dass sich Unsicherheit über Interaktionen hinweg ausbreiten und verstärken kann. Die zentrale Herausforderung besteht darin, eine Einigung zwischen Agenten unter Unsicherheit zu erzielen.
Reinforcement Learning und Reward Modeling: Robuste Ausrichtung
Im RL-Alignment hat sich Unsicherheit von einem Faktor, der von deterministischen Scores ignoriert wurde, zu einem Kernmechanismus für robustes Lernen entwickelt: vom Aufbau robuster Reward-Modelle zur Minderung von "Reward Hacking" über die Ermöglichung der Selbstverbesserung durch intrinsische Belohnungen bis hin zur Automatisierung skalierbarer Prozessüberwachung.
Robuste Reward-Modelle
Der Eckpfeiler der RLHF-Pipeline ist das Reward Model (RM), das als Stellvertreter für menschliche Werte dient. Herkömmliche RMs sind deterministisch und erzeugen einen einzigen Skalarwert. Dies schafft eine Diskrepanz zur stochastischen Natur menschlicher Präferenzen und ermöglicht "Reward Hacking", bei dem Strategien RM-Ungenauigkeiten ausnutzen, um bei minderwertigen Ausgaben hohe Punktzahlen zu erzielen. Um dies zu beheben, konzentriert sich die jüngste Arbeit auf RMs, die Unsicherheit modellieren und ausdrücken können.
- Uncertainty-Aware Reward Models (URMs): Diese Methoden machen das RM explizit unsicherheitsbewusst, typischerweise durch architektonische oder feature-basierte Modifikationen.
- Bayesian Reward Models (Bayesian RMs): Anstatt eine einzige Punktschätzung für die Gewichte zu lernen, lernen Bayessche RMs eine Posterior-Verteilung über diese, wodurch epistemische Unsicherheit (die eigene Modellunsicherheit des RM) erfasst wird.
Selbstverbesserndes Reinforcement Learning
Während robuste Reward-Modelle die externe Überwachung stärken, zielt ein fortschrittlicheres Paradigma darauf ab, die Abhängigkeit von solchen Signalen ganz zu reduzieren. Dieses Paradigma basiert auf intrinsischer Motivation, bei der sich ein Agent verbessert, indem er seine eigenen internen Zustände optimiert, anstatt externes Feedback zu erhalten. Unsicherheit, ausgedrückt als Konfidenz, Entropie oder Informationsgewinn (IG), hat sich als Kern der intrinsischen Belohnung für die selbstgesteuerte Ausrichtung in LLMs erwiesen.
- Konfidenz als intrinsische Belohnung: Das einfachste intrinsische Signal ist das Selbstvertrauen. Das Reinforcement Learning from Self-Feedback (RLSF)-Framework zeigt, dass Konfidenzwerte synthetische Präferenzpaare erzeugen können, die eine Selbstausrichtung ohne menschliche Labels ermöglichen.
- Entropie-Minimierung (EM): Eine tiefere Perspektive sieht Argumentation als einen Drang zur Reduzierung von Unsicherheit. Das Prinzip der EM behandelt Argumentation als Minimierung der Entropie der prädiktiven Verteilung und bietet ein belohnungsfreies, unüberwachtes Ziel zur Verbesserung der LLM-Argumentation.
Skalierbare Prozessüberwachung
Während intrinsische Belohnungen die Autonomie verbessern, kann die Qualität der Ausrichtung durch feinkörniges externes Feedback verbessert werden. Prozessbasierte Überwachung, die korrekte Zwischenschritte und nicht nur Endergebnisse belohnt, liefert ein stärkeres Lernsignal. Ihre Akzeptanz war jedoch aufgrund der hohen Kosten für die manuelle Segmentierung von Denkketten in logische Schritte und deren Annotierung begrenzt.
Neuere Arbeiten nutzen Unsicherheit, um diese Segmentierung zu automatisieren. Das EDU-PRM-Framework identifiziert Token mit hoher prädiktiver Entropie zwischen Denkphasen und verwendet sie als "Unsicherheitsanker", um Ketten automatisch zu partitionieren.
Aufkommende theoretische Rahmenwerke
Die Entwicklung von Unsicherheit als passive Metrik zu einem aktiven Steuerungssignal ist nicht nur eine Sammlung empirischer Techniken; sie spiegelt ein tieferes Bedürfnis nach prinzipiellen Grundlagen wider, um zuverlässige und vertrauenswürdige Systeme aufzubauen.
Die Bayessche Methode
Als grundlegende Theorie für die Argumentation unter Unsicherheit erleben Bayessche Methoden eine Renaissance und bieten eine prinzipielle Basis zur Analyse und Steuerung des LLM-Verhaltens. Eine wichtige theoretische Erkenntnis ist, dass LLMs, obwohl sie keine streng Bayesschen Argumentationssysteme sind, ihr In-Context-Lernmechanismus oft die Bayessche prädiktive Aktualisierung im Erwartungswert annähert.
Eine pragmatische Richtung sind hybride Systeme, die LLMs mit formalen probabilistischen Modellen kombinieren. Diese nutzen komplementäre Stärken: qualitative, abduktive Argumentation von LLMs und quantitative Unsicherheitsverwaltung von Bayesscher Inferenz. Eine weitere ehrgeizige Linie versucht, LLMs direkt probabilistisches Denken beizubringen, um kognitive Verzerrungen wie die Vernachlässigung der Basisrate zu mindern.
Konforme Prädiktion
Im Gegensatz zu Bayesschen Methoden, die auf Vorab-Distributionen angewiesen sind, bietet die konforme Prädiktion (CP) ein leistungsstarkes nicht-Bayessches Rahmenwerk mit rigorosen, distributionsfreien Abdeckungsgarantien. Für jede Eingabe konstruiert CP eine Vorhersagemenge, die garantiert die wahre Ausgabe mit einer vom Benutzer festgelegten Wahrscheinlichkeit enthält, unabhängig von der Modellarchitektur oder der Datenverteilung.
- Black-Box (API-Only) Ansätze: Ohne Zugriff auf Logits verwenden Methoden wie ConU und Su et al. semantische Ähnlichkeit als Proxy für Nicht-Konformität.
- White-Box (Logit-Access) Ansätze: Mit vollem Zugriff auf Modellwahrscheinlichkeiten ist eine tokenbasierte Kalibrierung möglich. Conformal Language Modeling verwendet Logits, um Vorhersagemengen für das nächste Token bei jedem Schritt zu erstellen, um sicherzustellen, dass das wahre Token mit hoher Wahrscheinlichkeit in der Menge liegt.
Herausforderungen und zukünftige Richtungen
Während die sich entwickelnde Rolle der Unsicherheit schnell voranschreitet, hängt ihre vollständige Realisierung von der Bewältigung mehrerer grundlegender Herausforderungen ab.
- Zuverlässigkeit und Robustheit des aktiven Signals: Die Funktion von Unsicherheit als Steuerungssignal basiert auf der Annahme, dass das Signal selbst aussagekräftig und vertrauenswürdig ist. Zukünftige Arbeiten müssen die Integrität dieser grundlegenden Schicht rigoros angehen.
- Weiterentwicklung des UQ-Benchmarkings: Die Reife des Feldes zeigt sich in aufkommenden standardisierten Benchmarks. Diese Rahmenwerke bewerten jedoch überwiegend die Schätzgenauigkeit und diagnostizieren, ob ein Modell weiß, dass es falsch liegt, anstatt den Nutzen der Kontrolle zu bewerten.
- Aussagekräftige Evaluation und Metriken: Die aktuelle Evaluation bleibt ein signifikanter Engpass. Standardmetriken sind für die reichhaltigen, interaktiven und dynamischen Kontexte, in denen die Active-Signal-Funktion am relevantesten ist, ungeeignet.
- Komponierbare, unsicherheitsverbreitende Systeme: Die Ausweitung des Unsicherheitsmanagements von einzelnen, monolithischen Modellen auf komplexe, miteinander verbundene Systeme bleibt ein großes offenes Problem.
- Skalierbarkeit und Effizienz: Eine anhaltende Herausforderung in diesem Bereich ist der Kompromiss zwischen theoretischer Strenge und rechnerischer Machbarkeit. Viele der prinzipiellsten und leistungsfähigsten Methoden sind oft zu rechenintensiv für einen weit verbreiteten Echtzeiteinsatz.
Fazit
Dieser Artikel hat einen aufkommenden technologischen Trend beleuchtet: die Entwicklung der Unsicherheit in LLMs von einer passiven, nachträglichen diagnostischen Metrik zu einem aktiven, echtzeitfähigen Steuerungssignal. Wir haben diese Transformation in drei Bereichen nachvollzogen: fortgeschrittene Denkprozesse, autonome Agenten und Reinforcement Learning. Dabei wurde gezeigt, wie Unsicherheit nicht nur zur Bewertung von Ausgaben, sondern auch zur dynamischen Gestaltung des Modellverhaltens genutzt wird.
Die Integration von Unsicherheitsquantifizierung als aktives Steuerungssignal ist entscheidend für den Aufbau der nächsten Generation skalierbarer, zuverlässiger und vertrauenswürdiger KI-Systeme. Für B2B-Anwender bedeutet dies eine Verschiebung hin zu transparenteren, kontrollierbareren und letztlich vertrauenswürdigeren KI-Lösungen, die in der Lage sind, in komplexen und kritischen Geschäftsumgebungen fundierte Entscheidungen zu treffen und sich selbstständig anzupassen.
Bibliographie
- Agarwal, S., Zhang, Z., Yuan, L., Han, J., & Peng, H. (2025). *The unreasonable effectiveness of entropy minimization in llm reasoning*. arXiv preprint arXiv:2505.15134.
- Betley, J., Bao, X., Soto, M., Sztyber-Betley, A., Chua, J., & Evans, O. (2025). *Tell me about yourself: llms are aware of their learned behaviors*. In The Thirteenth International Conference on Learning Representations.
- Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., ... & Liang, P. (2022). *On the opportunities and risks of foundation models*. arXiv preprint arXiv:2108.07258.
- Cao, L., Chen, R., Zou, Y., Peng, C., Ning, W., Xu, H., ... & Peng, M. (2025). *Process reward modeling with entropy-driven uncertainty*. arXiv preprint arXiv:2503.22233.
- Cemri, M., Pan, M. Z., Yang, S., Agrawal, L. A., Chopra, B., Tiwari, R., ... & Ramchandran, K. (2025). *Why do multi-agent llm systems fail?*. arXiv preprint arXiv:2503.13657.
- Cief, M., Tonolini, F., Aletras, N., & Kazai, G. (2024). *Adaptive uncertainty-aware reinforcement learning from human feedback*.
- Devic, S., Srinivasan, T., Thomason, J., Neiswanger, W., & Sharan, V. (2025). *From calibration to collaboration: llm uncertainty quantification should be more human-centered*. arXiv preprint arXiv:2506.07461.
- Duan, J., Diffenderfer, J., Madireddy, S., Chen, T., Kailkhura, B., & Xu, K. (2025). *UProp: investigating the uncertainty propagation of llms in multi-step agentic decision-making*. arXiv preprint arXiv:2506.17419.
- Farquhar, S., Kossen, J., Kuhn, L., & Gal, Y. (2024). *Detecting hallucinations in large language models using semantic entropy*. Nature, 630(8017), 625-630.
- Feng, Y., Zhou, B., Lin, W., & Roth, D. (2025). *BIRD: a trustworthy bayesian inference framework for large language models*. In The Thirteenth International Conference on Learning Representations.
- Fu, J., Zhao, X., Yao, C., Wang, H., Han, Q., & Xiao, Y. (2025a). *Reward shaping to mitigate reward hacking in rlhf*. arXiv preprint arXiv:2502.18770.
- Fu, Y., Wang, X., Tian, Y., & Zhao, J. (2025b). *Deep think with confidence*. arXiv preprint arXiv:2508.15260.
- Gan, Z., Liao, Y., & Liu, Y. (2025). *Rethinking external slow-thinking: from snowball errors to probability of correct reasoning*. arXiv preprint arXiv:2501.15602.
- Gawlikowski, J., Tassi, C. R. N., Ali, M., Lee, J., Humt, M., Feng, J., ... & Roscher, R. (2023). *A survey of uncertainty in deep neural networks*. Artificial Intelligence Review, 56(Suppl 1), 1513-1589.
- Geng, J., Cai, F., Wang, Y., Koeppl, H., Nakov, P., & Gurevych, I. (2024). *A survey of confidence estimation and calibration in large language models*. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 6577-6595.
- Han, J., Buntine, W., & Shareghi, E. (2024). *Towards uncertainty-aware language agent*. In Findings of the Association for Computational Linguistics ACL 2024, pp. 6662-6685.
- Hazra, S., Dasgupta, P., & Dey, S. (2025). *Tackling uncertainties in multi-agent reinforcement learning through integration of agent termination dynamics*. In Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems, pp. 960-968.
- Hu, J., Dong, Y., Ao, S., Li, Z., Wang, B., Singh, L., ... & Huang, X. (2025). *Position: towards a responsible llm-empowered multi-agent systems*. arXiv preprint arXiv:2502.01714.
- Hu, Z., Liu, C., Feng, X., Zhao, Y., Ng, S., Luu, A. T., ... & Hooi, B. (2024). *Uncertainty of thoughts: uncertainty-aware planning enhances information seeking in large language models*. arXiv preprint arXiv:2402.03271.
- Huang, H., Yang, Y., Zhang, Z., Lee, S., & Wu, Y. (2024). *A survey of uncertainty estimation in llms: theory meets practice*. arXiv preprint arXiv:2410.15326.
- Jiang, Y., Li, Y., Chen, G., Liu, D., Cheng, Y., & Shao, J. (2025). *Rethinking entropy regularization in large reasoning models*. arXiv preprint arXiv:2509.25133.
- Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, D., Perez, E., ... & Tran-Johnson, E. (2022). *Language models (mostly) know what they know*. arXiv preprint arXiv:2207.05221.
- Kamoi, R., Zhang, Y., Zhang, N., Han, J., & Zhang, R. (2024). *When can llms actually correct their own mistakes? a critical survey of self-correction of llms*. Transactions of the Association for Computational Linguistics, 12, 1417-1440.
- Kendall, A., & Gal, Y. (2017). *What uncertainties do we need in bayesian deep learning for computer vision?*. Advances in neural information processing systems, 30.
- Kirchhof, M., Kasneci, G., & Kasneci, E. (2025). *Position: uncertainty quantification needs reassessment for large language model agents*. In Forty-second International Conference on Machine Learning Position Paper Track.
- Krishnan, R., Khanna, P., & Tickoo, O. (2024). *Enhancing trust in large language models with uncertainty-aware fine-tuning*. arXiv preprint arXiv:2412.02904.
- Kuhn, L., Gal, Y., & Farquhar, S. (2023). *Semantic uncertainty: linguistic invariances for uncertainty estimation in natural language generation*. In The Eleventh International Conference on Learning Representations.
- Lambert, N., Pyatkin, V., Morrison, J., Miranda, L. J. V., Lin, B. Y., Chandu, K., ... & Zick, T. (2025). *Rewardbench: evaluating reward models for language modeling*. In Findings of the Association for Computational Linguistics: NAACL 2025, pp. 1755-1797.
- Li, J., Tang, Y., & Yang, Y. (2025a). *Know the unknown: an uncertainty-sensitive method for llm instruction tuning*. In Findings of the Association for Computational Linguistics: ACL 2025, pp. 2972-2989.
- Li, L., Liu, H., Zhou, Y., Gui, Z., Weng, X., Yuan, Y., ... & Li, Z. (2025b). *Uncertainty-aware iterative preference optimization for enhanced llm reasoning*. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 23996-24012.
- Li, Y., Hu, X., Qu, X., Li, L., & Cheng, Y. (2025c). *Test-time preference optimization: on-the-fly alignment via iterative textual feedback*. In Forty-second International Conference on Machine Learning.
- Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., ... & Cobbe, K. (2023). *Let’s verify step by step*. In The Twelfth International Conference on Learning Representations.
- Liu, H., Dou, Z., Wang, Y., Peng, N., & Yue, Y. (2024). *Uncertainty calibration for tool-using language agents*. In Findings of the Association for Computational Linguistics: EMNLP 2024, pp. 16781-16805.
- Liu, J., Peng, J., Wu, X., Li, X., Ge, T., Zheng, B., & Liu, Y. (2025a). *Do not abstain! identify and solve the uncertainty*. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 17177-17197.
- Liu, R., Gao, J., Zhao, J., Zhang, K., Li, X., Qi, B., ... & Zhou, B. (2025b). *Can 1b llm surpass 405b llm? rethinking compute-optimal test-time scaling*. arXiv preprint arXiv:2502.06703.
- Liu, X., Chen, T., Da, L., Chen, C., Lin, Z., & Wei, H. (2025c). *Uncertainty quantification and confidence calibration in large language models: a survey*. In Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V. 2, pp. 6107-6117.
- Liu, Y., Lu, J., Chen, Z., Qu, C., Liu, J. K., Liu, C., ... & Bian, J. (2025d). *Adaptivestep: automatically dividing reasoning step through model confidence*. arXiv preprint arXiv:2502.13943.
- Lou, X., Yan, D., Shen, W., Yan, Y., Xie, J., & Zhang, J. (2024). *Uncertainty-aware reward model: teaching reward models to know what is unknown*. arXiv preprint arXiv:2410.00847.
- Muennighoff, N., Yang, Z., Shi, W., Li, X. L., Fei-Fei, L., Hajishirzi, H., ... & Hashimoto, T. B. (2025). *S1: simple test-time scaling*. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pp. 20286-20332.
- Pan, J., Deng, S., & Huang, S. (2025). *Coat: chain-of-associated-thoughts framework for enhancing large language models reasoning*. arXiv preprint arXiv:2502.02390.
- Prabhudesai, M., Chen, L., Ippoliti, A., Fragkiadaki, K., Liu, H., & Pathak, D. (2025). *Maximizing confidence alone improves reasoning*. arXiv preprint arXiv:2505.22660.
- Pu, X., Saxon, M., Hua, W., & Wang, W. Y. (2025). *Thoughtterminator: benchmarking, calibrating, and mitigating overthinking in reasoning models*. arXiv preprint arXiv:2504.13367.
- Qian, C., Liu, D., Wen, H., Bai, Z., Liu, Y., & Shao, J. (2025a). *Demystifying reasoning dynamics with mutual information: thinking tokens are information peaks in llm reasoning*. arXiv preprint arXiv:2506.02867.
- Qian, C., Acikgoz, E. C., Wang, H., Chen, X., Sil, A., Hakkani-Tur, D., ... & Ji, H. (2025b). *SMART: self-aware agent for tool overuse mitigation*. In Findings of the Association for Computational Linguistics: ACL 2025, pp. 4604-4621.
- Qiu, L., Sha, F., Allen, K., Kim, Y., Linzen, T., & van Steenkiste, S. (2025). *Bayesian teaching enables probabilistic reasoning in large language models*. arXiv preprint arXiv:2503.17523.
- Quach, V., Fisch, A., Schuster, T., Yala, A., Sohn, J. H., Jaakkola, T. S., & Barzilay, R. (2023). *Conformal language modeling*. In The Twelfth International Conference on Learning Representations.
- Razghandi, A., Hosseini, S. M. H., & Baghshah, M. S. (2025). *Cer: confidence enhanced reasoning in llms*. arXiv preprint arXiv:2502.14634.
- Ross, B. L., Vouitsis, N., Ghomi, A. A., Hosseinzadeh, R., Xin, J., Liu, Z., ... & Loaiza-Ganem, G. (2025). *Textual bayes: quantifying uncertainty in llm-based systems*. arXiv preprint arXiv:2506.10060.
- Schulman, J., & Lab, T. M. (2025). *LoRA without regret*. Thinking Machines Lab: Connectionism.
- Selby, D. A., Spriestersbach, K., Iwashita, Y., Bappert, D., Warrier, A., Mukherjee, S., ... & Vollmer, S. J. (2024). *Had enough of experts? elicitation and evaluation of bayesian priors from large language models*. In NeurIPS 2024 Workshop on Bayesian Decision-making and Uncertainty.
- Shorinwa, O., Mei, Z., Lidard, J., Ren, A. Z., & Majumdar, A. (2025). *A survey on uncertainty quantification of large language models: taxonomy, open research challenges, and future directions*. ACM Computing Surveys.
- Smith, R., Fries, J. A., Hancock, B., & Bach, S. H. (2024). *Language models in the loop: incorporating prompting into weak supervision*. ACM/JMS Journal of Data Science, 1(2), 1-30.
- Stoisser, J. L., Martell, M. B., Phillips, L., Mazzoni, G., Harder, L. M., Torr, P., ... & Fauqueur, J. (2025). *Towards agents that know when they don’t know: uncertainty as a control signal for structured reasoning*. arXiv preprint arXiv:2509.02401.
- Su, J., Luo, J., Wang, H., & Cheng, L. (2024). *API is enough: conformal prediction for large language models without logit-access*. In Findings of the Association for Computational Linguistics: EMNLP 2024, pp. 979-995.
- Sun, Z., Yu, L., Shen, Y., Liu, W., Yang, Y., Welleck, S., & Gan, C. (2024). *Easy-to-hard generalization: scalable alignment beyond human supervision*. Advances in Neural Information Processing Systems, 37, 51118-51168.
- Taubenfeld, A., Sheffer, T., Ofek, E., Feder, A., Goldstein, A., Gekhman, Z., & Yona, G. (2025). *Confidence improves self-consistency in llms*. arXiv preprint arXiv:2502.06233.
- Tian, K., Mitchell, E., Zhou, A., Sharma, A., Rafailov, R., Yao, H., ... & Manning, C. D. (2023). *Just ask for calibration: strategies for eliciting calibrated confidence scores from language models fine-tuned with human feedback*. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 5433-5442.
- van Niekerk, C., Vukovic, R., Ruppik, B. M., Lin, H., & Gašić, M. (2025). *Post-training large language models via reinforcement learning from self-feedback*. arXiv preprint arXiv:2507.21931.
- Vashurin, R., Fadeeva, E., Vazhentsev, A., Rvanova, L., Vasilev, D., Tsvigun, A., ... & Grishchenkov, K. (2025). *Benchmarking uncertainty quantification methods for large language models with lm-polygraph*. Transactions of the Association for Computational Linguistics, 13, 220-248.
- Wang, S., Yu, L., Gao, C., Zheng, C., Liu, S., Lu, R., ... & Zhang, Z. (2025a). *Beyond the 80/20 rule: high-entropy minority tokens drive effective reinforcement learning for llm reasoning*. arXiv preprint arXiv:2506.01939.
- Wang, X., Zhang, Z., Chen, G., Li, Q., Luo, B., Han, Z., ... & Hu, M. (2025b). *Ubench: Benchmarking uncertainty in large language models with multiple choice questions*. In Findings of the Association for Computational Linguistics: ACL 2025, pp. 8076-8107.
- Wang, Z., Wang, J., Pan, J., Xia, X., Zhen, H., Yuan, M., ... & Wu, F. (2025c). *Accelerating large language model reasoning via speculative search*. arXiv preprint arXiv:2505.02865.
- Wang, Z., Duan, J., Cheng, L., Zhang, Y., Wang, Q., Shi, X., ... & Zhu, X. (2024). *Conu: conformal uncertainty in large language models with correctness coverage guarantees*. In Findings of the Association for Computational Linguistics: EMNLP 2024, pp. 6886-6898.
- Weng, L. (2024). *Reward hacking in reinforcement learning*. lilianweng.github.io.
- Wilczyński, P., Mieleszczenko-Kowszewicz, W., & Biecek, P. (2024). *Resistance against manipulative ai: key factors and possible actions*. In ECAI 2024, pp. 802-809.
- Xia, H., Leong, C. T., Wang, W., Li, Y., & Li, W. (2025a). *Tokenskip: controllable chain-of-thought compression in llms*. arXiv preprint arXiv:2502.12067.
- Xia, Z., Xu, J., Zhang, Y., & Liu, H. (2025b). *A survey of uncertainty estimation methods on large language models*. arXiv preprint arXiv:2503.00172.
- Xiong, M., Hu, Z., Lu, X., Li, Y., Fu, J., He, J., & Hooi, B. (2024). *Can llms express their uncertainty? an empirical evaluation of confidence elicitation in llms*. In The Twelfth International Conference on Learning Representations.
- Xue, B., Mi, F., Zhu, Q., Wang, H., Wang, R., Wang, S., ... & Wong, K. (2025). *Ualign: leveraging uncertainty estimations for factuality alignment on large language models*. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 6002-6024.
- Yan, H., Xu, F., Xu, R., Li, Y., Zhang, J., Luo, H., ... & Lin, Q. (2025a). *Mur: momentum uncertainty guided reasoning for large language models*. arXiv preprint arXiv:2507.14958.
- Yan, H., Zhang, L., Li, J., Shen, Z., & He, Y. (2025b). *Position: llms need a bayesian meta-reasoning framework for more robust and generalizable reasoning*. In 2025 International Conference on Machine Learning: ICML25.
- Yang, A. X., Robeyns, M., Coste, T., Shi, Z., Wang, J., Bou-Ammar, H., & Aitchison, L. (2024). *Bayesian reward models for llm alignment*. arXiv preprint arXiv:2402.13210.
- Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K. R., & Cao, Y. (2022). *React: synergizing reasoning and acting in language models*. In The eleventh international conference on learning representations.
- Ye, F., Yang, M., Pang, J., Wang, L., Wong, D., Yilmaz, E., ... & Tu, Z. (2024). *Benchmarking llms via uncertainty quantification*. Advances in Neural Information Processing Systems, 37, 15356-15385.
- Yin, Z., Sun, Q., Guo, Q., Wu, J., Qiu, X., & Huang, X. (2023). *Do large language models know what they don’t know?*. In Findings of the Association for Computational Linguistics: ACL 2023, pp. 8653-8665.
- Yin, Z., Sun, Q., Guo, Q., Zeng, Z., Li, X., Dai, J., ... & Qiu, X. (2024). *Reasoning in flux: enhancing large language models reasoning through uncertainty-aware adaptive guidance*. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 2401-2416.
- Zhang, J. (2021). *Modern monte carlo methods for efficient uncertainty quantification and propagation: a survey*. Wiley Interdisciplinary Reviews: Computational Statistics, 13(5), e1539.
- Zhang, J., Cui, W., Li, Z., Huang, L., Malin, B., Xiong, C., & Wu, C. S. (2026). *From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models*. arXiv preprint arXiv:2601.15690.
- Zhang, Q., Wu, H., Zhang, C., Zhao, P., & Bian, Y. (2025). *Right question is already half the answer: fully unsupervised llm reasoning incentivization*. arXiv preprint arXiv:2504.05812.
- Zhao, Q., Zhao, X., Liu, Y., Cheng, W., Sun, Y., Oishi, M., ... & Chen, H. (2024). *SAUP: situation awareness uncertainty propagation on llm agent*. arXiv preprint arXiv:2412.01033.
- Zhao, X., Kang, Z., Feng, A., Levine, S., & Song, D. (2025a). *Learning to reason without external rewards*. arXiv preprint arXiv:2505.19590.
- Zhao, X., Xu, T., Wang, X., Chen, Z., Jin, D., Tan, L., ... & Wang, S. (2025b). *Boosting llm reasoning via spontaneous self-correction*. arXiv preprint arXiv:2506.06923.
- Zhong, H., Yin, Y., Zhang, S., Xu, X., Liu, Y., Zuo, Y., ... & Guo, H. (2025). *Brite: bootstrapping reinforced thinking process to enhance language model reasoning*. arXiv preprint arXiv:2501.18858.