Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der Welt der Künstlichen Intelligenz, insbesondere bei großen Sprachmodellen (Large Language Models, LLMs), ist die Fähigkeit, faktisch korrekte Informationen zu liefern, von entscheidender Bedeutung. Aktuelle Forschungsergebnisse beleuchten einen oft übersehenen Aspekt dieser Herausforderung: den sogenannten "Recall". Dieser Begriff beschreibt die Fähigkeit eines Modells, bereits gespeicherte Informationen bei Bedarf abzurufen und korrekt zu verwenden. Eine neue Studie, die im Rahmen des Papers "Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality" vorgestellt wurde, zeigt auf, dass der Recall und nicht primär das Fehlen von Wissen der Hauptengpass für die Faktizität von LLMs ist. Dies hat erhebliche Implikationen für die Entwicklung und den Einsatz von KI-Systemen in B2B-Anwendungen.
Traditionelle Bewertungen der Faktizität von LLMs behandeln alle Fehler gleich, ohne die zugrundeliegende Ursache zu differenzieren. Die Autoren der Studie schlagen eine Unterscheidung vor, die das Problem präziser beschreibt: Entstehen Fehler, weil das Modell das Wissen gar nicht erst gespeichert hat ("leere Regale"), oder weil es Schwierigkeiten hat, auf bereits kodierte Fakten zuzugreifen ("verlorene Schlüssel")? Diese Metapher verdeutlicht einen fundamentalen Unterschied in der Fehleranalyse von LLMs.
Die Studie, die 4 Millionen Antworten von 13 verschiedenen LLMs analysierte, darunter Modelle wie GPT-5 und Gemini-3, kommt zu einem bemerkenswerten Ergebnis: Die Kodierung von Fakten ist in den führenden Modellen nahezu gesättigt. Das bedeutet, dass diese Modelle zwischen 95% und 98% der Fakten in ihren Parametern speichern können. Der eigentliche Engpass liegt demnach nicht im Mangel an gespeichertem Wissen, sondern in der mangelnden Zugänglichkeit dieses Wissens.
Die Forschung zeigt, dass die Fehler beim Abruf von Informationen systematisch sind. Insbesondere "Long-Tail-Fakten" – also weniger populäre oder spezifische Informationen – und "Reverse Questions" (Fragen, die eine umgekehrte Beziehung abfragen als die ursprünglich gelernte) sind überproportional betroffen. Dies deutet darauf hin, dass die Art und Weise, wie Informationen gespeichert und verknüpft werden, einen erheblichen Einfluss auf die Abrufbarkeit hat.
Die Popularität von Entitäten spielt eine signifikante Rolle für die Merkfähigkeit von LLMs. Es wurde festgestellt, dass eine positive Korrelation zwischen der Popularität einer Entität und der Genauigkeit der Modellantwort besteht. Das bedeutet, dass häufig diskutierte oder prominentere Fakten besser abgerufen werden können als seltene oder spezifische Informationen. Dieser Effekt ist bei größeren LLMs stärker ausgeprägt.
Ein weiterer wichtiger Befund der Studie ist, dass die bloße Skalierung von Modellen – also die Erhöhung der Modellgröße und der Trainingsdaten – nur begrenzte Verbesserungen beim Abruf von Long-Tail-Wissen erzielt. Während größere Modelle bei häufigen Fakten besser abschneiden, bleibt die Leistung bei weniger populären Informationen relativ konstant. Dies legt nahe, dass zukünftige Fortschritte weniger auf der reinen Skalierung basieren sollten, sondern vielmehr auf Methoden, die den Abruf und die Nutzung des bereits kodierten Wissens verbessern.
Ein vielversprechender Ansatz ist die Integration von "Thinking"-Mechanismen, also Inferenz-Zeit-Berechnungen, die den Modellen helfen, ihre internen Wissensrepräsentationen effektiver zu nutzen. Die Studie demonstriert, dass solche Mechanismen den Recall erheblich verbessern und einen Großteil der Abruffehler beheben können.
Um die Vorteile des parametrischen Wissens (im Modell gespeichert) und der nicht-parametrischen Erinnerung (externe Informationsquellen) optimal zu nutzen, wurde eine adaptive Abrufstrategie vorgeschlagen. Diese Methode entscheidet basierend auf der Eingabeanfrage und der Popularität der Fakten, wann externe Quellen zurate gezogen werden sollen. Für populäre Fakten, die das Modell bereits gut kodiert hat, wird auf den externen Abruf verzichtet, um Effizienz zu gewährleisten. Bei weniger populären oder als kritisch eingestuften Fakten wird hingegen ein Abrufmechanismus aktiviert.
Diese adaptive Strategie führt nicht nur zu einer robusteren Leistung, sondern kann auch die Inferenzkosten und Latenzzeiten signifikant reduzieren. Insbesondere bei größeren LLMs, bei denen das Anhängen von abgerufenen Kontexten die Latenz verdoppeln kann, bietet der adaptive Abruf erhebliche Vorteile.
Für Unternehmen, die LLMs in ihren Prozessen einsetzen, sind diese Erkenntnisse von großer Relevanz:
Die Studie unterstreicht, dass das Verständnis der internen Mechanismen von LLMs – insbesondere des Zusammenspiels von Wissenskodierung und Abruf – der Schlüssel zur Überwindung aktueller Faktizitätsprobleme ist. Für Anbieter wie Mindverse, die auf die Bereitstellung von KI-Lösungen für Unternehmen spezialisiert sind, bedeutet dies, den Fokus auf intelligente Abrufstrategien zu legen, um die Leistungsfähigkeit und Verlässlichkeit ihrer Produkte kontinuierlich zu verbessern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen