Test-Time Learning: Neue Ansätze zur Anpassung von KI-Modellen während der Inferenzphase

Kategorien:

No items found.

Freigegeben:

January 23, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das Konzept des "Test-Time Learning" (TTL) ermöglicht KI-Modellen, sich während der Inferenzphase an spezifische Probleme anzupassen und daraus zu lernen, anstatt statisch zu bleiben.
"TTT-Discover" nutzt Reinforcement Learning zur Testzeit, um Large Language Models (LLMs) auf einzelne Probleme zu trainieren und so neue Spitzenleistungen in verschiedenen Domänen zu erzielen.
Ein weiteres Modell, "Dynamic Cheatsheet" (DC), stattet Black-Box-LLMs mit einem persistenten, sich entwickelnden Gedächtnis aus, um Wissen aus früheren Interaktionen wiederzuverwenden.
TTL-Methoden wie "MTTT-Linear" und "MTTT-MLP" zeigen, dass neuronale Netze auch in der Inferenzphase effektives Lernen ermöglichen können, oft mit besserer Leistung als herkömmliche Ansätze.
Die Forschung deutet darauf hin, dass die Skalierung der Rechenleistung zur Testzeit eine vielversprechende Alternative zur reinen Vergrößerung von Modellen während des Trainings darstellt.
Die Effektivität von TTL hängt stark von der generativen Kompetenz des Basismodells und der Qualität der Gedächtnisverwaltung ab.

Die kontinuierliche Weiterentwicklung künstlicher Intelligenz (KI) ist ein zentraler Treiber für Innovationen in der Wirtschaft. Insbesondere im Bereich der Large Language Models (LLMs) und komplexer Problemlösungsansätze zeichnet sich ein Paradigmenwechsel ab: weg von statischen, nach dem Training eingefrorenen Modellen hin zu Systemen, die in der Lage sind, während der Inferenzphase zu lernen und sich anzupassen. Dieses Konzept, bekannt als "Test-Time Learning" (TTL) oder "Learning to Discover at Test Time", verspricht, die Leistungsfähigkeit von KI-Anwendungen in realen Szenarien erheblich zu steigern.

Die Evolution des Lernens: Von Pre-Training zu Test-Time Adaptation

Traditionell durchlaufen LLMs drei Hauptphasen: ein umfangreiches Pre-Training, gefolgt von einer Verfeinerung mittels Reinforcement Learning und schließlich die Inferenzphase, in der Nutzer mit dem Modell interagieren. Während das Pre-Training ein breites Sprachverständnis und Faktenwissen vermittelt, formt das Reinforcement Learning das Verhalten des Modells. Die Inferenzphase war bisher der Punkt, an dem das Gelernte angewendet wurde, ohne dass das Modell explizit neue Erfahrungen verarbeitete oder aus Fehlern lernte. Die vorherrschende Meinung, dass größere Modelle mit mehr Trainingsdaten automatisch zu besserer Leistung führen, stößt jedoch zunehmend an finanzielle und hardwarebezogene Grenzen. Hier setzen die neuen Ansätze des Test-Time Learnings an.

TTT-Discover: Reinforcement Learning zur Testzeit für wissenschaftliche Entdeckungen

Ein vielversprechender Ansatz in diesem Bereich ist TTT-Discover, entwickelt von Forschern an Institutionen wie Stanford und NVIDIA. Dieses Modell führt Reinforcement Learning (RL) direkt zur Testzeit durch, wodurch LLMs in die Lage versetzt werden, an spezifischen Problemen weiter zu trainieren. Im Gegensatz zu früheren Methoden, die ein eingefrorenes LLM lediglich zur Suche nach Lösungen auffordern, ermöglicht TTT-Discover dem Modell, aus seiner eigenen Erfahrung während des Problemlösungsprozesses zu lernen.

Anwendungsbereiche und Ergebnisse

TTT-Discover hat in verschiedenen anspruchsvollen Domänen neue Spitzenleistungen erzielt:

Mathematik: Das Modell übertraf menschliche und frühere KI-Ergebnisse bei klassischen offenen Problemen in Kombinatorik und Analysis, wie dem Erdős-Minimum-Overlap-Problem.
Kernel Engineering: Bei der Optimierung von GPU-Kerneln, beispielsweise für die Dreiecksmatrixmultiplikation, erreichte TTT-Discover signifikant schnellere Ausführungszeiten als bisherige Bestleistungen.
Algorithmen Engineering: In heuristischen Wettbewerben wie AtCoder erzielte das System ebenfalls Verbesserungen gegenüber früheren KI-Ansätzen und menschlichen Leistungen.
Biologie: Beim Denoising von Einzelzell-RNA-Sequenzierungsdaten auf dem OpenProblems-Benchmark zeigte TTT-Discover eine höhere Genauigkeit.

Diese Erfolge wurden mit einem offenen Modell (OpenAI gpt-oss-120b) und zu vergleichsweise geringen Rechenkosten erzielt, was die Reproduzierbarkeit und Zugänglichkeit der Methode unterstreicht.

Dynamic Cheatsheet (DC): Adaptives Gedächtnis für Black-Box-LLMs

Ein weiterer innovativer Ansatz ist das Dynamic Cheatsheet (DC), das von Forschern der Stanford University und Together AI vorgestellt wurde. DC ist ein leichtgewichtiges Framework, das Black-Box-LLMs mit einem persistenten, sich entwickelnden Gedächtnis ausstattet. Anstatt bei jeder Anfrage von Neuem zu beginnen und dieselben Fehler zu wiederholen, können Modelle mit DC akkumulierte Strategien, Code-Snippets und allgemeine Problemlösungserkenntnisse während der Inferenzzeit speichern und wiederverwenden.

Funktionsweise und Vorteile von DC

Das DC-Framework besteht aus zwei Kernmodulen: der Generierung und der Kuration. Das Modell konsultiert vor der Beantwortung einer neuen Anfrage sein externes Gedächtnis, um relevante Erkenntnisse abzurufen. Nach der Generierung einer Lösung bewertet ein Kurator (oft dasselbe LLM mit spezifischen Anweisungen) die Nützlichkeit und Verallgemeinerbarkeit der Antwort. Korrekte oder nützliche Ansätze werden in das Gedächtnis aufgenommen oder verfeinert, fehlerhafte Heuristiken überarbeitet oder entfernt. Dies geschieht ohne gradientenbasierte Parameter-Updates, wodurch der Rechenaufwand gering bleibt und die Kompatibilität mit Black-Box-APIs gewahrt wird.

DC-Varianten:

DC-Cu (Cumulative): Sammelt iterativ Modellsolutionen an, ohne eine Retrieval-Komponente.
DC-RS (Retrieval & Synthesis): Kombiniert Retrieval mit Gedächtnisverfeinerung, indem es die relevantesten früheren Eingabe-Ausgabe-Paare abruft und das Gedächtnis entsprechend aktualisiert.

Beeindruckende Leistungssteigerungen

Die Ergebnisse von DC sind signifikant:

Bei AIME-Mathematikprüfungen verdoppelte sich die Genauigkeit von Claude 3.5 Sonnet, nachdem es algebraische Einblicke über Fragen hinweg behielt.
Im Spiel "Game of 24" stieg die Erfolgsquote von GPT-4o von etwa 10% auf 99%, nachdem das Modell eine Python-basierte Lösung entdeckte und wiederverwendete.
Bei Aufgaben, die anfällig für arithmetische Fehler sind, wie dem Ausgleichen von Gleichungen, erreichten GPT-4o und Claude nahezu perfekte Genauigkeit, indem sie zuvor validierten Code abriefen.
Auch bei wissensintensiven Aufgaben wie GPQA-Diamond und MMLU-Pro Engineering and Physics wurden deutliche Genauigkeitsverbesserungen erzielt.

Ein entscheidender Aspekt von DC ist die Selbstkuration des Gedächtnisses, das sich auf prägnante, übertragbare Snippets konzentriert und nicht auf vollständige Transkripte. Dies verhindert ein "Aufblähen des Kontexts" und erleichtert das Meta-Lernen.

"Learning to (Learn at Test Time)": RNNs und neuronale Netze

Die Forschung erweitert das Konzept des Test-Time Learnings auch auf die Struktur von Modellen selbst. Ein Ansatz mit dem Titel "Learning to (Learn at Test Time): RNNs with Expressive Hidden States" untersucht, wie rekurrenten neuronalen Netzen (RNNs) eine lineare Komplexität bei gleichzeitig ausdrucksstarken Hidden States verliehen werden kann. Die zentrale Idee ist hierbei, den Hidden State selbst zu einem Machine Learning Modell zu machen und die Update-Regel zu einem Schritt des selbstüberwachten Lernens. Diese Schichten werden als Test-Time Training (TTT) Schichten bezeichnet.

MTTT-Linear und MTTT-MLP

Es wurden zwei Instanziierungen evaluiert:

MTTT-Linear: Der Hidden State ist ein lineares Modell.
MTTT-MLP: Der Hidden State ist ein Multi-Layer Perceptron (MLP).

Diese Modelle wurden im Bereich von 125 Millionen bis 1,3 Milliarden Parametern getestet und mit leistungsstarken Transformatoren und Mamba-Modellen verglichen. Die Ergebnisse zeigen, dass TTT-Linear und TTT-MLP die Perplexität kontinuierlich reduzieren können, indem sie mehr Token berücksichtigen, ähnlich wie Transformatoren. Dies deutet auf ein großes Potenzial für längere Kontexte hin, obwohl MTTT-MLP noch Herausforderungen bei der Speicher-E/A aufweist. Dies unterstreicht die Idee, dass die Integration von Lernmechanismen in die Testzeitarchitektur selbst neue Wege für die Skalierung der Leistung eröffnet.

Implikationen für B2B-Anwendungen und zukünftige Entwicklungen

Die Erkenntnisse aus dem Test-Time Learning haben weitreichende Implikationen für B2B-Anwendungen, insbesondere für Unternehmen, die auf präzise und anpassungsfähige KI-Lösungen angewiesen sind:

Ressourceneffizienz: Anstatt immer größere Modelle zu entwickeln, die immense Trainingskosten verursachen, ermöglichen TTL-Methoden, bestehende oder kleinere Modelle effizienter zu nutzen, indem sie zur Testzeit "länger nachdenken". Dies kann zu erheblichen Kosteneinsparungen bei gleichzeitig verbesserter Leistung führen.
Spezialisierung und Anpassung: Die Fähigkeit von LLMs, sich an spezifische, auch unbekannte Domänen anzupassen und aus einzelnen Instanzen zu lernen, ist entscheidend für maßgeschneiderte Geschäftslösungen. Unternehmen können so ihre KI-Modelle ohne umfangreiches Re-Training auf neue Daten oder Aufgaben abstimmen.
Fehlerreduzierung und Konsistenz: Durch die Speicherung und Wiederverwendung bewährter Strategien und die Korrektur von Fehlern während der Inferenzphase können KI-Systeme konsistentere und zuverlässigere Ergebnisse liefern. Dies ist von hohem Wert in Bereichen wie der Datenanalyse, der Finanzmodellierung oder der Qualitätssicherung.
Wissensmanagement: Ansätze wie das Dynamic Cheatsheet bieten eine strukturierte Methode zur Verwaltung und Nutzung von Wissen, das während des Betriebs eines KI-Systems generiert wird. Dies kann die Entwicklung von "lernenden Organisationen" unterstützen, in denen KI-Systeme kontinuierlich ihr kollektives Wissen erweitern.
Neue Entdeckungsmechanismen: Insbesondere TTT-Discover zeigt das Potenzial von KI, nicht nur bestehendes Wissen anzuwenden, sondern aktiv neue Lösungen und Erkenntnisse in komplexen, wissenschaftlichen und technischen Problemen zu entdecken.

Es ist jedoch wichtig zu beachten, dass die Effektivität von TTL stark von der generativen Kompetenz des Basismodells abhängt. Kleinere Modelle können Schwierigkeiten haben, hochwertige Strategien zu entwickeln oder gespeichertes Wissen effektiv anzuwenden. Zudem erfordert die Gedächtnisverwaltung eine sorgfältige Kuration, um die Verbreitung fehlerhafter Heuristiken zu vermeiden.

Die Forschung in diesem Bereich steht noch am Anfang, doch die gezeigten Ergebnisse sind vielversprechend. Die Integration von Test-Time Learning in KI-Systeme könnte einen entscheidenden Schritt in Richtung intelligenterer, anpassungsfähigerer und wirtschaftlicherer KI-Lösungen für den B2B-Sektor darstellen.

Bibliography

- Yuksekgonul, Mert, et al. "Learning to Discover at Test Time." arXiv preprint arXiv:2601.09631 (2026). - Sun, Yu, et al. "Learning to (Learn at Test Time): RNNs with Expressive Hidden States." arXiv preprint arXiv:2407.04620 (2024). - Suzgun, Mirac, et al. "Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory." arXiv preprint arXiv:2504.07952 (2025). - Manghani, Sunil. "Train Less, Think More: Advancing LLMs Through Test-Time Compute." Electronic Life, Medium, 21 Dec. 2024. - Hu, Jinwu, et al. "Test-Time Learning for Large Language Models." arXiv preprint arXiv:2505.20633 (2025). - Li, Hengli, et al. "Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space." arXiv preprint arXiv:2505.13308 (2025).