Datenzentrierte KI im Finanzwesen: Ansätze zur Verbesserung von Sprachmodellen durch Destillation und gezieltes Training

Kategorien:

No items found.

Freigegeben:

March 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Leistungsfähigkeit von Sprachmodellen im Finanzbereich wird maßgeblich durch die Qualität und den Schwierigkeitsgrad der Nachschulungsdaten bestimmt.
Ein mehrstufiger Destillations- und Verifizierungsprozess ermöglicht die Generierung hochwertiger Chain-of-Thought (CoT)-Daten.
Ein schwierigkeits- und überprüfbarkeitsbasiertes Sampling verbessert die Generalisierungsfähigkeit von Reinforcement Learning (RL)-Modellen.
Das Modell ODA-Fin-RL-8B übertrifft vergleichbare Open-Source-Finanz-LLMs in neun Benchmarks.
Die Veröffentlichung der Datensätze ODA-Fin-SFT-318k und ODA-Fin-RL-12k fördert die datenzentrierte KI-Forschung im Finanzwesen.

Wertschöpfung aus Daten im Finanzwesen: Eine Analyse von Destillation und schwierigkeitsbewusstem Training

Die Integration von Künstlicher Intelligenz (KI) in den Finanzsektor verspricht erhebliche Effizienzsteigerungen und neue Analysemöglichkeiten. Insbesondere große Sprachmodelle (Large Language Models, LLMs) zeigen vielversprechende allgemeine Fähigkeiten. Ihre Anwendung im spezifischen und anspruchsvollen Finanzbereich ist jedoch mit Herausforderungen verbunden, die sich aus der dichten domänenspezifischen Terminologie, den strengen Anforderungen an numerisches Schlussfolgern und einer geringen Fehlertoleranz ergeben. Eine aktuelle empirische Studie beleuchtet, wie die Qualität und das Profil der Nachschulungsdaten die Leistung von LLMs in spezialisierten vertikalen Domänen, wie dem Finanzwesen, entscheidend beeinflussen.

Die Bedeutung datenzentrierter KI im Finanzwesen

Traditionell lag der Fokus bei der Domänenadaption von KI-Modellen auf modellzentrierten Ansätzen, die architektonische Anpassungen oder die Skalierung von Parametern in den Vordergrund stellten. Aktuelle Trends deuten jedoch auf einen Paradigmenwechsel hin zu „datenzentrierter KI“, bei der die Datenqualität der Modellkomplexität überlegen ist. Im Finanzwesen, wo Entscheidungen oft weitreichende Konsequenzen haben, ist die Präzision der Daten und die Verlässlichkeit der Modelloutputs von größter Bedeutung. Fehler in diesem Bereich können erhebliche wirtschaftliche Auswirkungen haben.

Die Studie, die von Forschenden der Shanghai Artificial Intelligence Laboratory und der Hong Kong University of Science and Technology durchgeführt wurde, untersucht diese datenzentrierte Perspektive. Sie postuliert eine zweistufige Datenhierarchie:

Während des Supervised Fine-Tuning (SFT) legen Datenreinheit und hochwertige Argumentationsketten (Chain-of-Thought, CoT) eine robuste Grundlage für die Befolgung von Anweisungen und domänenspezifisches Wissen.
Beim Reinforcement Learning (RL) ist die Auswahl von schwierigen, aber überprüfbaren Beispielen entscheidend, um das Modell über das SFT-Plateau hinaus zu entwickeln und systematische Verbesserungen bei komplexen Finanzaufgaben zu ermöglichen.

Methodik zur Datenaufbereitung und Modellschulung

Zur Validierung dieser Prämisse wurden zwei komplementäre Datensätze entwickelt: ODA-Fin-SFT-318k und ODA-Fin-RL-12k.

ODA-Fin-SFT-318k: Hochwertige CoT-Destillation

Dieser Datensatz wurde durch eine mehrstufige Destillation und Verifizierung erstellt, um qualitativ hochwertige Chain-of-Thought (CoT)-Supervision in großem Umfang zu erzeugen. Der Prozess umfasst:

Semantische Deduplizierung: Mithilfe eines Embedding-basierten Verfahrens werden redundante Daten eliminiert, um die Diversität des Trainingssatzes zu gewährleisten.
Argumentationssynthese: Für Fragen ohne explizite Argumentationsschritte wird ein großes Sprachmodell (Qwen3-235B-A22B-Thinking) eingesetzt, um schrittweise CoT-Ketten zu generieren.
Längenadaptive Verifizierung: Um Halluzinationen zu vermeiden, werden die generierten CoT-Daten rigoros überprüft. Für kurze Antworten wird ein spezialisierter Verifizierer (CompassVerifier-7B) verwendet, während für komplexe Anfragen ein größeres Modell (Qwen3-235B-A22B-Instruct) die logische Kohärenz und faktische Richtigkeit bewertet.
Token-Längenfilterung: Datenproben, die eine bestimmte Token-Länge überschreiten, werden herausgefiltert, um die Kompatibilität mit der Trainingsinfrastruktur zu gewährleisten.

Der resultierende Datensatz ODA-Fin-SFT-318k besteht aus 318.000 Samples, die aus über 25 Open-Source-Repositorys stammen und eine breite Abdeckung von Finanzaufgaben, Stimmungsanalysen und numerischem Schlussfolgern bieten.

ODA-Fin-RL-12k: Schwierigkeitsbewusstes Sampling für Reinforcement Learning

Für das RL-Training wurde ein Subset von 12.000 Samples, ODA-Fin-RL-12k, kuratiert. Die Auswahl erfolgte nicht nur nach Schwierigkeitsgrad, sondern auch nach Überprüfbarkeit durch einen effizienten Online-Verifizierer. Samples mit einer Fehlerrate von über 50 % bei der Bewertung durch das SFT-Modell werden bevorzugt, um anspruchsvolle Beispiele für das RL-Training zu priorisieren. Zudem wird die maximale Token-Länge der finalen Antwort auf 16 beschränkt, um eine zuverlässige Online-Verifizierung zu ermöglichen.

Modelltraining und Belohnungsmechanismen

Das Training erfolgte in zwei Phasen:

Supervised Fine-Tuning (SFT): Das Modell wird auf dem kuratierten ODA-Fin-SFT-318k Datensatz feinabgestimmt, um grundlegende Argumentationsfähigkeiten zu etablieren. Dies beinhaltet die Nutzung von CoT-Spuren, die explizite Zwischenschritte für numerische Berechnungen und mehrstufige logische Inferenzen liefern.
Reinforcement Learning (RL): Zur weiteren Leistungssteigerung wird RL eingesetzt. Hierbei kommt ein leichterer Verifizierer (CompassVerifier-7B) zum Einsatz, um effiziente und verzögerungsarme Belohnungssignale zu generieren.

Der Belohnungsmechanismus im RL ist mehrstufig aufgebaut:

Format-Belohnung: Bewertet die strukturelle Integrität der generierten Antwort, insbesondere die korrekte Verwendung von Tags zur Kennzeichnung von Argumentationsprozessen.
Korrektheits-Belohnung: Bewertet die semantische Richtigkeit der extrahierten Antwort im Vergleich zur Ground Truth.
Gesamt-Belohnung: Eine multiplikative Kombination aus Format- und Korrektheits-Belohnung stellt sicher, dass das Modell nur bei Erfüllung beider Kriterien die maximale Belohnung erhält.

Experimentelle Ergebnisse und Leistungsbewertung

Die Modelle wurden auf neun Benchmarks bewertet, die allgemeine Finanzaufgaben, Stimmungsanalysen und numerisches Schlussfolgern umfassen. Das Modell ODA-Fin-RL-8B, das auf einem Qwen3-8B-Basismodell basiert, übertraf durchweg den aktuellen Stand der Technik (SOTA) bei Open-Source-Finanz-LLMs vergleichbarer Größe. Es erreichte eine durchschnittliche Leistung von 74,6 % über alle Benchmarks hinweg, was nahezu der Leistung des wesentlich größeren Qwen3-32B (74,7 %) entspricht.

Ablationsstudien

Umfassende Ablationsstudien unterstrichen die Bedeutung der Datenqualität und der Trainingsstrategien:

SFT-Datenzusammensetzung: Das Training mit rohen, nur deduplizierten Daten führte bei leistungsfähigeren Basismodellen zu einer katastrophalen Verschlechterung der Leistung. Eine vollständige Ersetzung durch hochwertige, verifizierte CoT-Daten erwies sich als die optimale Datenstrategie.
RL-Daten und Belohnungsdesign: Die Auswahl eines starken SFT-Modells als Ausgangspunkt für RL führte zu einer überlegenen Leistung. Modellbasierte Verifizierung mit einer Beschränkung der Antwortlänge auf 16 Token erzielte die besten Ergebnisse, da dies ein optimales Gleichgewicht zwischen Präzision der Belohnung und Aufgabenvielfalt herstellte.

Schlussfolgerungen und Ausblick

Die Studie bestätigt die entscheidende Rolle des Data Engineering bei der Entwicklung von Finanz-LLMs. Die Datenqualität, der Schwierigkeitsgrad und die Überprüfbarkeit der Daten sind die primären Faktoren, die die Modellleistung in vertikalen Domänen bestimmen, und nicht allein das Datenvolumen oder die algorithmische Neuheit. Die vorgestellten Datensätze ODA-Fin-SFT-318k und ODA-Fin-RL-12k sowie die trainierten Modelle werden der Forschungsgemeinschaft zur Verfügung gestellt, um den Wandel von modellzentrierter zu datenzentrierter KI in der Finanzintelligenz voranzutreiben.

Diese Erkenntnisse sind für Unternehmen im B2B-Bereich, die KI-Lösungen im Finanzsektor implementieren möchten, von großer Relevanz. Sie zeigen, dass Investitionen in hochwertige Datenaufbereitung und spezialisierte Trainingsstrategien zu überlegenen und verlässlicheren KI-Modellen führen können, selbst im Vergleich zu deutlich größeren, aber weniger domänenspezifisch trainierten Modellen. Dies ermöglicht eine effizientere und präzisere Nutzung von KI, um datengestützte Entscheidungen im anspruchsvollen Finanzumfeld zu treffen.

Bibliographie

- Cao, Chuxue, et al. "Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training." arXiv preprint arXiv:2603.07223 (2026). - Fang, Luyang, et al. "Knowledge distillation and dataset distillation of large language models: emerging trends, challenges, and future directions." Artificial Intelligence Review 59.1 (2026): 1-17. - Fang, Ruonan, et al. "Progressive Knowledge Distillation and Numerical Reasoning Enhancement for Financial Report Question Answering." Preprints.org (2025). - Moser, Brian B., et al. "Distill the Best, Ignore the Rest: Improving Dataset Distillation with Loss-Value-Based Pruning." arXiv preprint arXiv:2411.12115 (2024). - Qian, Lingfei, et al. "Fin-o1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance." arXiv preprint arXiv:2502.08127 (2025). - Sattarov, Timur, Marco Schreyer, and Damian Borth. "FinDiff: Diffusion Models for Financial Tabular Data Generation." arXiv preprint arXiv:2309.01472 (2023). - Thomas, Graison Jos. "Enhancing TinyBERT for Financial Sentiment Analysis Using GPT-Augmented FinBERT Distillation." arXiv preprint arXiv:2409.18999 (2024). - Xu, Yue, et al. "Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation." European Conference on Computer Vision. Springer Nature Switzerland, 2024. - Goncharov, Andrey, et al. "Complexity-aware fine-tuning." arXiv preprint arXiv:2506.21220 (2025).