Effiziente multimodale Modelle: Apriel-1.5-15B-Thinker und seine innovative Trainingsmethodik

Kategorien:

No items found.

Freigegeben:

April 3, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Apriel-1.5-15B-Thinker ist ein multimodales Modell mit 15 Milliarden Parametern, das durch optimiertes Trainingsdesign anstelle schieren Umfangs eine hohe Leistungsfähigkeit bei Schlussfolgerungen erreicht.
Das Modell verwendet einen dreistufigen Ansatz: Tiefenskalierung, gestuftes kontinuierliches Vortraining mit synthetischen Daten und hochwertiges Supervised Fine-Tuning (SFT).
Es erzielt vergleichbare Ergebnisse wie deutlich größere Modelle (z.B. DeepSeek-R1-0528, Gemini-2.5-Flash und Claude Sonnet-3.7) bei erheblich geringerem Rechenaufwand.
Ein zentraler Aspekt ist die Effizienz und Zugänglichkeit, da das Modell auf einer einzigen High-End-GPU eingesetzt werden kann, was es für Unternehmen mit begrenzter Infrastruktur attraktiv macht.
Die Forschung unterstreicht, dass sorgfältiges "Mid-Training" und datenzentrierte Ansätze erhebliche Leistungsunterschiede ohne massive Skalierung überbrücken können.

Die Entwicklung großer Sprachmodelle (LLMs) schreitet rasant voran, insbesondere in den Bereichen allgemeine Fähigkeiten, Langkontext-Schlussfolgerungen und multimodales Verständnis. Während proprietäre Systeme wie Gemini und Claude die Leistungsgrenzen verschieben, zeigen Open-Weight-Modelle wie Apriel-1.5-15B-Thinker, dass fortschrittliche multimodale Schlussfolgerungsfähigkeiten auch mit weniger Rechenressourcen erreicht werden können.

Einleitung: Effiziente multimodale Schlussfolgerungen durch innovatives Trainingsdesign

Die aktuelle Landschaft der Künstlichen Intelligenz ist geprägt von einer ständigen Suche nach leistungsfähigeren und zugänglicheren Modellen. Insbesondere multimodale Modelle, die sowohl Text- als auch Bildinformationen verarbeiten können, stehen im Fokus des Interesses. Das Apriel-1.5-15B-Thinker-Modell, ein Open-Weight-Modell mit 15 Milliarden Parametern, demonstriert einen Ansatz, der Spitzenleistungen durch intelligentes Trainingsdesign anstelle schierer Größe erzielt. Es zielt darauf ab, die Kluft zwischen den Fähigkeiten hochmoderner Modelle und den praktischen Anforderungen an Recheneffizienz und Bereitstellungskosten zu überbrücken.

Die Herausforderung besteht darin, Modelle zu entwickeln, die komplexe Schlussfolgerungen durchführen können, ohne exzessive Hardware-Ressourcen zu benötigen. Viele Organisationen sind auf On-Premise- oder Air-Gapped-Bereitstellungen angewiesen, die kompakte Modelle mit vorhersehbarem Ressourcenverbrauch erfordern. Apriel-1.5-15B-Thinker begegnet diesen Herausforderungen mit einer dreistufigen Methodik, die die Datenqualität und eine gestufte Präsentation der Trainingsdaten in den Vordergrund stellt.

Architektur und Modellskalierung: Fundament für fortschrittliche multimodale Fähigkeiten

Grundlagen der Architektur

Apriel-1.5-15B-Thinker baut auf der Pixtral-12B-Architektur auf, die einen Vision-Encoder mit einem multimodalen Decoder über ein zweischichtiges vollständig verbundenes Projektionsnetzwerk verbindet. Diese Architektur ermöglicht eine effiziente Verarbeitung von visuellen und textuellen Informationen.

Tiefenskalierung zur Kapazitätserweiterung

Ein entscheidender Schritt im Trainingsprozess ist die Tiefenskalierung. Dabei wird der Decoder von 40 auf 48 Schichten erweitert, um die Schlussfolgerungskapazität zu erhöhen, ohne das Modell von Grund auf neu vortrainieren zu müssen. Diese Skalierung wird auf einem umfangreichen Korpus von Text-Tokens durchgeführt, der hochwertige Web-Inhalte, technische Literatur, mathematische Problemstellungen, Programmiercode und Diskussionen von Plattformen wie StackExchange umfasst. Ein Teil dieser Daten dient als "Replay Data", um die Stabilität des Trainings zu gewährleisten.

Neuausrichtung des Projektionsnetzwerks

Anschließend wird das Projektionsnetzwerk neu ausgerichtet. Dies geschieht durch Training mit Daten aus Bildunterschriften-Datensätzen, multimodalen Instruktions-Antwort-Paaren und Szenarien zum Dokumentenverständnis. Während dieser Phase bleiben der Vision-Encoder und der Decoder eingefroren, um eine gezielte Anpassung des Verbindungsstücks zwischen den Modalitäten zu ermöglichen.

Trainingskonfiguration

Sowohl die Tiefenskalierung als auch die Neuausrichtung des Projektionsnetzwerks wurden mit einer Sequenzlänge von 8192 (unter Verwendung von Sequence Packing) und einer Lernrate von 5e-5 mit linearem Zerfall trainiert. Die Gewichte mehrerer Zwischen-Checkpoints wurden gemittelt, um die Stabilität und Leistung zu optimieren.

Gestuftes kontinuierliches Vortraining (CPT): Aufbau von Text- und Bildverständnis

Das CPT ist ein zentraler Bestandteil der Methodik und gliedert sich in zwei Phasen, die darauf abzielen, die textuellen und visuellen Schlussfolgerungsfähigkeiten des Modells schrittweise zu verbessern.

CPT Stufe 1: Fundamentales Schlussfolgern und multimodale Daten

Die erste Stufe umfasst das Training auf einem Datensatz, der zu 50 % aus rein textuellen Tokens (mathematisches und wissenschaftliches Schlussfolgern, Kodierungsaufgaben, Allgemeinwissen), zu 20 % aus wiederholten Tokens der Decoder-Skalierungsphase und zu 30 % aus multimodalen Tokens besteht. Letztere umfassen Daten zum Dokumentenverständnis, Diagrammverständnis und -schlussfolgern, Bildunterschriften, Langform-Bildbeschreibungen, OCR-bezogene Aufgaben sowie Schlussfolgerungen über mathematische und logische Probleme in visuellen Kontexten.

In dieser Phase bleiben alle Komponenten des Modells (Vision-Encoder, Projektionsnetzwerk und Decoder) unfrozen, um die foundationalen visuellen Fähigkeiten zu stärken. Das Training erfolgt mit einer Sequenzlänge von 32768 und einer Lernrate von 5e-5 mit Cosinus-Zerfall und 10 % Warmup.

CPT Stufe 2: Gezielte visuelle Schlussfolgerungen durch synthetische Augmentierung

Zur weiteren Stärkung der visuellen Schlussfolgerungen wird in der zweiten Stufe ein gezielter multimodaler Datensatz durch eine Pipeline zur Generierung synthetischer Daten erstellt. Diese Pipeline transformiert Rohbilder in aufgabenorientierte Trainingsbeispiele, die das Modell dazu anregen, räumliche Strukturen, kompositorisches Verständnis und feinkörnige Wahrnehmung zu lernen, die auf komplexere visuelle Schlussfolgerungen übertragen werden können. Die primären Kategorien sind:

Image Reconstruction: Lernen ganzheitlicher Szenenpriors und Teil-Ganzes-Schlussfolgerungen durch Maskierung von Bildbereichen.
Visual Matching: Verbesserung der Korrespondenz, des Abrufs und der feinkörnigen Diskriminierung durch Abgleich von zugeschnittenen oder augmentierten Ankern über Ansichten oder Bilder hinweg.
Object Detection: Stärkung der Verankerung und Lokalisierung durch Identifizierung der Objektpräsenz und des ungefähren Standorts.
Counting: Verbesserung der Fähigkeit, spezifische visuelle Elemente zu zählen und zu unterscheiden.

In dieser Stufe wird der Vision-Encoder eingefroren, während nur das Projektionsnetzwerk und der Decoder aktualisiert werden. Das Training erfolgt mit einer Sequenzlänge von 16384 und einer Lernrate von 1e-5. Bei Instruktions-Antwort-Formaten wird der Verlust nur auf die Antworten berechnet.

Evaluierungen zeigen, dass CPT Stufe 2 die Leistung bei visuellen Schlussfolgerungsaufgaben deutlich verbessert, beispielsweise mit einem Anstieg von +9.65 Punkten bei MathVerse (Vision Dominant) und +5.98 Punkten bei CharXiv (Descriptive).

Supervised Fine-Tuning (SFT): Verfeinerung zu einem vollständigen Reasoner

Nach den Skalierungs- und CPT-Phasen, die ein Basismodell mit starken Schlussfolgerungsfähigkeiten hervorbrachten, wurde ein Supervised Fine-Tuning (SFT) durchgeführt, um das Modell zu einem vollständigen Reasoner zu entwickeln.

Datenkuratierung

Angesichts der Rechenbeschränkungen, die das Training größerer Annotator-Modelle ausschließen, wurde der Schwerpunkt auf die Kuratierung und Synthese hochwertiger, signalreicher Prompts gelegt. Offene Modelle dienten als Annotatoren. Eine umfangreiche Datenverarbeitungspipeline sorgte für höchste Datenqualität durch Deduplizierung, Inhaltsfilterung und heuristische Filterung. Die Korrektheit der Daten wurde mittels "LLM-as-Judge" und ausführungsbasierter Verifikation überprüft, um fehlerhafte oder minderwertige Instruktions-Antwort-Paare zu eliminieren. Alle Samples wurden konsistent formatiert und einer Dekontaminationsphase unterzogen, um Überschneidungen mit Benchmarks zu vermeiden.

Datenzusammensetzung und Training

Der Datensatz umfasste Millionen hochwertiger Instruktions-Antwort-Paare. Jede Antwort enthielt explizite Schlussfolgerungsschritte, die zur endgültigen Antwort führten. Die Samples deckten Bereiche wie mathematisches Schlussfolgern, Kodierung, wissenschaftliches Schlussfolgern, Tool-Aufrufe, generisches Schlussfolgern, wissensintensive Samples, Konversationen, Instruktions-Folgen, Sicherheit, Inhaltsmoderation und Robustheit ab.

Das Training erfolgte über mehrere Epochen mit langen Sequenzlängen (bis zu 49.152 Tokens). Um die Gesamt- und Langkontextleistung zu verbessern, wurden zwei kleinere SFT-Durchläufe durchgeführt und deren Gewichte gemittelt. Da diese Phase ausschließlich aus Textdaten bestand, wurde nur der Decoder aktualisiert.

Evaluierungsmethodik: Umfassende Bewertung von Text- und Bildfähigkeiten

Die Evaluierung von Apriel-1.5-15B-Thinker erfolgte anhand einer Kombination aus etablierten Benchmarks für Text- und Bildfähigkeiten, um eine umfassende und objektive Leistungsbeurteilung zu gewährleisten.

Textevaluierung

Für die Textevaluierung wurde der Artificial Analysis Intelligence Index herangezogen. Dieser Index ist eine unabhängige Metrik, die die allgemeine Intelligenz großer Sprachmodelle (LLMs) misst. Er aggregiert Ergebnisse aus zehn heterogenen Benchmarks, die jeweils eine spezifische Dimension der Modellfähigkeit ansprechen:

MMLU-Pro: Fortgeschrittenes Multi-Domain-Wissen und Schlussfolgern
GPQA Diamond: Problemlösung auf Graduiertenniveau in Wissenschaft/Ingenieurwesen
Humanity’s Last Exam (HLE): Multidisziplinäres Schlussfolgern mit hohem Schwierigkeitsgrad
LiveCodeBench: Funktionale Korrektheit bei der Codegenerierung
SciCode: Wissenschaftliche Berechnungs- und Schlussfolgerungsaufgaben
AIME 2025: Mathematik auf Wettbewerbsniveau
IF-Bench: Instruktionsfolgen und Compliance
AA-LCR: Langkontext-Schlussfolgern
Terminal-Bench Hard: Reale Linux-Shell-Ausführung und System-Tool-Nutzung in End-to-End-Aufgaben
τ²-Bench Telecom: Spezialisierte Domänenbewertung in angewandten Aufgaben

Die Normalisierung über Domänen, Schwierigkeitsgrade und Inter-Benchmark-Varianz ermöglicht eine ganzheitliche Messung der Intelligenz. Interne Evaluierungen zeigten ähnliche Metriken wie die von Artificial Analysis gemeldeten Ergebnisse.

Bildevaluierung

Die visuellen Fähigkeiten wurden mithilfe des VLMEvalKit-Toolkits bewertet, das Datenladevorgänge, Prompting, Nachbearbeitung und Bewertung für reproduzierbare Vergleiche standardisiert. Die Benchmark-Suite umfasste folgende Bereiche:

Allgemeines multimodales Schlussfolgern: - MMMU: Multimodaler Verständnis-Benchmark zur Bewertung von visuellem Wissen und Schlussfolgern. - MMMU-Pro: Erweiterter multimodaler Verständnis-Benchmark mit Fokus auf visuelles Wissen und Schlussfolgern. - MMStar: Vision-unverzichtbarer Benchmark für Aufgaben, die nicht allein mit Wissen oder ohne Bild gelöst werden können.
Visuelle Logik: - LogicVista: Multimodaler logischer Schlussfolgerungs-Benchmark für verschiedene Arten von Schlussfolgerungsfähigkeiten in visuellen Kontexten.
Mathematische Vision und quantitative Schlussfolgerungen: - MathVision: Mathematisches Schlussfolgern in visuellen Kontexten. - MathVista: Benchmark, der Herausforderungen aus verschiedenen visuellen und mathematischen Aufgaben kombiniert. - MathVerse: Mathematischer Benchmark, der die Modellleistung über verschiedene Informationsgehaltsstufen in mehreren Modalitäten misst.
Dokumenten-/Diagrammverständnis: - CharXiv: Benchmark zur Messung von beschreibenden und schlussfolgernden Frage-Antwort-Fähigkeiten über grundlegende und komplexe Diagrammelemente. - AI2D: Diagrammverständnis-Benchmark.
Open-Domain Vision-Language Reasoning: - BLINK: Benchmark zur Messung der Leistung bei verschiedenen visuellen Wahrnehmungsaufgaben.

Bei jedem Datensatz wurden offizielle oder Community-Standardprotokolle des VLMEvalKit befolgt und konsistente Prompts und Inferenz-Einstellungen verwendet, um faire Vergleiche zu gewährleisten.

Ergebnisse und Beobachtungen: Leistung und Effizienz

Text-Benchmarks

Apriel-1.5-15B-Thinker erzielte einen Wert von 52 im Artificial Analysis Intelligence Index. Damit übertrifft es größere Open-Weight-Systeme wie Llama Nemotron Super 49B v1.5 (45) und gpt-oss-20B (43) und liegt gleichauf mit Modellen wie DeepSeek-R1-0528 und Gemini-2.5-Flash. Die aggregierten Ergebnisse zeigen eine starke mathematische Schlussfolgerungsfähigkeit (87 % bei AIME2025), robustes Instruktionsfolgen (62 % bei IF-Bench) und domänenspezifische Problemlösungsfähigkeiten (68 % bei τ²-Bench Telecom). Die Leistung bei TerminalBench-Hard (10 %) ist vergleichbar mit größeren proprietären Systemen wie GPT-4.1 und Gemini 2.5 Flash (beide 13 %) und übertrifft Open-Source-Modelle ähnlicher Größe.

Die Analyse der Leistung im Verhältnis zur Modellgröße zeigt, dass Apriel-1.5-15B-Thinker im "attraktivsten Quadranten" liegt, der moderate Skalierung mit überproportional hoher Leistung kombiniert. Dies unterstreicht das vorteilhafte Kosten-Intelligenz-Verhältnis des Modells.

Vision-Benchmarks

Bei den Vision-Benchmarks erreichte Apriel-1.5-15B-Thinker einen Durchschnittswert von 64,7 % über die gesamte Suite. Das Modell übertrifft die meisten vergleichbar großen und sogar größeren Open-Weight Vision-Language-Modelle wie Kimi-VL-2506 und Qwen-2.5-VL-3B-Instruct. Es liegt nur etwa 5 Punkte hinter größeren Modellen wie Gemini-2.5-Flash und Claude Sonnet-3.7. Insbesondere zeigt es starke Ergebnisse bei dokumentenzentrierten und Diagrammverständnis-Benchmarks (z.B. CharXiv 88,20 % für deskriptive Aufgaben, AI2D 82,87 %) und solide Werte bei visuellen mathematischen Aufgaben (MathVista 75,5 %). Die Leistung ist tendenziell stärker bei Aufgaben, die visuelle Eingaben mit erheblichen textuellen Schlussfolgerungskomponenten kombinieren, während bei rein visuellen Aufgaben (z.B. MMMU-PRO Vision 48,21 %) noch Verbesserungspotenzial besteht. Dies deutet auf eine Lücke zwischen oberflächlichem Dokumentenverständnis und tieferem kontextuellem Schlussfolgern hin.

Fazit und Ausblick: Der Weg zu effizienter und zugänglicher KI

Die Entwicklung des Apriel-1.5-15B-Thinker-Modells demonstriert, dass ein Modell mit 15 Milliarden Parametern ein hohes Niveau an Schlussfolgerungsfähigkeiten erreichen kann, indem es Datenqualität und eine sorgfältig strukturierte "Mid-Training"-Pipeline priorisiert. Dieser datenzentrierte Ansatz, bestehend aus gestuftem kontinuierlichem Vortraining (CPT) und hochwertigem Supervised Fine-Tuning (SFT) ohne den Einsatz von Reinforcement Learning oder Präferenzoptimierung, führt zu messbaren Leistungssteigerungen und wettbewerbsfähigen Ergebnissen bei multimodalen Benchmarks.

Ein entscheidender Vorteil des Modells ist seine Fähigkeit, auf einer einzigen GPU zu operieren. Dies ermöglicht ein günstiges Leistungs-Effizienz-Verhältnis und macht fortschrittliche Schlussfolgerungsfähigkeiten für Organisationen mit begrenzter Recheninfrastruktur zugänglich. Die Ergebnisse von Apriel-1.5-15B-Thinker widerlegen die Annahme, dass Spitzenergebnisse zwingend massive Skalierung und kostspielige RL-Pipelines erfordern. Stattdessen unterstreichen sie die Bedeutung eines strategischen Mid-Training-Designs, effizienter Architekturskalierung und eines kontinuierlichen Fokus auf hochwertige, zielgerichtete Daten.

Obwohl sich die aktuelle Arbeit hauptsächlich auf textbasiertes Schlussfolgern konzentrierte, bieten die multimodalen Ergebnisse des Modells eine solide Grundlage für zukünftige Entwicklungen. Die nächsten Schritte werden darauf abzielen, die multimodalen Fähigkeiten umfassender zu erweitern und die agentischen Fähigkeiten zu stärken, um interaktive Workflows zu unterstützen, gegebenenfalls mit gezielten Alignment-Techniken. Die zukünftige Entwicklung wird weiterhin von den hier demonstrierten Kernprinzipien geleitet sein: strategisches Mid-Training-Design, effiziente Architekturskalierung und ein anhaltender Fokus auf hochwertige, zielgerichtete Daten.

Bibliographie

- Radhakrishna, S., Tiwari, A., Shukla, A., et al. (2025). Apriel-1.5-15B-Thinker: Mid-training is all you need. arXiv preprint arXiv:2510.01141. - Radhakrishna, S. (o. J.). Paper page - Apriel-1.5-15b-Thinker - Hugging Face. Abgerufen am 21. Mai 2024 von https://huggingface.co/papers/2510.01141 - Emergentmind. (o. J.). Apriel-1.5-15B-Thinker: Efficient Multimodal Reasoning. Abgerufen am 21. Mai 2024 von https://www.emergentmind.com/articles/2510.01141 - Wang, Y., Yang, Q., Zeng, Z., et al. (2025). Reinforcement Learning for Reasoning in Large Language Models with One Training Example. arXiv preprint arXiv:2504.20571. - Raschka, S. (2025). The State of Reinforcement Learning for LLM Reasoning - Ahead of AI. Abgerufen am 21. Mai 2024 von https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training - Yuan, D., Xie, T., Huang, S., et al. (2025). Efficient RL Training for Reasoning Models via Length-Aware Optimization. arXiv preprint arXiv:2505.12284. - Yuan, D., Xie, T., Huang, S., et al. (2026). Efficient RL Training for Reasoning Models via Length-Aware Optimization. OpenReview. Abgerufen am 21. Mai 2024 von https://openreview.net/forum?id=fTad4GXyR9 - Yue, Y., Yuan, Y., Yu, Q., et al. (2025). VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks. arXiv preprint arXiv:2504.05118. - Yue, Y. (2025). Paper page - VAPO: Efficient and Reliable Reinforcement Learning ... - Hugging Face. Abgerufen am 21. Mai 2024 von https://huggingface.co/papers/2504.05118 - Arora, D., & Zanette, A. (2024). Training Language Models to Reason Efficiently. arXiv preprint arXiv:2502.04463.