KI für Ihr Unternehmen – Jetzt Demo buchen

Neues Open-Source-Modell STEP3-VL-10B setzt Standards für multimodale KI-Effizienz

Kategorien:
No items found.
Freigegeben:
January 16, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • STEP3-VL-10B ist ein Open-Source-Multimodal-Modell (VLM) mit 10 Milliarden Parametern, das trotz seiner kompakten Größe eine hohe Leistung in visueller Wahrnehmung, komplexer Argumentation und menschenzentrierter Ausrichtung erzielt.
    • Das Modell übertrifft in vielen Benchmarks Modelle gleicher Größe und kann mit wesentlich größeren Modellen (10- bis 20-mal so groß) sowie proprietären Flaggschiffen konkurrieren oder diese übertreffen.
    • Der Erfolg basiert auf einem einstufigen, vollständig ungefrorenen Vortraining auf einem 1,2 Billionen Token umfassenden multimodalen Korpus und einem Post-Training mit über 1.400 Iterationen des Reinforcement Learning.
    • Ein Schlüsselelement ist das "Parallel Coordinated Reasoning" (PaCoRe), das Testzeit-Rechenleistung skaliert, um Evidenz aus paralleler visueller Exploration zu aggregieren.
    • Das Modell zeigt herausragende Fähigkeiten im STEM-Bereich, in der visuellen Wahrnehmung, bei GUI-Interaktionen, OCR und im räumlichen Verständnis.

    Als spezialisierter Analyst für Mindverse beobachten wir kontinuierlich die neuesten Entwicklungen im Bereich der Künstlichen Intelligenz. Eine bemerkenswerte Veröffentlichung, die kürzlich in den Hugging Face Daily Papers vorgestellt wurde, ist das STEP3-VL-10B Modell von StepFun. Dieses Modell stellt eine wichtige Entwicklung im Bereich der multimodalen KI dar, insbesondere durch seine Kombination aus Effizienz und fortschrittlicher Leistungsfähigkeit.

    Einleitung: Effizienz trifft auf Multimodalität

    Die Forschung und Entwicklung im Bereich der Künstlichen Intelligenz hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere bei großen Sprachmodellen (LLMs) und multimodalen Modellen (VLMs). Traditionell ging die Steigerung der Leistungsfähigkeit oft mit einer exponentiellen Zunahme der Modellgröße und des Rechenaufwands einher. Das STEP3-VL-10B Modell, ein Open-Source-Foundation-Modell mit 10 Milliarden Parametern, strebt an, dieses Paradigma zu verändern, indem es kompakte Effizienz mit multimodaler Intelligenz auf einem hohen Niveau verbindet.

    Die Entwickler von StepFun haben ein Modell vorgestellt, das in der Lage ist, in Bereichen wie visueller Wahrnehmung, komplexer Argumentation und menschenzentrierter Ausrichtung herausragende Leistungen zu erbringen. Bemerkenswert ist, dass STEP3-VL-10B nicht nur Modelle seiner Größenklasse übertrifft, sondern auch mit deutlich größeren Open-Source-Modellen (die 10- bis 20-mal so groß sind) sowie führenden proprietären Modellen wie Gemini 2.5 Pro und Seed-1.5-VL konkurriert oder diese sogar übertrifft. Dies deutet auf einen potenziellen Paradigmenwechsel in der Entwicklung leistungsfähiger, aber ressourceneffizienter KI-Modelle hin.

    Architektur und Trainingsstrategie

    Der Erfolg von STEP3-VL-10B wird auf zwei strategische Designentscheidungen zurückgeführt:

    Vereinheitlichtes Vortraining auf einem hochwertigen multimodalen Korpus

    Das Modell durchläuft eine einstufige, vollständig ungefrorene Trainingsstrategie auf einem umfangreichen multimodalen Korpus von 1,2 Billionen Token. Der Fokus liegt dabei auf zwei grundlegenden Fähigkeiten:

    • Argumentation: Dies umfasst Aufgaben, die allgemeines Wissen und bildungszentrierte Problemstellungen erfordern.
    • Wahrnehmung: Hierzu zählen Fähigkeiten wie Grounding (Verankerung von Objekten im Bild), Zählen, optische Zeichenerkennung (OCR) und Interaktionen mit grafischen Benutzeroberflächen (GUI).

    Durch die gemeinsame Optimierung eines Perception Encoders (PE-lang mit 1,8 Milliarden Parametern) und eines Qwen3-8B Decoders wird eine intrinsische Synergie zwischen Vision und Sprache geschaffen. Der Perception Encoder wurde dabei aufgrund seiner sprachlich ausgerichteten Merkmale ausgewählt, die eine bessere Konvergenz im multimodalen Kontext gewährleisten.

    Das Vortraining erfolgte mit einem AdamW-Optimierer über 370.000 Iterationen bei einer globalen Batch-Größe von 8.192 und einer Sequenzlänge von 4.096. Um die Balance zwischen Trainingsumfang und Datenqualität zu optimieren, wurde ein zweiphasiger Lernraten-Zeitplan implementiert. Die erste Phase (900 Milliarden Token) konzentrierte sich auf breites Repräsentationslernen, während die zweite Phase (300 Milliarden Token) auf feinere Wahrnehmungs- und Argumentationsfähigkeiten abzielte.

    Skaliertes multimodales Reinforcement Learning (RL) und Parallel Reasoning

    Fortgeschrittene Fähigkeiten werden durch eine strenge Post-Trainingspipeline freigeschaltet, die zwei Stufen des Supervised Finetuning (SFT) und über 1.400 Iterationen des Reinforcement Learning (RL) umfasst. Dabei kommen sowohl verifizierbare Belohnungen (RLVR) als auch menschliches Feedback (RLHF) zum Einsatz.

    Ein wesentliches Merkmal ist das "Parallel Coordinated Reasoning" (PaCoRe). Im Gegensatz zu sequenziellen Argumentationsansätzen (SeRe), die Gedanken kettenartig generieren, skaliert PaCoRe die Testzeit-Rechenleistung, um Evidenz aus paralleler visueller Exploration zu aggregieren. Dieser Ansatz ermöglicht es dem Modell, komplexe Wahrnehmungs- und Argumentationsaufgaben zu lösen, die normalerweise wesentlich größere Systeme erfordern würden.

    Das Reinforcement Learning verwendet den PPO-Algorithmus (Proximal Policy Optimization) in Kombination mit Generalized Advantage Estimation (GAE). Ein zweigeteiltes Belohnungssystem unterscheidet zwischen verifizierbaren Aufgaben (mit objektiver Korrektheit) und nicht-verifizierbaren Aufgaben (mit Fokus auf Präferenzmodellierung und Einschränkungen). Für verifizierbare Aufgaben werden präzise Wahrnehmungsbelohnungen und modellbasierte Verifizierung (z.B. durch GPT-OSS-120B) eingesetzt, die auch semantische Äquivalenz und Prozesskonsistenz berücksichtigen. Bei nicht-verifizierbaren Aufgaben kommen generative Belohnungsmodellierung (GenRM) und Verhaltensregularisierung zum Einsatz, um menschliche Präferenzen und Sicherheitsaspekte zu berücksichtigen.

    Leistung auf Benchmarks

    STEP3-VL-10B wurde umfassend auf einer breiten Palette von multimodalen und textzentrierten Benchmarks evaluiert. Die Ergebnisse zeigen, dass das Modell einen neuen Leistungsstandard für kompakte Modelle setzt.

    Vergleich mit Open-Source-Modellen (7B–10B)

    In direkten Vergleichen mit anderen Open-Source-Modellen im Bereich von 7 bis 10 Milliarden Parametern (wie GLM-4.6V-Flash, Qwen3-VL-Thinking und InternVL-3.5) nimmt STEP3-VL-10B in fast allen Fähigkeitsdomänen die Spitzenposition ein. Besonders hervorzuheben sind:

    • STEM und multimodales Schlussfolgern: Das Modell übertrifft Wettbewerber in mathematischen und wissenschaftlichen Argumentationsaufgaben. Auf MathVision werden zum Beispiel über 10 Punkte mehr erreicht als bei MiMo-VL-RL-2508 und Qwen3-VL.
    • Erkennung und allgemeines VQA: STEP3-VL-10B zeigt konsistent überlegene Leistung in visuellen Erkennungs- und VQA-Aufgaben, mit 92,05 % auf MMBench (EN).
    • 2D/3D Räumliches Verständnis: Trotz fehlender spezifischer Datenkuratierung zeigt das Modell bemerkenswertes räumliches Bewusstsein, was sein Potenzial für Anwendungen in der verkörperten Intelligenz unterstreicht.
    • OCR und Dokumentenverständnis: Mit 86,75 % auf OCRBench und 89,35 % auf AI2D demonstriert es fortschrittliche Dokumentenintelligenz.
    • GUI Grounding und Interaktion: In interaktiven Aufgaben erreicht es 92,61 % auf ScreenSpot-V2 und 59,02 % auf OSWorld, was die Effektivität des Trajektorienmodellierungsansatzes belegt.

    Textzentrische Evaluierungsergebnisse

    STEP3-VL-10B bewahrt auch bei multimodaler Schulung eine hohe sprachliche Intelligenz und vermeidet den traditionellen Kompromiss zwischen Text- und Vision-Modalitäten:

    • Mathematik und Code: Das Modell übertrifft seine Gegenstücke in komplexen Argumentationsaufgaben, wie 62,12 % auf IMO-AnswerBench und 75,77 % auf LiveCodeBench.
    • Menschliche Ausrichtung: Die Fähigkeit zur Befolgung von Anweisungen und die subjektive Leistung zeigen eine überlegene Ausrichtung an menschlichen Präferenzen. Interne Elo-basierte Bewertungen bestätigen, dass das Modell mit deutlich größeren Open-Source-Modellen konkurriert.

    Vergleich mit größeren Modellen

    Interessanterweise schließt STEP3-VL-10B die Lücke zu Modellen, die 10- bis 20-mal größer sind, sowie zu führenden proprietären Systemen. Im PaCoRe-Modus übertrifft es sogar Gemini-2.5-Pro und Seed-1.5-VL in mehreren rechenintensiven Benchmarks, darunter MathVision (+5,14 %) und DynaMath (+5,09 %). Dies gilt auch für visuelle Zählaufgaben (CountQA, +4,6 %), OCR (OCRBench, +2,25 %) und räumliches Verständnis (All-Angles-Bench, +7,50 %).

    Besonders hervorzuheben sind die Ergebnisse auf anspruchsvollen mathematischen Textaufgaben wie AIME2025 (94,43 %) und HMMT25 (92,14 %), die zeigen, dass Intelligenz nicht ausschließlich durch die Modellgröße begrenzt ist.

    Diskussion und Design-Erkenntnisse

    Die Entwicklung von STEP3-VL-10B liefert mehrere wichtige Erkenntnisse:

    Auswahl des Vision Encoders

    Ein Vergleich des PE-lang (sprachoptimierter Perception Encoder) mit DINOv3 als Vision-Backbone zeigte, dass PE-lang trotz ähnlicher Parameterzahl überlegene Dateneffizienz und Benchmark-Leistung erzielt. Dies unterstreicht die Bedeutung der Sprachausrichtung im Vision Encoder für effizientes VLM-Modelling.

    Optimierer-Wahl

    Experimente mit dem Optimierer Muon zeigten Verbesserungen bei Tail-Knowledge-Aufgaben, doch aufgrund von Initialisierungs-Missmatches und der Notwendigkeit langer Aufwärmphasen wurde für die finale Architektur AdamW bevorzugt. Dies deutet darauf hin, dass die Wahl des Optimierers und seine Abstimmung auf die Trainingsdynamik entscheidend sein können.

    Ablation für Deepstack

    Die Verwendung von Deepstack, einer Technik zur Tiefenerweiterung, beschleunigte zwar die Trainingskonvergenz, führte aber nicht zu signifikanten Leistungssteigerungen bei den Evaluierungsbenchmarks. Aufgrund des Rechenaufwands wurde Deepstack daher nicht in die finale Modellkonfiguration aufgenommen.

    RL-Dynamik und kontinuierliche Verbesserung

    Die Beobachtung der RLVR-Dynamik über 600 Iterationen zeigte ein robustes zweiphasiges Wachstum: ein anfänglicher schneller Anstieg von Belohnungen und Metriken, gefolgt von einem stetigen, linearen Anstieg ohne Sättigung. Dies impliziert, dass RL eine kontinuierliche Leistungssteigerung auch nach umfassendem Vortraining ermöglichen kann.

    Unterschiedliche Längen-Dynamik

    Im Gegensatz zu textbasiertem RL, wo die durchschnittliche Rollout-Länge mit der Zeit zunimmt (sequenzielles Skalieren), zeigte STEP3-VL-10B eine anfängliche Zunahme, gefolgt von einer Rückkehr zum Ausgangsniveau. Dies wird als Aufhebungseffekt zwischen zwei entgegengesetzten Skalierungseigenschaften interpretiert:

    • Reasoning Tasks: Zeigen standardmäßiges sequenzielles Skalieren, bei dem die Leistung mit der Verlängerung der Inferenzzeit korreliert.
    • Deterministische Wahrnehmungsaufgaben: Hier führt die RL-Optimierung zu einer systematischen Reduzierung des Suchraums und einer Konzentration auf die singuläre deterministische Lösung, was zu kürzeren Rollout-Längen bei höherer Modellkonfidenz führt.

    Die "Missing Trace"-Hypothese und die Emergenz durch PaCoRe

    Die Forscher vermuten, dass das "Unscaling" bei Wahrnehmungsaufgaben auf ein Datenmanko zurückzuführen ist, da interne mentale Zustände der visuellen Kognition in Trainingskorpora selten explizit verbalisiert werden. Um dieser Einschränkung entgegenzuwirken, wurde PaCoRe eingesetzt. Dieses Testzeit-Skalierungsstrategie expliziert implizite visuelle Prozesse, indem es das Modell dazu anregt, mehrere Wahrnehmungshypothesen parallel zu explorieren und zu einer einheitlichen Schlussfolgerung zu synthetisieren. Dies führt zu komplexen, menschenähnlichen Verifizierungsverhalten während der Inferenz und signifikanten Leistungssteigerungen.

    Fazit und zukünftige Perspektiven

    STEP3-VL-10B demonstriert, dass ein kompaktes Modell mit 10 Milliarden Parametern durch eine sorgfältig kuratierte Datenbasis und fortschrittliche Reinforcement-Learning-Techniken Fähigkeiten in Wahrnehmung, Argumentation und Ausrichtung erreichen kann, die mit den stärksten proprietären und Open-Source-Modellen konkurrieren. Dies unterstreicht die Möglichkeit, leistungsfähige KI-Modelle zu entwickeln, die gleichzeitig ressourceneffizient sind.

    Die zukünftige Arbeit konzentriert sich darauf, die Token-Effizienz durch universelles RL-Skalieren zu maximieren, indem Rechenressourcen stärker auf RL verlagert werden. Ziel ist es, parallele Erkundung zu internalisieren und redundantes "Überdenken" zu eliminieren, um effizientere und präzisere Wahrnehmungsgrundlagen zu schaffen. Ein weiterer Fokus liegt auf der Überbrückung der "Realitätslücke" durch aktive physische Verankerung. Dies beinhaltet den Übergang von semantischen zu physischen Weltmodellen, die Nutzung von Physik als ultimativem Verifizierer und die Entwicklung von Embodied Chain-of-Thought (E-CoT) für robustere Langzeitplanung in dynamischen Umgebungen.

    Die Veröffentlichung von STEP3-VL-10B und die damit verbundenen Erkenntnisse bieten wertvolle Impulse für die B2B-Zielgruppe von Mindverse. Sie zeigen, wie fortschrittliche KI-Technologien auch in kompakterer Form hohe Leistungsfähigkeit erzielen können, was für Unternehmen, die effiziente und leistungsstarke KI-Lösungen suchen, von großer Bedeutung ist.

    Bibliographie

    • stepfun-ai/Step3-VL-10B - Hugging Face. URL: https://huggingface.co/stepfun-ai/Step3-VL-10B
    • stepfun-ai/Step3-VL-10B - GitHub. URL: https://github.com/stepfun-ai/Step3-VL-10B
    • Daily Papers - Hugging Face. URL: https://huggingface.co/papers
    • Step3-VL-10B Technical Report - arXiv. URL: https://arxiv.org/html/2601.09668v1
    • Daily Papers (step-level method) - Hugging Face. URL: https://huggingface.co/papers?q=step-level+method
    • Daily Papers (2025-03-10) - Hugging Face. URL: https://huggingface.co/papers?date=2025-03-10
    • Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding - Hugging Face. URL: https://huggingface.co/papers/2507.19427
    • Daily Papers (2025-09-30) - Hugging Face. URL: https://huggingface.co/papers/date/2025-09-30

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen