Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Als spezialisierter Analyst für Mindverse beobachten wir kontinuierlich die neuesten Entwicklungen im Bereich der Künstlichen Intelligenz. Eine bemerkenswerte Veröffentlichung, die kürzlich in den Hugging Face Daily Papers vorgestellt wurde, ist das STEP3-VL-10B Modell von StepFun. Dieses Modell stellt eine wichtige Entwicklung im Bereich der multimodalen KI dar, insbesondere durch seine Kombination aus Effizienz und fortschrittlicher Leistungsfähigkeit.
Die Forschung und Entwicklung im Bereich der Künstlichen Intelligenz hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere bei großen Sprachmodellen (LLMs) und multimodalen Modellen (VLMs). Traditionell ging die Steigerung der Leistungsfähigkeit oft mit einer exponentiellen Zunahme der Modellgröße und des Rechenaufwands einher. Das STEP3-VL-10B Modell, ein Open-Source-Foundation-Modell mit 10 Milliarden Parametern, strebt an, dieses Paradigma zu verändern, indem es kompakte Effizienz mit multimodaler Intelligenz auf einem hohen Niveau verbindet.
Die Entwickler von StepFun haben ein Modell vorgestellt, das in der Lage ist, in Bereichen wie visueller Wahrnehmung, komplexer Argumentation und menschenzentrierter Ausrichtung herausragende Leistungen zu erbringen. Bemerkenswert ist, dass STEP3-VL-10B nicht nur Modelle seiner Größenklasse übertrifft, sondern auch mit deutlich größeren Open-Source-Modellen (die 10- bis 20-mal so groß sind) sowie führenden proprietären Modellen wie Gemini 2.5 Pro und Seed-1.5-VL konkurriert oder diese sogar übertrifft. Dies deutet auf einen potenziellen Paradigmenwechsel in der Entwicklung leistungsfähiger, aber ressourceneffizienter KI-Modelle hin.
Der Erfolg von STEP3-VL-10B wird auf zwei strategische Designentscheidungen zurückgeführt:
Das Modell durchläuft eine einstufige, vollständig ungefrorene Trainingsstrategie auf einem umfangreichen multimodalen Korpus von 1,2 Billionen Token. Der Fokus liegt dabei auf zwei grundlegenden Fähigkeiten:
Durch die gemeinsame Optimierung eines Perception Encoders (PE-lang mit 1,8 Milliarden Parametern) und eines Qwen3-8B Decoders wird eine intrinsische Synergie zwischen Vision und Sprache geschaffen. Der Perception Encoder wurde dabei aufgrund seiner sprachlich ausgerichteten Merkmale ausgewählt, die eine bessere Konvergenz im multimodalen Kontext gewährleisten.
Das Vortraining erfolgte mit einem AdamW-Optimierer über 370.000 Iterationen bei einer globalen Batch-Größe von 8.192 und einer Sequenzlänge von 4.096. Um die Balance zwischen Trainingsumfang und Datenqualität zu optimieren, wurde ein zweiphasiger Lernraten-Zeitplan implementiert. Die erste Phase (900 Milliarden Token) konzentrierte sich auf breites Repräsentationslernen, während die zweite Phase (300 Milliarden Token) auf feinere Wahrnehmungs- und Argumentationsfähigkeiten abzielte.
Fortgeschrittene Fähigkeiten werden durch eine strenge Post-Trainingspipeline freigeschaltet, die zwei Stufen des Supervised Finetuning (SFT) und über 1.400 Iterationen des Reinforcement Learning (RL) umfasst. Dabei kommen sowohl verifizierbare Belohnungen (RLVR) als auch menschliches Feedback (RLHF) zum Einsatz.
Ein wesentliches Merkmal ist das "Parallel Coordinated Reasoning" (PaCoRe). Im Gegensatz zu sequenziellen Argumentationsansätzen (SeRe), die Gedanken kettenartig generieren, skaliert PaCoRe die Testzeit-Rechenleistung, um Evidenz aus paralleler visueller Exploration zu aggregieren. Dieser Ansatz ermöglicht es dem Modell, komplexe Wahrnehmungs- und Argumentationsaufgaben zu lösen, die normalerweise wesentlich größere Systeme erfordern würden.
Das Reinforcement Learning verwendet den PPO-Algorithmus (Proximal Policy Optimization) in Kombination mit Generalized Advantage Estimation (GAE). Ein zweigeteiltes Belohnungssystem unterscheidet zwischen verifizierbaren Aufgaben (mit objektiver Korrektheit) und nicht-verifizierbaren Aufgaben (mit Fokus auf Präferenzmodellierung und Einschränkungen). Für verifizierbare Aufgaben werden präzise Wahrnehmungsbelohnungen und modellbasierte Verifizierung (z.B. durch GPT-OSS-120B) eingesetzt, die auch semantische Äquivalenz und Prozesskonsistenz berücksichtigen. Bei nicht-verifizierbaren Aufgaben kommen generative Belohnungsmodellierung (GenRM) und Verhaltensregularisierung zum Einsatz, um menschliche Präferenzen und Sicherheitsaspekte zu berücksichtigen.
STEP3-VL-10B wurde umfassend auf einer breiten Palette von multimodalen und textzentrierten Benchmarks evaluiert. Die Ergebnisse zeigen, dass das Modell einen neuen Leistungsstandard für kompakte Modelle setzt.
In direkten Vergleichen mit anderen Open-Source-Modellen im Bereich von 7 bis 10 Milliarden Parametern (wie GLM-4.6V-Flash, Qwen3-VL-Thinking und InternVL-3.5) nimmt STEP3-VL-10B in fast allen Fähigkeitsdomänen die Spitzenposition ein. Besonders hervorzuheben sind:
STEP3-VL-10B bewahrt auch bei multimodaler Schulung eine hohe sprachliche Intelligenz und vermeidet den traditionellen Kompromiss zwischen Text- und Vision-Modalitäten:
Interessanterweise schließt STEP3-VL-10B die Lücke zu Modellen, die 10- bis 20-mal größer sind, sowie zu führenden proprietären Systemen. Im PaCoRe-Modus übertrifft es sogar Gemini-2.5-Pro und Seed-1.5-VL in mehreren rechenintensiven Benchmarks, darunter MathVision (+5,14 %) und DynaMath (+5,09 %). Dies gilt auch für visuelle Zählaufgaben (CountQA, +4,6 %), OCR (OCRBench, +2,25 %) und räumliches Verständnis (All-Angles-Bench, +7,50 %).
Besonders hervorzuheben sind die Ergebnisse auf anspruchsvollen mathematischen Textaufgaben wie AIME2025 (94,43 %) und HMMT25 (92,14 %), die zeigen, dass Intelligenz nicht ausschließlich durch die Modellgröße begrenzt ist.
Die Entwicklung von STEP3-VL-10B liefert mehrere wichtige Erkenntnisse:
Ein Vergleich des PE-lang (sprachoptimierter Perception Encoder) mit DINOv3 als Vision-Backbone zeigte, dass PE-lang trotz ähnlicher Parameterzahl überlegene Dateneffizienz und Benchmark-Leistung erzielt. Dies unterstreicht die Bedeutung der Sprachausrichtung im Vision Encoder für effizientes VLM-Modelling.
Experimente mit dem Optimierer Muon zeigten Verbesserungen bei Tail-Knowledge-Aufgaben, doch aufgrund von Initialisierungs-Missmatches und der Notwendigkeit langer Aufwärmphasen wurde für die finale Architektur AdamW bevorzugt. Dies deutet darauf hin, dass die Wahl des Optimierers und seine Abstimmung auf die Trainingsdynamik entscheidend sein können.
Die Verwendung von Deepstack, einer Technik zur Tiefenerweiterung, beschleunigte zwar die Trainingskonvergenz, führte aber nicht zu signifikanten Leistungssteigerungen bei den Evaluierungsbenchmarks. Aufgrund des Rechenaufwands wurde Deepstack daher nicht in die finale Modellkonfiguration aufgenommen.
Die Beobachtung der RLVR-Dynamik über 600 Iterationen zeigte ein robustes zweiphasiges Wachstum: ein anfänglicher schneller Anstieg von Belohnungen und Metriken, gefolgt von einem stetigen, linearen Anstieg ohne Sättigung. Dies impliziert, dass RL eine kontinuierliche Leistungssteigerung auch nach umfassendem Vortraining ermöglichen kann.
Im Gegensatz zu textbasiertem RL, wo die durchschnittliche Rollout-Länge mit der Zeit zunimmt (sequenzielles Skalieren), zeigte STEP3-VL-10B eine anfängliche Zunahme, gefolgt von einer Rückkehr zum Ausgangsniveau. Dies wird als Aufhebungseffekt zwischen zwei entgegengesetzten Skalierungseigenschaften interpretiert:
Die Forscher vermuten, dass das "Unscaling" bei Wahrnehmungsaufgaben auf ein Datenmanko zurückzuführen ist, da interne mentale Zustände der visuellen Kognition in Trainingskorpora selten explizit verbalisiert werden. Um dieser Einschränkung entgegenzuwirken, wurde PaCoRe eingesetzt. Dieses Testzeit-Skalierungsstrategie expliziert implizite visuelle Prozesse, indem es das Modell dazu anregt, mehrere Wahrnehmungshypothesen parallel zu explorieren und zu einer einheitlichen Schlussfolgerung zu synthetisieren. Dies führt zu komplexen, menschenähnlichen Verifizierungsverhalten während der Inferenz und signifikanten Leistungssteigerungen.
STEP3-VL-10B demonstriert, dass ein kompaktes Modell mit 10 Milliarden Parametern durch eine sorgfältig kuratierte Datenbasis und fortschrittliche Reinforcement-Learning-Techniken Fähigkeiten in Wahrnehmung, Argumentation und Ausrichtung erreichen kann, die mit den stärksten proprietären und Open-Source-Modellen konkurrieren. Dies unterstreicht die Möglichkeit, leistungsfähige KI-Modelle zu entwickeln, die gleichzeitig ressourceneffizient sind.
Die zukünftige Arbeit konzentriert sich darauf, die Token-Effizienz durch universelles RL-Skalieren zu maximieren, indem Rechenressourcen stärker auf RL verlagert werden. Ziel ist es, parallele Erkundung zu internalisieren und redundantes "Überdenken" zu eliminieren, um effizientere und präzisere Wahrnehmungsgrundlagen zu schaffen. Ein weiterer Fokus liegt auf der Überbrückung der "Realitätslücke" durch aktive physische Verankerung. Dies beinhaltet den Übergang von semantischen zu physischen Weltmodellen, die Nutzung von Physik als ultimativem Verifizierer und die Entwicklung von Embodied Chain-of-Thought (E-CoT) für robustere Langzeitplanung in dynamischen Umgebungen.
Die Veröffentlichung von STEP3-VL-10B und die damit verbundenen Erkenntnisse bieten wertvolle Impulse für die B2B-Zielgruppe von Mindverse. Sie zeigen, wie fortschrittliche KI-Technologien auch in kompakterer Form hohe Leistungsfähigkeit erzielen können, was für Unternehmen, die effiziente und leistungsstarke KI-Lösungen suchen, von großer Bedeutung ist.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen