Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, komplexe Aufgaben zu lösen, hat in den letzten Jahren erheblich zugenommen. Insbesondere bei großen Sprachmodellen (LLMs) und Vision-Language-Modellen (VLMs) ist die Optimierung der Denkfähigkeiten ein zentrales Forschungsfeld. Eine oft unterschätzte, aber entscheidende Komponente in diesem Prozess ist die Variabilität der Antwortlänge, die diese Modelle generieren. Aktuelle Forschungen beleuchten, wie diese Variabilität die Leistung beeinflusst und wie sie gezielt gesteuert werden kann, um bessere Ergebnisse zu erzielen.
Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als eine grundlegende Methode etabliert, um die Fähigkeiten von LLMs und VLMs zu verbessern. Durch iterative Optimierung und die Nutzung vielfältiger Belohnungssignale entwickeln RLVR-trainierte Modelle die Fähigkeit, längere, kohärentere und kontextuell relevantere Antworten zu generieren. Dies ist besonders wichtig für anspruchsvolle Aufgaben wie mathematisches Denken oder komplexe Programmierung, bei denen detaillierte, logische Erklärungen erforderlich sind.
Trotz des Erfolgs von RLVR zeigen bestehende Algorithmen wie Group Relative Policy Optimization (GRPO) und Group Sequence Policy Optimization (GSPO) bestimmte Einschränkungen. Eine zentrale Herausforderung ist die sogenannte "Längenverzerrung" (length bias). Diese Verzerrung kann dazu führen, dass Modelle entweder zu kurze Antworten generieren, was die Fähigkeit zur Problemlösung beeinträchtigt, oder dass die Trainingsstabilität leidet.
GRPO, ein prominenter Algorithmus, der beispielsweise in DeepSeek-R1 erfolgreich eingesetzt wurde, berechnet den Vorteil jeder Antwort innerhalb einer Gruppe relativ zu einem Basiswert. Hierbei wird der Beitrag aller Token innerhalb einer Trajektorie gemittelt. Dies kann zu einer Längenverzerrung führen, bei der kürzere Antworten stärkere Gradienten-Updates erhalten, was eine Tendenz zu Kürze in korrekten Antworten fördert. Für inkorrekte Antworten hingegen werden längere Ausgaben weniger bestraft, was das Modell dazu anregen kann, längere Antworten zu bevorzugen, selbst wenn diese falsch sind.
GSPO, eine Weiterentwicklung von GRPO zur Verbesserung der Trainingsstabilität in Mixture-of-Experts (MoE)-Architekturen, löst zwar Probleme der Instabilität, verschärft jedoch die Längenverzerrung. Durch sequenzebenes Clipping und die Art der Belohnungszuweisung werden im Vergleich zum Token-level-Clipping deutlich mehr Token abgeschnitten. Dies kann zu einem Ungleichgewicht zwischen positiven und negativen Stichproben-Tokens führen und die Längenverzerrung verstärken. Das Ergebnis ist oft ein "Kollaps der Antwortlänge", bei dem Modelle im Laufe des Trainings immer kürzere Antworten produzieren, was die Effektivität des Trainings untergräbt.
Beispielsweise zeigten Experimente mit dem Qwen2.5-VL-7B-Instruct-Modell, dass GSPO zu einem deutlichen Rückgang der Antwortlänge während des Trainings führte, während GRPO dieses Phänomen nicht aufwies.
Um diese Probleme zu adressieren, wurde der Algorithmus Length-Unbiased Sequence Policy Optimization (LUSPO) entwickelt. LUSPO basiert auf einer detaillierten Analyse der Zielfunktionen von GRPO und GSPO und schlägt eine prinzipielle Modifikation vor: die Skalierung des Verlusts jeder Sequenz durch ihre eigene Länge.
LUSPO korrigiert die Längenverzerrung, indem es die Verlustfunktion in Bezug auf die Antwortlänge unvoreingenommen gestaltet. Diese Anpassung hat mehrere positive Effekte:
Umfassende Experimente mit verschiedenen Modellarchitekturen (dicht, MoE, textbasiert, Vision-Language) und auf diversen Benchmarks untermauern die Effektivität von LUSPO. Die Ergebnisse zeigen, dass LUSPO die Längenverzerrung der GSPO-Zielfunktion effektiv eliminiert und ein stabiles Training gewährleistet.
LUSPO erzielte bemerkenswerte Verbesserungen gegenüber GRPO und GSPO auf Benchmarks für mathematisches Denken und multimodale Szenarien, darunter AIME24, AIME25, MathVista und MathVision. Zum Beispiel führte das Training von Qwen2.5-7B-Base und Qwen3-30B-A3B-Instruct mit LUSPO zu einer um bis zu 2,9 % bzw. 6,9 % höheren Genauigkeit auf AIME24 im Vergleich zu GSPO. Bei multimodalen Aufgaben, wie dem Training von Qwen2.5-VL-7B-Instruct auf MathVista-Mini, erreichte LUSPO eine um bis zu 1,6 % höhere Genauigkeit als GRPO und 0,5 % höhere Genauigkeit als GSPO. Besonders hervorzuheben sind die Verbesserungen von 5,1 % auf WeMath und 6,0 % auf LogicVista im Vergleich zu GSPO.
Die Analyse der Trainingsdynamik zeigt, dass LUSPO bei gleicher Anzahl von Trainingsschritten einen schnelleren Anstieg der Antwortlänge im Vergleich zu GSPO aufweist. Dieser beschleunigte Anstieg deutet auf eine verbesserte Modellfähigkeit hin. Die durchschnittliche Antwortlänge von LUSPO-trainierten Modellen war in den Experimenten fast 1,5-mal länger als die von GSPO-Modellen. Zudem erzielte LUSPO nicht nur höhere Belohnungen während des Trainings, sondern zeigte auch eine signifikant verbesserte Leistung auf Validierungsdatensätzen, was auf eine bessere Generalisierungsfähigkeit hindeutet.
Die Forschungsergebnisse unterstreichen, dass die Kontrolle der Antwortlängenvariationen in RLVR-Algorithmen von entscheidender Bedeutung für die Leistungsfähigkeit von großen KI-Modellen ist. LUSPO bietet eine innovative und effektive Strategie, um die inhärente Längenverzerrung in bestehenden Optimierungsansätzen zu überwinden. Durch die Sicherstellung einer unvoreingenommenen Behandlung der Antwortlänge ermöglicht LUSPO ein stabileres und leistungsfähigeres Training, was zu überlegenen Ergebnissen in einer Vielzahl von textbasierten und multimodalen Denkaufgaben führt.
Diese Entwicklung ist von großer Relevanz für B2B-Anwendungen, da sie die Grundlage für zuverlässigere und intelligentere KI-Systeme schafft, die in der Lage sind, komplexe Probleme mit größerer Präzision und Tiefe zu lösen. Die Fähigkeit, die Antwortlänge in LLMs und VLMs besser zu steuern, eröffnet neue Möglichkeiten für die Entwicklung fortschrittlicher KI-Lösungen, die in der Lage sind, menschliches Denken und Problemlösen noch besser zu imitieren und zu unterstützen.
Bibliographie
- Liu, F., Yin, Y., Shi, P., Yang, S., Zeng, Z., & Qiu, H. (2026). Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR. arXiv preprint arXiv:2602.05261. - AI Research Roundup. (2026, 6. Februar). LUSPO: Fixing Length Bias in LLM Reasoning Models [Video]. YouTube. Abgerufen von https://www.youtube.com/watch?v=ixtBjiF_3w8 - Zheng, C., Liu, S., Li, M., Chen, X.-H., Yu, B., Gao, C., ... & Lin, J. (2025). Group Sequence Policy Optimization. arXiv preprint arXiv:2507.18071. - OpenReview. (2025). LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning. Abgerufen von https://openreview.net/forum?id=2Tg9RhHsSU - AlphaXiv. (n.d.). Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR. Abgerufen von https://www.alphaxiv.org/overview/2602.05261 - Hugging Face. (n.d.). Revealing and Controlling Response Length Variation in RLVR. Abgerufen von https://huggingface.co/papers/2602.05261Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen