Optimierung der Antwortlängen in KI-Modellen durch den neuen LUSPO-Algorithmus

Kategorien:

No items found.

Freigegeben:

February 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Optimierung der Antwortlänge in KI-Modellen ist entscheidend für die Verbesserung ihrer Denkfähigkeiten.
RLVR (Reinforcement Learning with Verifiable Rewards) ist eine Schlüsseltechnologie zur Steigerung der Leistungsfähigkeit großer Sprachmodelle (LLMs) und Vision-Language-Modelle (VLMs).
Bestehende RLVR-Algorithmen wie GRPO und GSPO weisen eine Längenverzerrung auf, die zu suboptimalen oder sogar verkürzten Antworten führen kann.
Der neue LUSPO-Algorithmus (Length-Unbiased Sequence Policy Optimization) neutralisiert diese Längenverzerrung durch eine skalierte Verlustfunktion und führt zu überlegener Leistung.
LUSPO ermöglicht eine stabilere und effektivere Ausbildung von KI-Modellen, insbesondere in mathematischen und multimodalen Denkaufgaben.

Die Bedeutung der Antwortlänge in der KI-Optimierung

Die Fähigkeit von Künstlicher Intelligenz, komplexe Aufgaben zu lösen, hat in den letzten Jahren erheblich zugenommen. Insbesondere bei großen Sprachmodellen (LLMs) und Vision-Language-Modellen (VLMs) ist die Optimierung der Denkfähigkeiten ein zentrales Forschungsfeld. Eine oft unterschätzte, aber entscheidende Komponente in diesem Prozess ist die Variabilität der Antwortlänge, die diese Modelle generieren. Aktuelle Forschungen beleuchten, wie diese Variabilität die Leistung beeinflusst und wie sie gezielt gesteuert werden kann, um bessere Ergebnisse zu erzielen.

Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) als Katalysator

Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als eine grundlegende Methode etabliert, um die Fähigkeiten von LLMs und VLMs zu verbessern. Durch iterative Optimierung und die Nutzung vielfältiger Belohnungssignale entwickeln RLVR-trainierte Modelle die Fähigkeit, längere, kohärentere und kontextuell relevantere Antworten zu generieren. Dies ist besonders wichtig für anspruchsvolle Aufgaben wie mathematisches Denken oder komplexe Programmierung, bei denen detaillierte, logische Erklärungen erforderlich sind.

Herausforderungen bei bestehenden RLVR-Algorithmen: Die Längenverzerrung

Trotz des Erfolgs von RLVR zeigen bestehende Algorithmen wie Group Relative Policy Optimization (GRPO) und Group Sequence Policy Optimization (GSPO) bestimmte Einschränkungen. Eine zentrale Herausforderung ist die sogenannte "Längenverzerrung" (length bias). Diese Verzerrung kann dazu führen, dass Modelle entweder zu kurze Antworten generieren, was die Fähigkeit zur Problemlösung beeinträchtigt, oder dass die Trainingsstabilität leidet.

GRPO und die Token-basierte Verzerrung

GRPO, ein prominenter Algorithmus, der beispielsweise in DeepSeek-R1 erfolgreich eingesetzt wurde, berechnet den Vorteil jeder Antwort innerhalb einer Gruppe relativ zu einem Basiswert. Hierbei wird der Beitrag aller Token innerhalb einer Trajektorie gemittelt. Dies kann zu einer Längenverzerrung führen, bei der kürzere Antworten stärkere Gradienten-Updates erhalten, was eine Tendenz zu Kürze in korrekten Antworten fördert. Für inkorrekte Antworten hingegen werden längere Ausgaben weniger bestraft, was das Modell dazu anregen kann, längere Antworten zu bevorzugen, selbst wenn diese falsch sind.

GSPO und die verstärkte Längenverzerrung

GSPO, eine Weiterentwicklung von GRPO zur Verbesserung der Trainingsstabilität in Mixture-of-Experts (MoE)-Architekturen, löst zwar Probleme der Instabilität, verschärft jedoch die Längenverzerrung. Durch sequenzebenes Clipping und die Art der Belohnungszuweisung werden im Vergleich zum Token-level-Clipping deutlich mehr Token abgeschnitten. Dies kann zu einem Ungleichgewicht zwischen positiven und negativen Stichproben-Tokens führen und die Längenverzerrung verstärken. Das Ergebnis ist oft ein "Kollaps der Antwortlänge", bei dem Modelle im Laufe des Trainings immer kürzere Antworten produzieren, was die Effektivität des Trainings untergräbt.

Beispielsweise zeigten Experimente mit dem Qwen2.5-VL-7B-Instruct-Modell, dass GSPO zu einem deutlichen Rückgang der Antwortlänge während des Trainings führte, während GRPO dieses Phänomen nicht aufwies.

LUSPO: Eine neue Lösung zur Neutralisierung der Längenverzerrung

Um diese Probleme zu adressieren, wurde der Algorithmus Length-Unbiased Sequence Policy Optimization (LUSPO) entwickelt. LUSPO basiert auf einer detaillierten Analyse der Zielfunktionen von GRPO und GSPO und schlägt eine prinzipielle Modifikation vor: die Skalierung des Verlusts jeder Sequenz durch ihre eigene Länge.

Wie LUSPO funktioniert

LUSPO korrigiert die Längenverzerrung, indem es die Verlustfunktion in Bezug auf die Antwortlänge unvoreingenommen gestaltet. Diese Anpassung hat mehrere positive Effekte:

Es behebt das Problem des "Kollapses der Antwortlänge", das bei GSPO beobachtet wurde.
Es verbessert die Trainingsstabilität, insbesondere bei MoE-Modellen.
Es beschleunigt das Wachstum der Antwortlänge während des Trainings.
Es führt zu einer signifikanten Leistungssteigerung bei Denkaufgaben in textbasierten und multimodalen Szenarien.

Empirische Ergebnisse und Leistungsnachweise

Umfassende Experimente mit verschiedenen Modellarchitekturen (dicht, MoE, textbasiert, Vision-Language) und auf diversen Benchmarks untermauern die Effektivität von LUSPO. Die Ergebnisse zeigen, dass LUSPO die Längenverzerrung der GSPO-Zielfunktion effektiv eliminiert und ein stabiles Training gewährleistet.

Verbesserungen in mathematischen und multimodalen Denkaufgaben

LUSPO erzielte bemerkenswerte Verbesserungen gegenüber GRPO und GSPO auf Benchmarks für mathematisches Denken und multimodale Szenarien, darunter AIME24, AIME25, MathVista und MathVision. Zum Beispiel führte das Training von Qwen2.5-7B-Base und Qwen3-30B-A3B-Instruct mit LUSPO zu einer um bis zu 2,9 % bzw. 6,9 % höheren Genauigkeit auf AIME24 im Vergleich zu GSPO. Bei multimodalen Aufgaben, wie dem Training von Qwen2.5-VL-7B-Instruct auf MathVista-Mini, erreichte LUSPO eine um bis zu 1,6 % höhere Genauigkeit als GRPO und 0,5 % höhere Genauigkeit als GSPO. Besonders hervorzuheben sind die Verbesserungen von 5,1 % auf WeMath und 6,0 % auf LogicVista im Vergleich zu GSPO.

Dynamik des Trainings und Validierungsergebnisse

Die Analyse der Trainingsdynamik zeigt, dass LUSPO bei gleicher Anzahl von Trainingsschritten einen schnelleren Anstieg der Antwortlänge im Vergleich zu GSPO aufweist. Dieser beschleunigte Anstieg deutet auf eine verbesserte Modellfähigkeit hin. Die durchschnittliche Antwortlänge von LUSPO-trainierten Modellen war in den Experimenten fast 1,5-mal länger als die von GSPO-Modellen. Zudem erzielte LUSPO nicht nur höhere Belohnungen während des Trainings, sondern zeigte auch eine signifikant verbesserte Leistung auf Validierungsdatensätzen, was auf eine bessere Generalisierungsfähigkeit hindeutet.

Fazit und Ausblick

Die Forschungsergebnisse unterstreichen, dass die Kontrolle der Antwortlängenvariationen in RLVR-Algorithmen von entscheidender Bedeutung für die Leistungsfähigkeit von großen KI-Modellen ist. LUSPO bietet eine innovative und effektive Strategie, um die inhärente Längenverzerrung in bestehenden Optimierungsansätzen zu überwinden. Durch die Sicherstellung einer unvoreingenommenen Behandlung der Antwortlänge ermöglicht LUSPO ein stabileres und leistungsfähigeres Training, was zu überlegenen Ergebnissen in einer Vielzahl von textbasierten und multimodalen Denkaufgaben führt.

Diese Entwicklung ist von großer Relevanz für B2B-Anwendungen, da sie die Grundlage für zuverlässigere und intelligentere KI-Systeme schafft, die in der Lage sind, komplexe Probleme mit größerer Präzision und Tiefe zu lösen. Die Fähigkeit, die Antwortlänge in LLMs und VLMs besser zu steuern, eröffnet neue Möglichkeiten für die Entwicklung fortschrittlicher KI-Lösungen, die in der Lage sind, menschliches Denken und Problemlösen noch besser zu imitieren und zu unterstützen.

Bibliographie

- Liu, F., Yin, Y., Shi, P., Yang, S., Zeng, Z., & Qiu, H. (2026). Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR. arXiv preprint arXiv:2602.05261. - AI Research Roundup. (2026, 6. Februar). LUSPO: Fixing Length Bias in LLM Reasoning Models [Video]. YouTube. Abgerufen von https://www.youtube.com/watch?v=ixtBjiF_3w8 - Zheng, C., Liu, S., Li, M., Chen, X.-H., Yu, B., Gao, C., ... & Lin, J. (2025). Group Sequence Policy Optimization. arXiv preprint arXiv:2507.18071. - OpenReview. (2025). LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning. Abgerufen von https://openreview.net/forum?id=2Tg9RhHsSU - AlphaXiv. (n.d.). Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR. Abgerufen von https://www.alphaxiv.org/overview/2602.05261 - Hugging Face. (n.d.). Revealing and Controlling Response Length Variation in RLVR. Abgerufen von https://huggingface.co/papers/2602.05261