Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Vision-Language Models (VLMs) haben in den letzten Jahren erhebliche Fortschritte gemacht und zeigen beeindruckende Fähigkeiten bei der Bearbeitung komplexer Bild-Text-Aufgaben. Trotz dieser Fortschritte generieren VLMs bei anspruchsvollen Schlussfolgerungsprozessen immer wieder fehlerhafte oder unzureichende Antworten. Die Fähigkeit zur Selbstkorrektur ist in solchen Szenarien von entscheidender Bedeutung, um die Zuverlässigkeit und Robustheit dieser Modelle zu gewährleisten.
Die Implementierung effektiver Selbstkorrekturmechanismen in VLMs stellt eine erhebliche Herausforderung dar. Bestehende Reinforcement Learning (RL)-Methoden, die oft zur Verbesserung der Schlussfolgerungsfähigkeiten eingesetzt werden, stoßen an ihre Grenzen. Der Hauptgrund hierfür ist die Seltenheit von effektiven Selbstkorrekturverhalten. Wenn ein Modell nur selten Gelegenheiten erhält, aus Fehlern zu lernen und diese zu korrigieren, sind die verfügbaren Lernsignale extrem spärlich. Dies führt dazu, dass RL-Algorithmen Schwierigkeiten haben, robuste Selbstkorrekturfähigkeiten zu entwickeln.
Frühere Ansätze versuchten, durch gezieltes Prompting oder Belohnungsformung eine Selbstreflexion zu fördern. Solche Methoden konnten zwar die Neigung zur Reflexion verstärken, doch blieben effektive Selbstkorrekturbeispiele während des Trainings weiterhin selten und die Lernsignale implizit. Dies begrenzte die Wirksamkeit dieser Ansätze erheblich.
Um diese Herausforderungen zu adressieren, wurde ein innovatives Framework namens Octopus (Correction-Specific Rollouts) vorgeschlagen. Octopus zielt darauf ab, die Selbstkorrektur in VLMs explizit und effizient zu erlernen, indem es die Dichte der Lernsignale erhöht und die Stabilität des RL-Trainings verbessert.
Ein zentraler Bestandteil von Octopus ist die Rollout-Augmentierung. Die Forscher beobachteten, dass die notwendigen Lernsignale für die Selbstkorrektur in Standard-RL-Rollouts bereits vorhanden sind. Für eine gegebene Eingabe koexistieren oft korrekte und inkorrekte, selbstgenerierte Schlussfolgerungstrajektorien. Durch die Paarung solcher Trajektorien können explizit dichte Selbstkorrekturbeispiele synthetisiert werden, ohne zusätzliche Rechenkosten für die Generierung neuer Rollouts.
Der Prozess der Augmentierung funktioniert, indem Rollouts in einem expliziten Selbstkorrekturformat generiert und dann deren Komponenten rekombiniert werden. Dies führt zu einer kombinatorischen Zunahme der Trainingsbeispiele und balanciert positive und negative Beispiele aus, was zu stabileren Policy-Updates beiträgt. Die generierten Paare können in vier Kategorien unterteilt werden: "falsch → korrekt" (positiv und am informativsten), "korrekt → korrekt" (positiv), "korrekt → falsch" (negativ) und "falsch → falsch" (negativ). Durch die Priorisierung von "falsch → korrekt"-Beispielen wird das Modell gezielt auf die Behebung von Fehlern trainiert.
Ein weiteres Problem beim Training von Selbstkorrektur ist der potenzielle Konflikt zwischen den Lernzielen für direkte Schlussfolgerung und Selbstkorrektur. Ein VLM sollte sowohl in der Lage sein, direkt korrekte Antworten zu generieren, als auch anfänglich inkorrekte Antworten zu korrigieren. Eine herkömmliche binäre Belohnung, die nur das Endergebnis bewertet, kann diese beiden Fähigkeiten miteinander verflechten und zu instabilem Training oder "Reward Hacking" führen, bei dem das Modell absichtlich einen falschen ersten Schritt macht, um eine Belohnung für die Korrektur zu erhalten.
Octopus löst dieses Problem durch eine zweistufige Trainingsstrategie mit Response-Masking:
- Stufe I: Lernen der reinen Selbstkorrektur. In dieser Phase wird die prä-Korrektur-Antwort (o1) als fester Kontext behandelt. Der Verlust wird für alle Token in o1 maskiert, und die Policy wird ausschließlich basierend auf der post-Korrektur-Antwort (o2) aktualisiert. Zusätzlich wird eine KL-Regularisierung auf o1 angewendet, um dessen Verteilung an ein Referenzmodell anzupassen. Dies ermöglicht dem Modell, effektive Selbstkorrektur zu erlernen, ohne durch widersprüchliche Signale beeinträchtigt zu werden.
- Stufe II: Ko-Entwicklung von Schlussfolgerung und Korrektur. In der zweiten Stufe werden sowohl die direkte Schlussfolgerung als auch die Selbstkorrektur gemeinsam verbessert. Hierbei wird o1 im Lernziel entmaskiert, jedoch selektiv. Dies bedeutet, dass o1 nur für Beispiele entmaskiert wird, bei denen die Korrektheit vor und nach der Korrektur konsistent ist (z.B. "korrekt → korrekt" oder "falsch → falsch"). Für Beispiele mit effektiver Selbstkorrektur ("falsch → korrekt") bleibt o1 maskiert, um zu vermeiden, dass das Modell einen falschen direkten Schritt verstärkt. Diese selektive Entmaskierung verhindert Gradientenkonflikte und ermöglicht eine harmonische Entwicklung beider Fähigkeiten.
Das auf diesem Framework basierende Modell, Octopus-8B, konnte in umfangreichen Experimenten über sieben Benchmarks (darunter MathVista, MathVerse, WeMath, HallusionBench, MMStar, MMMU und CharXiv) seine Überlegenheit demonstrieren. Es erreichte eine Spitzenleistung ("State-of-the-Art") unter vergleichbaren Open-Source-VLMs.
Im Vergleich zu den besten RLVR-Baselines (Reinforcement Learning with Verifiable Rewards) übertraf Octopus-8B diese um durchschnittlich 1,0 Punkte und benötigte dabei nur 0,72-mal so viel Trainingszeit pro Schritt. Dies unterstreicht nicht nur die Effektivität des Ansatzes bei der Verbesserung der Schlussfolgerungsfähigkeiten, sondern auch seine signifikante Trainingseffizienz.
Ablationsstudien bestätigten die Notwendigkeit jeder Komponente des Octopus-Frameworks. Die Rollout-Augmentierung erwies sich als entscheidend für die Leistungssteigerung, indem sie effektive Selbstkorrektursignale anreicherte und nicht nur die Anzahl der Trainingsbeispiele erhöhte. Auch die zweistufige Trainingsstrategie mit Response-Masking war wesentlich, um das Lernen der Selbstkorrektur zu entkoppeln und die Gesamtleistung zu verbessern.
Darüber hinaus zeigte Octopus-8B eine verbesserte Selbstkorrekturleistung und eine skalierbare Testzeit-Skalierung, was darauf hindeutet, dass die erlernte Selbstkorrektur eine verallgemeinerbare und skalierbare Fähigkeit ist. Der Leistungsvorsprung bei Pass@k-Metriken deutet darauf hin, dass die erlernte Selbstkorrektur die Schlussfolgerungsgrenzen des Modells erheblich erweitert.
Die Forschungsergebnisse zeigen, dass die explizite und effiziente Vermittlung von Selbstkorrekturfähigkeiten an Vision-Language Models durch Ansätze wie Octopus zu leistungsfähigeren, effizienteren und robusteren Modellen führt. Die Synthese strukturierter Supervision aus Policy-Samples, wie sie in Octopus realisiert wird, stellt einen vielversprechenden Weg dar, um die Leistungsfähigkeit von VLMs zu steigern und gleichzeitig den Trainingsaufwand zu reduzieren. Diese Erkenntnisse sind von großer Relevanz für die Entwicklung zukünftiger KI-Systeme, die in der Lage sind, komplexe Probleme autonom und zuverlässig zu lösen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen