KI für Ihr Unternehmen – Jetzt Demo buchen

VisPlay: Ein innovatives Framework zur autonomen Verbesserung von Vision-Language Modellen

Kategorien:
No items found.
Freigegeben:
November 21, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • VisPlay ist ein neues, sich selbst entwickelndes Reinforcement Learning (RL)-Framework für Vision-Language Models (VLMs).
    • Es ermöglicht VLMs, ihre visuellen Denkfähigkeiten autonom zu verbessern, ohne auf menschlich annotierte Daten angewiesen zu sein.
    • Das Framework nutzt ein einziges Basis-VLM, das in zwei Rollen agiert: einen "Image-Conditioned Questioner" und einen "Multimodal Reasoner".
    • Die Modelle werden gemeinsam mittels Group Relative Policy Optimization (GRPO) trainiert, wobei Belohnungen die Ausgewogenheit zwischen Fragenkomplexität und Antwortqualität fördern.
    • VisPlay erreicht signifikante Verbesserungen beim visuellen Denken, der kompositorischen Generalisierung und der Reduzierung von Halluzinationen über verschiedene Benchmarks hinweg.
    • Die iterative Ko-Evolution von Frage- und Antwortmechanismen treibt die kontinuierliche Leistungssteigerung voran.

    Die Weiterentwicklung von Künstlicher Intelligenz (KI) steht kontinuierlich im Fokus der Forschung. Insbesondere im Bereich der Vision-Language Models (VLMs), die Text- und Bildinformationen verknüpfen, stellt die Abhängigkeit von umfangreichen, manuell annotierten Datensätzen eine Herausforderung dar. Diese Datensätze sind nicht nur kostspielig und zeitaufwendig in der Erstellung, sondern begrenzen auch die Skalierbarkeit und die Fähigkeit der Modelle, sich über menschliche Vorgaben hinaus zu entwickeln. Ein neuer Ansatz, der diese Beschränkungen überwinden soll, ist das VisPlay-Framework, welches sich selbst entwickelnde VLMs aus unbeschrifteten Bilddaten ermöglicht.

    VisPlay: Ein Framework für autonome VLM-Verbesserung

    Das VisPlay-Framework stellt einen Fortschritt dar, indem es VLMs befähigt, ihre Denkfähigkeiten aus unbeschrifteten Bilddaten autonom zu verbessern. Es basiert auf einem sich selbst entwickelnden Reinforcement Learning (RL)-Ansatz, der nicht auf teure, menschlich annotierte Labels oder aufgabenspezifische Heuristiken zur Belohnungsdefinition angewiesen ist. Dies adressiert ein zentrales Problem bestehender RL-Methoden und eröffnet einen skalierbaren Weg zu sich selbst entwickelnder multimodaler Intelligenz.

    Die Dualität von Questioner und Reasoner

    Im Kern von VisPlay agiert ein einziges Basis-VLM in zwei interaktiven Rollen:

    • Image-Conditioned Questioner: Diese Komponente formuliert visuelle Fragen, die sowohl herausfordernd als auch beantwortbar sind, basierend auf einem gegebenen Bild.
    • Multimodal Reasoner: Diese Rolle generiert "Silver Responses", also vorläufige Antworten, basierend auf dem Bild und der vom Questioner gestellten Frage.

    Diese beiden Rollen werden gemeinsam mit der Group Relative Policy Optimization (GRPO) trainiert. GRPO integriert Belohnungen für Diversität und Schwierigkeit, um die Komplexität der generierten Fragen mit der Qualität der Silver Answers abzugleichen. Dieser Ansatz ermöglicht es dem VLM, seine visuellen Denkfähigkeiten durch die iterative Ko-Verbesserung von Questioner und Reasoner schrittweise zu steigern.

    Methodologie und Funktionsweise

    VisPlay operiert als ein geschlossenes Kreislaufsystem, das keine menschlich annotierten Daten benötigt. Der Prozess beginnt damit, dass der Questioner ein Bild als Eingabe erhält und eine visuelle Abfrage generiert. Anschließend empfängt der Reasoner sowohl das Bild als auch die generierte Abfrage, um eine Antwort zu erstellen. Beide Agenten, Questioner und Reasoner, werden von einem gemeinsamen vortrainierten Backbone initialisiert und entwickeln sich durch iterative Interaktionen gemeinsam weiter: Der Questioner lernt, anspruchsvollere Fragen zu generieren, während der Reasoner trainiert wird, diese zunehmend schwierigeren Fragen zu lösen.

    Training des Image-Conditioned Questioners

    Der Questioner wird als autoregressive Policy optimiert. Basierend auf einem Eingabebild generiert er eine Gruppe von Fragen. Die Belohnungen für diese Fragen setzen sich aus mehreren Komponenten zusammen:

    • Pseudo-Label-Generierung: Da keine Ground-Truth-Antworten verfügbar sind, approximiert ein Reasoner die Antworten. Die Konfidenz dieses Pseudo-Labels dient als Maß für die vom Modell wahrgenommene Schwierigkeit der Frage.
    • Unsicherheits-Belohnung: Diese Belohnung maximiert sich, wenn die Konfidenz des Reasoners bei etwa 0,5 liegt, was auf eine maximale Unsicherheit und somit auf eine herausfordernde Frage hindeutet.
    • Diversitäts-Regularisierung: Eine Redundanzstrafe verhindert, dass das Modell repetitive Fragen generiert, indem sie ähnliche Fragen anhand von Ähnlichkeitswerten (z.B. BLEU-Score) identifiziert.
    • Formatbeschränkung: Nur Fragen, die einem bestimmten Format entsprechen, erhalten eine Belohnung, um die strukturelle Validität sicherzustellen.

    Die finale Belohnung für den Questioner integriert diese Signale, um anspruchsvolle, aber nicht redundante Fragen zu fördern und gleichzeitig falsch formatierte Ausgaben zu filtern.

    Training des Multimodalen Reasoners

    Das Training des Multimodalen Reasoners baut auf den Fortschritten des Image-Conditioned Questioners auf. In jeder Iteration generiert der Questioner herausfordernde Beispiele, die als Trainingsziele dienen. Der Reasoner lernt dann von diesen automatisch kuratierten Beispielen und verbessert seine visuellen Denkfähigkeiten ohne externe Supervision.

    Ein kuratierter Datensatz wird erstellt, indem der Questioner Kandidatenfragen generiert und der Reasoner Pseudo-Labels und Konfidenzwerte liefert. Nur Fragen mit moderater Konfidenz (z.B. zwischen 0,25 und 0,75) werden für das Training des Reasoners ausgewählt. Dies stellt sicher, dass der Reasoner von informativen Beispielen lernt, die weder trivial noch zu instabil sind. Für jede Frage im kuratierten Datensatz generiert der Reasoner eine Gruppe von Antworten, die binär belohnt werden, je nachdem, ob sie dem Pseudo-Label entsprechen. Diese Belohnungen werden dann zur Aktualisierung des Reasoners mittels GRPO verwendet.

    Experimentelle Ergebnisse und Leistungsanalyse

    Die Wirksamkeit von VisPlay wurde anhand von drei aktuellen VLMs (Qwen2.5-VL-3B-Instruct, Qwen2.5-VL-7B-Instruct und MiMo-VL-7B-SFT) und einer Vielzahl von Benchmarks aus den Bereichen allgemeines visuelles Verständnis, multimodales mathematisches Denken und visuelle Halluzinationserkennung evaluiert.

    Konsistente Leistungssteigerung

    Die Ergebnisse zeigen eine konsistente Verbesserung der Gesamtleistung über alle getesteten Modelle hinweg. Beispielsweise steigerte das Qwen2.5-VL-3B-Modell seinen durchschnittlichen Score von 30,61 auf 47,27 nach drei Iterationen. Ähnliche Aufwärtstrends wurden bei den 7B-Modellen beobachtet, was die robuste Generalisierungsfähigkeit und Skalierbarkeit des Frameworks demonstriert.

    Verbesserungen in verschiedenen Aufgabenbereichen

    VisPlay führte zu Leistungssteigerungen in allen drei Hauptaufgabenbereichen. Insbesondere die Halluzinationserkennung verbesserte sich bei Qwen2.5-VL-3B von 32,81 auf 94,95, was auf eine signifikante Verbesserung der faktischen Verankerung hindeutet. Auch mathematische Denkaufgaben und das allgemeine visuelle Verständnis zeigten konsistente Verbesserungen, ohne die Genauigkeit bei anderen Aufgaben zu beeinträchtigen.

    Ko-Evolution als treibende Kraft

    Die iterative Ko-Evolution zwischen Questioner und Reasoner ist ein zentraler Erfolgsfaktor. Während der Questioner zunehmend vielfältigere und anspruchsvollere Anfragen generiert, lernt der Reasoner, diese komplexeren Denkschritte zu bewältigen. Dieser sich selbst verstärkende Kreislauf führt zu einer kontinuierlichen Verbesserung der Denkqualität, Generalisierung und Robustheit der Modelle.

    Vergleich mit menschlich annotierten Daten

    Ein Vergleich von VisPlay-Modellen mit solchen, die mittels Standard-GRPO auf menschlich kuratierten Daten trainiert wurden, zeigt, dass VisPlay eine vergleichbare durchschnittliche Genauigkeit erreicht. Obwohl es leichte Unterschiede in einzelnen Aufgabenkategorien gibt, belegt dies, dass der sich selbst entwickelnde Prozess Trainingssignale von ausreichender Qualität erzeugen kann, um die Fähigkeiten von Basis-VLMs zu verbessern. Dies unterstreicht das Potenzial von VisPlay als effektive und skalierbare Alternative, insbesondere in Szenarien, in denen menschliche Annotationen begrenzt oder nicht verfügbar sind.

    Entwicklung der Fragestellungsschwierigkeit

    Fallstudien zur Entwicklung der Fragestellungsschwierigkeit zeigen, dass die vom Questioner generierten Fragen über die Iterationen hinweg systematisch komplexer werden. Während die erste Iteration direkte Beobachtungsfragen beinhaltet, erfordern spätere Iterationen relationale, vergleichende und mehrschrittige Denkprozesse, einschließlich präziser Lokalisierung und kausaler Beziehungen. Diese Progression liefert immer anspruchsvollere Trainingssignale, die das Modell zur Anpassung und Verbesserung seiner Denkfähigkeiten anregen.

    Grenzen und Ausblick

    Trotz der vielversprechenden Ergebnisse weist die aktuelle Forschung auch Grenzen auf. Die Experimente wurden primär mit den Modellfamilien Qwen2.5-VL und MiMo-VL durchgeführt. Die Skalierbarkeit und Effektivität von VisPlay bei deutlich größeren VLMs (z.B. mit ≥ 10 Milliarden Parametern) bleibt eine offene Frage. Zudem fehlt dem Framework eine definitive Verifizierungsmethode für die selbst generierten Daten. Robuste, automatisierte Methoden zur Überprüfung der Datentreue und zur Vermeidung von Fehlerakkumulation sind wichtige Bereiche für zukünftige Untersuchungen.

    Fazit

    VisPlay stellt einen wichtigen Schritt in Richtung autonom lernender KI-Systeme dar. Durch die Ermöglichung einer sich selbst entwickelnden Verbesserung von Vision-Language Models aus unbeschrifteten Bilddaten bietet es einen skalierbaren und kosteneffizienten Ansatz. Die iterative Ko-Evolution von Questioner und Reasoner, gestützt durch GRPO, führt zu konsistenten Leistungssteigerungen in Bezug auf Denkfähigkeit, Generalisierung und Halluzinationsreduktion. Dieses Framework eröffnet neue Möglichkeiten für reichhaltigere multimodale Interaktionen und domänenübergreifende Adaptionen und weist den Weg zu intelligenten Systemen, die sich kontinuierlich und autonom weiterentwickeln können.

    Bibliography

    - He, Y., Huang, C., Li, Z., Huang, J., & Yang, Y. (2025). VisPlay: Self-Evolving Vision-Language Models from Images. arXiv preprint arXiv:2511.15661. - Wang, Q., Liu, B., Zhou, T., Shi, J., Lin, Y., Chen, Y., Li, H. H., Wan, K., & Zhao, W. (2025). Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play. arXiv preprint arXiv:2509.25541. - Wen, W., Zhi, T., Fan, K., Li, Y., Peng, X., Zhang, Y., Liao, Y., Li, J., & Zhang, L. (2025). Self-Evolving Vision-Language Models for Image Quality Assessment via Voting and Ranking. arXiv preprint arXiv:2509.25787. - Zhang, J., Jin, S., Cheng, C., Liu, Y., Lin, Y., Zhang, X., Zhang, Y., Jiang, F., Yin, G., Lin, W., & Yan, R. (2025). ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Models. arXiv preprint arXiv:2510.24285. - Qiao, R., Tan, Q., Yang, M., Dong, G., Yang, P., Lang, S., Wan, E., Wang, X., Xu, Y., Yang, L., Sun, C., Li, C., & Zhang, H. (2025). V-Thinker: Interactive Thinking with Images. arXiv preprint arXiv:2511.04460. - Cheng, K., Li, Y., Xu, F., Zhang, J., Zhou, H., & Liu, Y. (2025). Vision-Language Models Can Self-Improve Reasoning via Reflection. Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), 8876–8892.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen