KI für Ihr Unternehmen – Jetzt Demo buchen

Fortschrittsbewertung in Vision-Language Models: Neue Ansätze und Herausforderungen

Kategorien:
No items found.
Freigegeben:
January 23, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Die Fähigkeit von Vision-Language Models (VLMs), den Fortschritt einer Aufgabe zu bewerten, wird durch das Paper "PROGRESSLM: Towards Progress Reasoning in Vision-Language Models" adressiert.
    • Traditionelle VLMs sind primär auf die Beschreibung statischer visueller Inhalte ausgelegt, jedoch nicht auf die Inferenz dynamischer Prozessabläufe.
    • Ein neuer Benchmark namens Progress-Bench wurde entwickelt, um die Fortschrittslogik in VLMs systematisch zu evaluieren.
    • Das Forschungsteam schlägt einen zweistufigen Ansatz für die Fortschrittslogik vor, der sowohl auf trainingsfreiem Prompting als auch auf einem trainingsbasierten Modell (ProgressLM-3B) basiert.
    • Ergebnisse zeigen, dass die meisten aktuellen VLMs noch Defizite bei der Fortschrittseinschätzung aufweisen, insbesondere bei variierenden Demonstrationsmodalitäten und Blickwinkeln.
    • Das trainingsbasierte Modell ProgressLM-3B demonstriert konsistente Verbesserungen, selbst bei kleiner Modellgröße und auf Aufgaben, die sich von den Trainingsdaten unterscheiden.

    Die Weiterentwicklung von Künstlicher Intelligenz (KI) prägt zunehmend die Interaktion zwischen Mensch und Maschine. Insbesondere im Bereich der Vision-Language Models (VLMs) werden stetig neue Fähigkeiten erforscht, die über die reine Bilderkennung hinausgehen. Eine aktuelle Forschungsarbeit mit dem Titel "PROGRESSLM: Towards Progress Reasoning in Vision-Language Models" befasst sich mit einer spezifischen, komplexen Herausforderung: der Fähigkeit von VLMs, den Fortschritt einer dynamischen Aufgabe zu verstehen und zu bewerten. Diese Thematik ist von erheblicher Bedeutung für die Entwicklung intelligenter Systeme, die in der Lage sind, komplexe Handlungsabläufe zu überwachen und zu antizipieren.

    Die Herausforderung der Fortschrittslogik in VLMs

    Moderne Vision-Language Models haben in den letzten Jahren beeindruckende Fortschritte bei der Analyse und Beschreibung visueller Inhalte erzielt. Sie können Objekte identifizieren, Szenen interpretieren und detaillierte Beschreibungen zu Bildern und Videos generieren. Diese Fähigkeiten basieren jedoch primär auf der Erkennung statischer oder kurzfristig dynamischer Merkmale. Die Inferenz des Fortschritts einer längerfristigen Aufgabe, wie beispielsweise bei robotischen Manipulationen oder der Ausführung komplexer Anweisungen, stellt eine wesentlich anspruchsvollere Anforderung dar. Hierbei geht es nicht nur darum, zu erkennen, was gerade sichtbar ist, sondern auch, wie weit eine Aufgabe bereits fortgeschritten ist und welche Schritte noch folgen müssen.

    Die Schwierigkeit liegt in der Notwendigkeit, über lange Zeiträume hinweg dynamische Zusammenhänge zu erkennen und zu interpretieren. Dies erfordert ein tiefgreifendes Verständnis sequenzieller Prozesse und die Fähigkeit, aus partiellen Beobachtungen auf den Gesamtfortschritt zu schließen. Bislang fehlte es an spezialisierten Benchmarks und Ansätzen, um diese spezifische Fähigkeit von VLMs systematisch zu untersuchen und zu verbessern.

    Progress-Bench: Ein neuer Maßstab für die Fortschrittsbewertung

    Um diese Lücke zu schließen, wurde Progress-Bench eingeführt. Dieser Benchmark ist darauf ausgelegt, die Fortschrittslogik in VLMs systematisch zu evaluieren. Er wurde mit Blick auf die folgenden drei Kernaspekte konzipiert:

    • Demonstrationsmodalität: Der Benchmark berücksichtigt, ob die Demonstrationen einer Aufgabe visuell (als Abfolge von Zuständen) oder textbasiert (als Schritt-für-Schritt-Anweisungen) erfolgen. Dies ermöglicht eine Analyse der Modellleistung bei unterschiedlichen Eingabeformaten.
    • Blickwinkelkorrespondenz: Es wird untersucht, wie robust die Modelle gegenüber Änderungen des Blickwinkels zwischen Demonstration und Beobachtung sind. Dies ist entscheidend für Anwendungen in der realen Welt, wo identische Blickwinkel selten garantiert sind.
    • Beantwortbarkeit: Progress-Bench unterscheidet explizit zwischen Fällen, in denen eine Fortschrittseinschätzung eindeutig möglich ist, und solchen, in denen die Informationen zu unklar oder unzureichend sind, um eine verlässliche Aussage zu treffen. Dies testet die Fähigkeit der Modelle, Unsicherheiten zu erkennen und zu handhaben.

    Die primären Anwendungsfälle für die Evaluierung liegen im Bereich robotischer Manipulationsaufgaben, da diese eine klare, interpretierbare und zeitlich geordnete Abfolge von Fortschritten aufweisen. Jede Instanz in Progress-Bench besteht aus einer Aufgaben-Demonstration und einer einzelnen Beobachtung, zu der das Modell einen normalisierten Fortschrittswert vorhersagen muss.

    Zweistufige Fortschrittslogik: Trainingsfrei und Trainingsbasiert

    Die Forschung hinter ProgressLM schlägt einen zweistufigen Ansatz für die Fortschrittslogik vor, der von menschlichem Denken inspiriert ist:

    Trainingsfreies Prompting

    Der erste Ansatz nutzt trainingsfreies Prompting, bei dem die Modelle durch spezifische Anweisungen dazu angehalten werden, eine strukturierte Fortschrittslogik anzuwenden. Dies kann beispielsweise bedeuten, dass das Modell aufgefordert wird, zuerst ähnliche Episoden zu finden und dann eine "mentale Simulation" des Übergangs vom gefundenen Ankerpunkt zur aktuellen Beobachtung durchzuführen. Diese Methode zielt darauf ab, die bereits vorhandenen Fähigkeiten der VLMs durch geschickte Formulierung der Prompts zu nutzen, ohne dass ein separates Training erforderlich ist.

    Trainingsbasierter Ansatz mit ProgressLM-3B

    Der zweite Ansatz ist trainingsbasiert und nutzt ein speziell kuratiertes Dataset namens ProgressLM-45K. Dieses Dataset umfasst 45.000 Beispiele, die für das Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) optimiert sind. Ein daraus entwickeltes Modell, ProgressLM-3B, wurde trainiert, um eine konsistente Fortschrittseinschätzung zu ermöglichen. Ein zentrales Merkmal dieses Ansatzes ist die Fähigkeit des Modells, auch bei kleinen Modellskalen konsistente Verbesserungen zu erzielen, selbst wenn es auf einem Aufgabenset trainiert wurde, das sich vollständig von den Evaluierungsaufgaben unterscheidet. Dies deutet auf eine vielversprechende Generalisierungsfähigkeit hin.

    Ergebnisse und Implikationen

    Die Experimente, die an 14 verschiedenen VLMs durchgeführt wurden, offenbaren, dass die meisten Modelle noch nicht ausreichend für die Schätzung des Aufgabenfortschritts gerüstet sind. Sie zeigten insbesondere Empfindlichkeiten gegenüber:

    • Demonstrationsmodalität: Die Leistung variierte stark, je nachdem, ob eine Aufgabe visuell oder textbasiert demonstriert wurde.
    • Blickwinkeländerungen: Eine Änderung des Kamerablickwinkels zwischen Demonstration und Beobachtung führte oft zu einer signifikanten Verschlechterung der Fortschrittseinschätzung.
    • Umgang mit unbeantwortbaren Fällen: Viele Modelle hatten Schwierigkeiten, Situationen zu erkennen, in denen eine verlässliche Fortschrittseinschätzung aufgrund fehlender oder ambiger Informationen nicht möglich war.

    Während das trainingsfreie Prompting, das eine strukturierte Fortschrittslogik erzwingt, nur begrenzte und modellabhängige Verbesserungen zeigte, erzielte das trainingsbasierte ProgressLM-3B Modell konsistente Fortschritte. Dies unterstreicht das Potenzial von gezieltem Training mit spezifischen Datensätzen, um komplexe kognitive Fähigkeiten wie die Fortschrittslogik in VLMs zu verankern.

    Weitere Analysen der Fehlerbilder lieferten Einblicke, wann und warum die Fortschrittslogik erfolgreich ist oder fehlschlägt. Diese Erkenntnisse sind entscheidend für die zukünftige Entwicklung robusterer und intelligenterer VLMs, die in der Lage sind, dynamische Prozesse in komplexen Umgebungen zuverlässig zu interpretieren.

    Ausblick und Bedeutung für B2B-Anwendungen

    Die Forschung zu PROGRESSLM hat weitreichende Implikationen für B2B-Anwendungen im Bereich der KI. Die Fähigkeit von VLMs, den Fortschritt von Aufgaben präzise zu bewerten, kann in einer Vielzahl von Branchen transformative Auswirkungen haben:

    • Automatisierung und Robotik: Roboter könnten Aufgaben effizienter ausführen, indem sie ihren eigenen Fortschritt und den von menschlichen Mitarbeitern besser einschätzen. Dies ermöglicht eine intelligentere Kollaboration und Fehlererkennung.
    • Qualitätssicherung: In Produktionsumgebungen könnten VLMs den Fertigungsfortschritt überwachen und Abweichungen von Soll-Zuständen frühzeitig erkennen, was zu einer verbesserten Produktqualität und reduzierten Ausschussraten führt.
    • Logistik und Supply Chain Management: Die Überwachung von Lieferketten oder Lagerprozessen könnte durch KI-gestützte Fortschrittsanalysen optimiert werden, um Engpässe oder Verzögerungen proaktiv zu managen.
    • Sicherheit und Überwachung: In Überwachungssystemen könnten VLMs ungewöhnliche Aktivitäten oder Fortschritte bei kritischen Prozessen erkennen, was die Reaktionszeiten in Sicherheitsszenarien verbessert.
    • Bildung und Training: Interaktive Lernsysteme könnten den Fortschritt von Lernenden in praktischen Aufgaben besser bewerten und personalisiertes Feedback geben.

    Für Unternehmen, die auf KI-Lösungen setzen, bietet die Entwicklung von VLMs mit verbesserter Fortschrittslogik die Möglichkeit, Prozesse zu optimifizieren, die Effizienz zu steigern und neue Anwendungsfelder zu erschließen. Die Ergebnisse von PROGRESSLM zeigen, dass noch Forschungsbedarf besteht, aber auch, dass vielversprechende Wege zur Erreichung dieser anspruchsvollen Ziele existieren. Die Integration solcher Fähigkeiten in Plattformen wie Mindverse, die auf die Generierung und Analyse von Inhalten spezialisiert sind, könnte die Interaktion mit visuellen und sprachlichen Daten auf ein neues Niveau heben und den Nutzern präzisere und kontextsensitivere Ergebnisse liefern.

    Die Arbeit an Progress-Bench und ProgressLM-3B legt den Grundstein für zukünftige Entwicklungen, die es VLMs ermöglichen, nicht nur die Welt zu sehen und zu beschreiben, sondern auch ihre dynamischen Prozesse tiefgehend zu verstehen und zu steuern. Dies ist ein entscheidender Schritt auf dem Weg zu einer umfassenderen und nützlicheren Künstlichen Intelligenz für die Geschäftswelt.

    Bibliography: - Zhang, J., Qian, C., Sun, H., Lu, H., Wang, D., Xue, L., & Liu, H. (2026). PROGRESSLM: Towards Progress Reasoning in Vision-Language Models. arXiv preprint arXiv:2601.15224. - ProgressLM/ProgressLM. (n.d.). Teaching Vision-Language Models as Progress Estimators across Embodied Scenarios. GitHub. Retrieved from https://github.com/Raymond-Qiancx/ProgressLM - Hugging Face. (n.d.). Daily Papers. Retrieved from https://huggingface.co/papers - Qian, C. (n.d.). Homepage. Retrieved from http://qiancx.com/ - Paper Reading Club. (n.d.). PROGRESSLM: Towards Progress Reasoning in Vision-Language Models. Retrieved from http://paperreading.club/page?id=370468 - arXiv. (n.d.). Computer Science. Retrieved from https://web3.arxiv.org/list/cs/recent - Wang, S., Wang, Y., Lian, G., Wang, Y., Chen, M., Wang, K., ... & Fan, Z. (2025). Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation. arXiv preprint arXiv:2511.17097. - Jiang, Y., Lei, C., Ding, Y., Ehinger, K., & Lau, J. H. (2025). PROPA: Toward Process-level Optimization in Visual Reasoning via Reinforcement Learning. arXiv preprint arXiv:2511.10279. - Hu, X., Yang, K., Gong, Z., Ming, Q., Guo, Z., Tian, Y., ... & Yang, X. (2025). ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder. arXiv preprint arXiv:2510.18795. - Lin, C., Chi, C., Wu, J., Li, S., & Zhou, K. (2025). Learning to Think Fast and Slow for Visual Language Models. arXiv preprint arXiv:2511.16670.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen