Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung von Künstlicher Intelligenz (KI) prägt zunehmend die Interaktion zwischen Mensch und Maschine. Insbesondere im Bereich der Vision-Language Models (VLMs) werden stetig neue Fähigkeiten erforscht, die über die reine Bilderkennung hinausgehen. Eine aktuelle Forschungsarbeit mit dem Titel "PROGRESSLM: Towards Progress Reasoning in Vision-Language Models" befasst sich mit einer spezifischen, komplexen Herausforderung: der Fähigkeit von VLMs, den Fortschritt einer dynamischen Aufgabe zu verstehen und zu bewerten. Diese Thematik ist von erheblicher Bedeutung für die Entwicklung intelligenter Systeme, die in der Lage sind, komplexe Handlungsabläufe zu überwachen und zu antizipieren.
Moderne Vision-Language Models haben in den letzten Jahren beeindruckende Fortschritte bei der Analyse und Beschreibung visueller Inhalte erzielt. Sie können Objekte identifizieren, Szenen interpretieren und detaillierte Beschreibungen zu Bildern und Videos generieren. Diese Fähigkeiten basieren jedoch primär auf der Erkennung statischer oder kurzfristig dynamischer Merkmale. Die Inferenz des Fortschritts einer längerfristigen Aufgabe, wie beispielsweise bei robotischen Manipulationen oder der Ausführung komplexer Anweisungen, stellt eine wesentlich anspruchsvollere Anforderung dar. Hierbei geht es nicht nur darum, zu erkennen, was gerade sichtbar ist, sondern auch, wie weit eine Aufgabe bereits fortgeschritten ist und welche Schritte noch folgen müssen.
Die Schwierigkeit liegt in der Notwendigkeit, über lange Zeiträume hinweg dynamische Zusammenhänge zu erkennen und zu interpretieren. Dies erfordert ein tiefgreifendes Verständnis sequenzieller Prozesse und die Fähigkeit, aus partiellen Beobachtungen auf den Gesamtfortschritt zu schließen. Bislang fehlte es an spezialisierten Benchmarks und Ansätzen, um diese spezifische Fähigkeit von VLMs systematisch zu untersuchen und zu verbessern.
Um diese Lücke zu schließen, wurde Progress-Bench eingeführt. Dieser Benchmark ist darauf ausgelegt, die Fortschrittslogik in VLMs systematisch zu evaluieren. Er wurde mit Blick auf die folgenden drei Kernaspekte konzipiert:
Die primären Anwendungsfälle für die Evaluierung liegen im Bereich robotischer Manipulationsaufgaben, da diese eine klare, interpretierbare und zeitlich geordnete Abfolge von Fortschritten aufweisen. Jede Instanz in Progress-Bench besteht aus einer Aufgaben-Demonstration und einer einzelnen Beobachtung, zu der das Modell einen normalisierten Fortschrittswert vorhersagen muss.
Die Forschung hinter ProgressLM schlägt einen zweistufigen Ansatz für die Fortschrittslogik vor, der von menschlichem Denken inspiriert ist:
Der erste Ansatz nutzt trainingsfreies Prompting, bei dem die Modelle durch spezifische Anweisungen dazu angehalten werden, eine strukturierte Fortschrittslogik anzuwenden. Dies kann beispielsweise bedeuten, dass das Modell aufgefordert wird, zuerst ähnliche Episoden zu finden und dann eine "mentale Simulation" des Übergangs vom gefundenen Ankerpunkt zur aktuellen Beobachtung durchzuführen. Diese Methode zielt darauf ab, die bereits vorhandenen Fähigkeiten der VLMs durch geschickte Formulierung der Prompts zu nutzen, ohne dass ein separates Training erforderlich ist.
Der zweite Ansatz ist trainingsbasiert und nutzt ein speziell kuratiertes Dataset namens ProgressLM-45K. Dieses Dataset umfasst 45.000 Beispiele, die für das Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) optimiert sind. Ein daraus entwickeltes Modell, ProgressLM-3B, wurde trainiert, um eine konsistente Fortschrittseinschätzung zu ermöglichen. Ein zentrales Merkmal dieses Ansatzes ist die Fähigkeit des Modells, auch bei kleinen Modellskalen konsistente Verbesserungen zu erzielen, selbst wenn es auf einem Aufgabenset trainiert wurde, das sich vollständig von den Evaluierungsaufgaben unterscheidet. Dies deutet auf eine vielversprechende Generalisierungsfähigkeit hin.
Die Experimente, die an 14 verschiedenen VLMs durchgeführt wurden, offenbaren, dass die meisten Modelle noch nicht ausreichend für die Schätzung des Aufgabenfortschritts gerüstet sind. Sie zeigten insbesondere Empfindlichkeiten gegenüber:
Während das trainingsfreie Prompting, das eine strukturierte Fortschrittslogik erzwingt, nur begrenzte und modellabhängige Verbesserungen zeigte, erzielte das trainingsbasierte ProgressLM-3B Modell konsistente Fortschritte. Dies unterstreicht das Potenzial von gezieltem Training mit spezifischen Datensätzen, um komplexe kognitive Fähigkeiten wie die Fortschrittslogik in VLMs zu verankern.
Weitere Analysen der Fehlerbilder lieferten Einblicke, wann und warum die Fortschrittslogik erfolgreich ist oder fehlschlägt. Diese Erkenntnisse sind entscheidend für die zukünftige Entwicklung robusterer und intelligenterer VLMs, die in der Lage sind, dynamische Prozesse in komplexen Umgebungen zuverlässig zu interpretieren.
Die Forschung zu PROGRESSLM hat weitreichende Implikationen für B2B-Anwendungen im Bereich der KI. Die Fähigkeit von VLMs, den Fortschritt von Aufgaben präzise zu bewerten, kann in einer Vielzahl von Branchen transformative Auswirkungen haben:
Für Unternehmen, die auf KI-Lösungen setzen, bietet die Entwicklung von VLMs mit verbesserter Fortschrittslogik die Möglichkeit, Prozesse zu optimifizieren, die Effizienz zu steigern und neue Anwendungsfelder zu erschließen. Die Ergebnisse von PROGRESSLM zeigen, dass noch Forschungsbedarf besteht, aber auch, dass vielversprechende Wege zur Erreichung dieser anspruchsvollen Ziele existieren. Die Integration solcher Fähigkeiten in Plattformen wie Mindverse, die auf die Generierung und Analyse von Inhalten spezialisiert sind, könnte die Interaktion mit visuellen und sprachlichen Daten auf ein neues Niveau heben und den Nutzern präzisere und kontextsensitivere Ergebnisse liefern.
Die Arbeit an Progress-Bench und ProgressLM-3B legt den Grundstein für zukünftige Entwicklungen, die es VLMs ermöglichen, nicht nur die Welt zu sehen und zu beschreiben, sondern auch ihre dynamischen Prozesse tiefgehend zu verstehen und zu steuern. Dies ist ein entscheidender Schritt auf dem Weg zu einer umfassenderen und nützlicheren Künstlichen Intelligenz für die Geschäftswelt.
Bibliography: - Zhang, J., Qian, C., Sun, H., Lu, H., Wang, D., Xue, L., & Liu, H. (2026). PROGRESSLM: Towards Progress Reasoning in Vision-Language Models. arXiv preprint arXiv:2601.15224. - ProgressLM/ProgressLM. (n.d.). Teaching Vision-Language Models as Progress Estimators across Embodied Scenarios. GitHub. Retrieved from https://github.com/Raymond-Qiancx/ProgressLM - Hugging Face. (n.d.). Daily Papers. Retrieved from https://huggingface.co/papers - Qian, C. (n.d.). Homepage. Retrieved from http://qiancx.com/ - Paper Reading Club. (n.d.). PROGRESSLM: Towards Progress Reasoning in Vision-Language Models. Retrieved from http://paperreading.club/page?id=370468 - arXiv. (n.d.). Computer Science. Retrieved from https://web3.arxiv.org/list/cs/recent - Wang, S., Wang, Y., Lian, G., Wang, Y., Chen, M., Wang, K., ... & Fan, Z. (2025). Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation. arXiv preprint arXiv:2511.17097. - Jiang, Y., Lei, C., Ding, Y., Ehinger, K., & Lau, J. H. (2025). PROPA: Toward Process-level Optimization in Visual Reasoning via Reinforcement Learning. arXiv preprint arXiv:2511.10279. - Hu, X., Yang, K., Gong, Z., Ming, Q., Guo, Z., Tian, Y., ... & Yang, X. (2025). ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder. arXiv preprint arXiv:2510.18795. - Lin, C., Chi, C., Wu, J., Li, S., & Zhou, K. (2025). Learning to Think Fast and Slow for Visual Language Models. arXiv preprint arXiv:2511.16670.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen