Neuer Ansatz zur Verbesserung des räumlichen Verständnisses in der Bildgenerierung durch Reward-Modellierung

Kategorien:

No items found.

Freigegeben:

March 2, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick: Räumliches Verständnis in der Bildgenerierung durch Reward-Modellierung

Die Genauigkeit der Text-zu-Bild-Generierung bei komplexen räumlichen Beziehungen wird durch ein neues Reward-Modell signifikant verbessert.
Das SpatialReward-Dataset, bestehend aus über 80.000 präferenzierten Bildpaaren, ist die Grundlage für das Training des Modells.
Das entwickelte SpatialScore-Modell übertrifft führende proprietäre Modelle in der räumlichen Bewertung.
Durch Online Reinforcement Learning (RL) und eine Top-k-Filterstrategie wird die Effizienz und Stabilität des Trainings verbessert.
Die Methode führt zu konsistenten Verbesserungen des räumlichen Verständnisses in der Bildgenerierung über verschiedene Benchmarks hinweg.

Revolution in der Bildgenerierung: Wie SpatialScore das räumliche Verständnis neu definiert

Die jüngsten Fortschritte in der Text-zu-Bild-Generierung haben die visuelle Qualität und Kreativität erheblich gesteigert. Dennoch stehen aktuelle Modelle vor Herausforderungen, wenn es darum geht, komplexe räumliche Beziehungen in Prompts präzise umzusetzen. Dies führt oft zu suboptimalen Ergebnissen, die mehrere Versuche erfordern. In diesem Kontext präsentiert eine neue Forschungsarbeit, „Enhancing Spatial Understanding in Image Generation via Reward Modeling“, einen innovativen Ansatz zur Verbesserung des räumlichen Verständnisses von Bildgenerierungsmodellen mittels Reward-Modellierung.

Die Herausforderung komplexer räumlicher Beziehungen

Die Generierung von Bildern, die detaillierte räumliche Anordnungen von Objekten akkurat wiedergeben, bleibt eine anspruchsvolle Aufgabe für KI-Modelle. Bestehende Text-zu-Bild-Modelle generieren zwar visuell ansprechende Bilder, scheitern jedoch häufig an der präzisen Wiedergabe komplexer räumlicher Anweisungen, wie beispielsweise „ein roter Ball links von einem blauen Würfel auf einem grünen Tisch“. Diese Limitationen sind besonders relevant für B2B-Anwendungen, bei denen hohe Präzision und Verlässlichkeit der generierten Inhalte entscheidend sind, etwa im E-Commerce, Produktdesign oder in der Architekturvisualisierung.

Das SpatialReward-Dataset: Eine neue Grundlage für präzises Training

Um dieses Problem anzugehen, wurde das SpatialReward-Dataset entwickelt. Es umfasst über 80.000 Präferenzpaare, die speziell darauf ausgelegt sind, Modelle im räumlichen Verständnis zu trainieren. Jedes Paar besteht aus einem „perfekten“ Bild, das die räumlichen Beziehungen korrekt darstellt, und einem „gestörten“ Bild, das bewusste Abweichungen enthält. Die Erstellung dieses Datasets erfolgte durch den Einsatz fortschrittlicher Sprachmodelle wie GPT-5 zur Generierung komplexer Prompts und deren gezielter Modifikation, um räumliche Beziehungen zu verändern. Menschliche Experten haben anschließend alle Paare sorgfältig überprüft und validiert, um eine hohe Datenqualität zu gewährleisten.

SpatialScore: Ein spezialisiertes Reward-Modell

Basierend auf diesem umfangreichen Dataset wurde SpatialScore entwickelt – ein Reward-Modell, das speziell zur Bewertung der Genauigkeit räumlicher Beziehungen in der Bildgenerierung konzipiert ist. Dieses Modell übertrifft in seiner Fähigkeit zur räumlichen Bewertung selbst führende proprietäre Modelle. Es wurde durch Feinabstimmung eines Visual Language Models (VLM) wie Qwen2.5-VL-7B trainiert, wobei eine LoRA-Architektur (Low-Rank Adaptation) zum Einsatz kam. Die Trainingsmethode verwendet ein Bradley-Terry-Modell, um Präferenzen zu lernen und höhere Scores für präferierte Bilder zu vergeben.

Online Reinforcement Learning mit SpatialScore

Ein zentraler Bestandteil des Ansatzes ist die Integration von SpatialScore in ein Online Reinforcement Learning (RL)-Framework. Dies ermöglicht es dem Bildgenerierungsmodell, kontinuierlich aus dem Feedback von SpatialScore zu lernen und sein räumliches Verständnis iterativ zu verbessern. Hierfür wurde der GRPO-Algorithmus (Group Relative Policy Optimization) verwendet, der, um die Stabilität und Effizienz des Trainings zu gewährleisten, eine Euler-Maruyama-Schema zur Diskretisierung stochastischer Differentialgleichungen nutzt.

Eine innovative Top-k-Filterstrategie wurde implementiert, um Verzerrungen bei der Vorteilsbewertung (Advantage Estimation) zu mindern. Diese Strategie wählt die Top-k- und Bottom-k-Beispiele innerhalb einer Stichprobengruppe aus, um eine ausgewogene Verteilung von High- und Low-Reward-Kandidaten zu gewährleisten. Dies führt zu einer effizienteren und stabileren Optimierung des Modells.

Experimentelle Ergebnisse und Leistungsbewertung

Die Effektivität des SpatialScore-Modells wurde umfassend evaluiert:

Reward-Modell-Leistung: Auf einem speziell entwickelten Benchmark von 365 Präferenzpaaren erreichte SpatialScore (7B) eine paarweise Präferenzvorhersagegenauigkeit von 95,77%. Dies übertraf deutlich proprietäre Modelle wie GPT-5 und Gemini-2.5 Pro sowie bestehende Open-Source-VLMs, die bei komplexen räumlichen Beziehungen Schwächen zeigten.
Verbesserung der Bildgenerierung: Bei der Anwendung von SpatialScore als Reward-Modell im Online-RL-Training des Basismodells Flux.1-dev zeigte sich eine signifikante Verbesserung des räumlichen Verständnisses. Der SpatialScore verbesserte sich von 2,18 auf 7,81. Im Gegensatz dazu zeigte ein mit GenEval trainiertes Modell nur begrenzte Verbesserungen bei einfachen Prompts und verschlechterte sich bei komplexeren Anfragen.
Qualitative Ergebnisse: Die mit dem RL-Ansatz generierten Bilder zeigten eine präzisere Wiedergabe komplexer räumlicher Beziehungen. Modelle, die ohne SpatialScore trainiert wurden, wiesen häufig Fehler auf, wie fehlende Objekte oder visuell unplausible Artefakte.
Out-of-Domain-Evaluation: Auf dem DPG-Bench-Benchmark, der die Text-Bild-Ausrichtung bewertet, erzielte die mit SpatialScore verbesserte Methode konsistente und substanzielle Verbesserungen über alle Dimensionen hinweg. Die Gesamtleistung näherte sich proprietären Modellen wie GPT-Image-1 an.

Einschränkungen und zukünftige Perspektiven

Obwohl SpatialScore einen bedeutenden Fortschritt im räumlichen Verständnis von Bildgenerierungsmodellen darstellt, gibt es weiterhin Forschungsfelder. Insbesondere die Integration von räumlichem Verständnis mit zeitlicher Dynamik, wie sie in der Videogenerierung erforderlich ist, bleibt eine Herausforderung. Zukünftige Arbeiten könnten sich darauf konzentrieren, Reward-Modellierung zu erweitrieren, um auch die spatio-temporale Konsistenz in generierten Videos zu verbessern, was für Anwendungen in der Robotik und Simulation von großer Bedeutung wäre.

Die Einführung von SpatialScore und dem zugehörigen Dataset stellt einen wichtigen Meilenstein dar, um die Präzision und Zuverlässigkeit von KI-generierten Bildern zu erhöhen. Dies ist besonders für B2B-Anwendungen von Relevanz, wo die Qualität und Korrektheit der visuellen Inhalte direkten Einfluss auf Geschäftsprozesse und -ergebnisse haben.

Bibliographie

- Tang, Z., Feng, C., Deng, Y., Wu, J., Li, X., Wang, R., Chen, Y., & Zhou, D. (2026). Enhancing Spatial Understanding in Image Generation via Reward Modeling. arXiv preprint arXiv:2602.24233. - Tang, Z., Feng, C., Deng, Y., Wu, J., Li, X., Wang, R., Chen, Y., & Zhou, D. (2026). Enhancing Spatial Understanding in Image Generation via Reward Modeling. Hugging Face Daily Papers. - Liu, J., Liu, G., Liang, J., Li, Y., Liu, J., Wang, X., Wan, P., Zhang, D., & Ouyang, W. (2025). Flow-GRPO: Training Flow Matching Models via Online RL. arXiv preprint arXiv:2505.05470. - Xue, Z., Wu, J., Gao, Y., Kong, F., Zhu, L., Chen, M., Liu, Z., Liu, W., Guo, Q., Huang, W., et al. (2025). DanceGRPO: Unleashing GRPO on Visual Generation. arXiv preprint arXiv:2505.07818. - Hu, Y., Liu, B., Kasai, J., Wang, Y., Ostendorf, M., Krishna, R., & Smith, N. A. (2023). TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering. Proceedings of the IEEE/CVF International Conference on Computer Vision, 20406–20417. - Wu, X., Hao, Y., Sun, K., Chen, Y., Zhu, F., Zhao, R., & Li, H. (2023). Human Preference Score V2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis. arXiv preprint arXiv:2306.09341. - Ma, Y., Wu, X., Sun, K., & Li, H. (2025). HPSv3: Towards Wide-Spectrum Human Preference Score. Proceedings of the IEEE/CVF International Conference on Computer Vision, 15086–15095. - Wang, Y., Zang, Y., Li, H., Jin, C., & Wang, J. (2025). Unified Reward Model for Multimodal Understanding and Generation. arXiv preprint arXiv:2503.05236. - Kirstain, Y., Polyak, A., Singer, U., Matiana, S., Penna, J., & Levy, O. (2023). Pick-A-Pic: An Open Dataset of User Preferences for Text-to-Image Generation. Advances in Neural Information Processing Systems 36, 36652–36663. - Wu, C., Li, J., Zhou, J., Lin, J., Gao, K., Yan, K., Yin, S., Bai, S., Xu, X., Chen, Y., et al. (2025). Qwen-Image Technical Report. arXiv preprint arXiv:2508.02324. - Tang, Z., Feng, C., Deng, Y., Wu, J., Li, X., Wang, R., Chen, Y., & Zhou, D. (2026). Enhancing Spatial Understanding in Image Generation via Reward Modeling. Project page on GitHub. - Tang, Z., Feng, C., Deng, Y., Wu, J., Li, X., Wang, R., Chen, Y., & Zhou, D. (2026). Enhancing Spatial Understanding in Image Generation via Reward Modeling. Hugging Face: Papers.