Neuer Ansatz zur Verbesserung der Bildgenerierung durch agentische Suche

Kategorien:

No items found.

Freigegeben:

March 31, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Diffusion Large Language Models (dLLMs) zeigen Potenzial, die Effizienz von Bildgenerierungs-Agenten zu verbessern.
Konventionelle Bildgenerierungsmodelle sind durch statisches Wissen begrenzt und scheitern oft bei wissensintensiven Aufgaben.
Das Gen-Searcher-Framework ermöglicht "agentische Suche" für die Bildgenerierung durch mehrstufiges Reasoning und Informationsbeschaffung.
Zwei speziell entwickelte Datensätze, Gen-Searcher-SFT-10k und Gen-Searcher-RL-6k, unterstützen das Training des Modells.
KnowGen, ein neuer Benchmark, bewertet die Fähigkeit von Modellen, externe Wissensquellen für die Bildgenerierung zu nutzen.
Gen-Searcher nutzt Supervised Fine-Tuning (SFT) und agentisches Reinforcement Learning (RL) mit dualem Belohnungsfeedback.
Das Modell erzielt deutliche Leistungssteigerungen auf Benchmarks wie KnowGen und WISE.
Die Forschung zielt darauf ab, eine offene Grundlage für Suchagenten in der Bildgenerierung zu schaffen.

Die Landschaft der künstlichen Intelligenz, insbesondere im Bereich der generativen Modelle, entwickelt sich rasant. Neue Forschungsansätze erweitern kontinuierlich die Grenzen dessen, was maschinelle Systeme leisten können. Ein aktuelles Beispiel hierfür ist die Entwicklung von Frameworks, die agentische Suchstrategien in die Bildgenerierung integrieren. Diese Innovationen versprechen, die Qualität und Relevanz von KI-generierten Bildern in komplexen, wissensintensiven Szenarien erheblich zu verbessern.

Verbesserte Bildgenerierung durch agentische Suche

Aktuelle Modelle zur Bildgenerierung haben bemerkenswerte Fähigkeiten bei der Erstellung hochqualitativer, fotorealistischer Bilder demonstriert. Ihre inhärente Begrenzung liegt jedoch oft in einem "eingefrorenen" internen Wissen. Dies führt dazu, dass sie in realen Szenarien, die ein tiefes oder aktuelles Wissen erfordern, an ihre Grenzen stoßen können. Um diese Lücke zu schließen, wurde das Konzept des "Gen-Searcher" eingeführt. Hierbei handelt es sich um einen Ansatz, der darauf abzielt, einen sucherweiterten Bildgenerierungsagenten zu trainieren, der in der Lage ist, mehrstufiges Reasoning und gezielte Suche durchzuführen, um textuelles Wissen und Referenzbilder für eine fundierte Generierung zu sammeln.

Die Rolle von Diffusion Large Language Models (dLLMs)

Diffusion Large Language Models (dLLMs) bieten aufgrund ihres parallelen Dekodierungsmechanismus und flexiblen Generierungsparadigmas signifikante Effizienzvorteile. Diese Eigenschaften machen sie zu vielversprechenden Kandidaten für die Verbesserung von Suchagenten. Traditionelle Suchagenten, die unter dem ReAct-Paradigma arbeiten, führen Reasoning, Tool-Aufrufe und das Warten auf Tool-Antworten seriell aus, was zu erheblichen Latenzzeiten führen kann. dLLMs haben das Potenzial, diese Latenzprobleme zu mindern, indem sie die Ausführung von Prozessen parallelisieren.

Allerdings stehen dLLMs vor Herausforderungen: Ihre Reasoning- und Tool-Calling-Fähigkeiten sind oft schwächer als die von Autoregressive Models (ARMs), und sie haben Schwierigkeiten, spezifische Tool-Calling-Formate einzuhalten. Diese "Agent Ability Challenge" muss überwunden werden, um dLLMs effektiv als Backbones für Suchagenten einzusetzen.

Architektur und Trainingsstrategie von Gen-Searcher

Gen-Searcher begegnet den genannten Herausforderungen mit einem zweistufigen Post-Training-Pipeline und einem neuartigen Agentenparadigma namens P-ReAct (Parallel-Reasoning and Acting).

Zweistufige Post-Training-Pipeline

Die Trainingspipeline umfasst zwei Hauptphasen:

Agentic Supervised Fine-Tuning (Agentic SFT): In dieser Phase werden Modelle mit Trajektorien trainiert, die von leistungsfähigeren "Lehrer"-Modellen generiert wurden. Ziel ist es, dem Modell grundlegende Fähigkeiten zur Informationssuche und zum Befolgen von Tool-Calling-Formaten beizubringen. Hierbei werden nur Trajektorien mit korrekten Antworten, klaren Reasoning-Schritten und gültigen Tool-Anruf-Formaten verwendet. Ein spezieller "Agentic Noising"-Prozess und ein angepasstes "Agentic ELBO" (Evidence Lower Bound) stellen sicher, dass das Modell sich auf die relevanten Denk- und Tool-Calling-Bereiche konzentriert.
Agentic Variance-Reduced Preference Optimization (Agentic VRPO): Aufbauend auf dem SFT-Modell verfeinert diese Phase die Reasoning- und Retrieval-Performance. Dabei werden Trajektorien aus den Modell-Rollouts gefiltert und in Gewinner-/Verlierer-Paare unterteilt, basierend auf der Korrektheit der generierten Antworten. Dieses Vorgehen stärkt das Modell darin, korrekte Informationssuche zu betreiben.

P-ReAct Agentenparadigma

Das P-ReAct-Paradigma wurde entwickelt, um die Latenzprobleme herkömmlicher Suchagenten zu adressieren. Es nutzt die flexible Generierungsmechanismen von dLLMs, um das "Denken" und "Warten" zu parallelisieren. Dies wird durch zwei Schlüsselmodifikationen erreicht:

Special Token Pre-filling: Die Start- und End-Tokens für Tool-Aufrufe werden vorab an bestimmten Positionen eingefügt. Dies schafft ein strukturelles Gerüst im Rauschraum, das das Modell zwingt, gültigen Tool-Inhalt innerhalb dieses definierten Bereichs zu generieren.
Confidence Biasing: Während des Dekodierungsprozesses wird ein positiver Bias auf die Konfidenzwerte der Tokens innerhalb der Tool-Calling-Region angewendet. Da die Remasking-Strategie Tokens mit höheren Konfidenzwerten bevorzugt, wird die Dekodierung der Tool-Calling-Region priorisiert. Dies ermöglicht eine sofortige Parameterübergabe an die Suchmaschine, während das Modell gleichzeitig die Denkkomponente generieren kann.

Datensätze und Benchmarks

Für das Training und die Evaluierung von Gen-Searcher wurden spezifische Ressourcen entwickelt:

Gen-Searcher-SFT-10k und Gen-Searcher-RL-6k: Diese beiden qualitativ hochwertigen Datensätze enthalten eine Vielzahl von suchintensiven Prompts und entsprechenden Ground-Truth-Synthesebildern. Sie sind entscheidend für das Training des Modells in den SFT- und RL-Phasen.
KnowGen: Ein umfassender Benchmark, der explizit externes Wissen für die Bildgenerierung erfordert. Er bewertet Modelle anhand mehrerer Dimensionen und dient als Maßstab für die Fähigkeit von Gen-Searcher, wissensbasierte Generierungsaufgaben zu bewältigen.

Experimente zur Evaluierung von Gen-Searcher wurden auf vier Multi-Hop-QA-Benchmarks durchgeführt: HotpotQA, 2WikiMultiHopQA, Musique und Bamboogle. Die Ergebnisse zeigten, dass Gen-Searcher die Leistung von Qwen-Image auf KnowGen um etwa 16 Punkte und auf WISE um 15 Punkte verbesserte. Dies verdeutlicht die Fähigkeit des Modells, Reasoning- und Informationsbeschaffungsprozesse effektiv zu integrieren.

Leistungsanalyse und experimentelle Erkenntnisse

Die experimentellen Ergebnisse liefern wichtige Einblicke in die Effektivität von Gen-Searcher:

Verbesserungen bei Multi-Hop QA: Gen-Searcher übertrifft traditionelle RAG-Strategien (Retrieval-Augmented Generation) erheblich und erreicht vergleichbare Leistung wie ARM-basierte Suchagenten. Dies unterstreicht die Wirksamkeit der zweistufigen Post-Training-Strategie für dLLMs.
Generalisierungsfähigkeit: Trotz des Trainings mit einer begrenzten Anzahl von Beispielen zeigt Gen-Searcher eine starke Leistung auf In-Domain-Datensätzen und eine beeindruckende Generalisierungsfähigkeit auf Out-of-Domain-Datensätzen. Dies deutet darauf hin, dass das Modell gelernt hat, die Abfrage relevanter Dokumente mit seinem internen Reasoning-Prozess zu verbinden.
Inferenz-Effizienz durch P-ReAct: P-ReAct reduziert die Inferenzzeit im Vergleich zum ReAct-Paradigma um durchschnittlich etwa 15 %, ohne nennenswerte Leistungseinbußen. Dies beweist, dass P-ReAct die Eigenschaften von dLLMs effektiv nutzt, um die Dekodierung von Tool-Aufrufen zu priorisieren und die Suchagenten-Inferenz zu beschleunigen, indem Reasoning mit der Wartezeit auf Tool-Antworten überlappt wird.
Vorteile der ordnungsfreien Generierung von dLLMs: Im Gegensatz zu ARMs, die bei der Vorabgenerierung von Tool-Aufrufen oft Leistungsverluste erleiden, behält Gen-Searcher mit P-ReAct die Qualität der generierten Tool-Aufrufe bei. Dies liegt daran, dass dLLMs bidirektionale Aufmerksamkeit innerhalb der Blöcke nutzen und relevante Reasoning-Informationen bereits während der Tool-Calling-Dekodierung berücksichtigen können, selbst wenn die Denkregion noch nicht explizit dekodiert wurde.

Eine Fallstudie veranschaulicht, wie Gen-Searcher die Leistung verbessert, indem es korrekt formatierte Tool-Aufrufe generiert und die Dekodierung der Tool-Calling-Region priorisiert, während die Denkregion noch maskiert ist. Dies demonstriert die Fähigkeit des Modells, Anweisungen zu befolgen und Reasoning- sowie Informationssuchfähigkeiten zu verbessern.

Fazit

Die Entwicklung von Gen-Searcher stellt einen bedeutenden Schritt dar, um die Lücke zwischen Diffusion Large Language Models und praktischen Suchagenten zu schließen. Durch die Adressierung der "Agent Ability Challenge" und der "Latency Challenge" mittels einer maßgeschneiderten zweistufigen Post-Training-Pipeline (Agentic SFT und Agentic VRPO) und dem innovativen P-ReAct-Paradigma, ermöglicht Gen-Searcher dLLMs, während der Ausführung externer Tools "weiterzudenken". Die erzielten Ergebnisse, insbesondere die Beschleunigung der Inferenz um etwa 15 % bei vergleichbarer Leistung zu etablierten ARM-basierten Suchagenten, unterstreichen das Potenzial von dLLMs als effiziente Agenten-Backbones und die Wirksamkeit der Parallelisierung von agentischem Reasoning und Handeln.

Diese Forschung legt eine offene Grundlage für zukünftige Entwicklungen im Bereich der sucherweiterten Bildgenerierung und könnte weitreichende Auswirkungen auf Anwendungen haben, die eine präzise und wissensbasierte Bildsynthese erfordern.

Bibliography - Feng, K., Zhang, M., Chen, S., Lin, Y., Fan, K., Jiang, Y., Li, H., Zheng, D., Wang, C., & Yue, X. (2026). Gen-Searcher: Reinforcing Agentic Search for Image Generation. arXiv preprint arXiv:2603.28767. - tulerfeng. (2026). Gen-Searcher: Reinforcing Agentic Search for Image Generation. GitHub. - Gen-Searcher: Reinforcing Agentic Search for Image Generation. (2026). gen-searcher.vercel.app. - shuangchen (Chen). (n.d.). Hugging Face. - Computer Science | Cool Papers - Immersive Paper Discovery. (n.d.). papers.cool. - Deep Learning Monitor - Find new Arxiv papers, tweets and Reddit ... (n.d.). deeplearn.org. - Zhao, J., Xu, S., Sun, Z., Zhu, F., Ou, J., Shi, Y., Li, C., Xu, J., & Zhang, X. (2026). DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents. arXiv preprint arXiv:2602.07035. - Jiang, K., Wang, Y., Zhou, J., Li, P., Liu, Z., Xie, C.-W., Chen, Z., Zheng, Y., & Zhang, W. (2026). GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning. arXiv preprint arXiv:2601.18543. - Gensmo. (n.d.). gensmo.com.