Diffusion Models haben sich als leistungsstarke generative Technologie erwiesen und finden in verschiedenen Szenarien Anwendung. Die meisten existierenden grundlegenden Diffusionsmodelle sind in erster Linie für die textgesteuerte visuelle Erzeugung konzipiert und unterstützen keine multimodalen Bedingungen, die für viele visuelle Bearbeitungsaufgaben unerlässlich sind. Diese Einschränkung verhindert, dass diese grundlegenden Diffusionsmodelle als einheitliches Modell im Bereich der visuellen Erzeugung dienen können, wie es GPT-4 im Bereich der natürlichen Sprachverarbeitung tut. In dieser Arbeit stellen wir ACE vor, einen Allround-Ersteller und -Editor, der im Vergleich zu diesen Expertenmodellen in einem breiten Spektrum visueller Erstellungsaufgaben eine vergleichbare Leistung erzielt.
Um dieses Ziel zu erreichen, führen wir zunächst ein einheitliches Bedingungsformat ein, die sogenannte Long-context Condition Unit (LCU), und schlagen ein neuartiges Transformer-basiertes Diffusionsmodell vor, das LCU als Eingabe verwendet und auf ein gemeinsames Training für verschiedene Erstellungs- und Bearbeitungsaufgaben abzielt.
Darüber hinaus schlagen wir einen effizienten Ansatz zur Datenerfassung vor, um dem Problem des Fehlens verfügbarer Trainingsdaten zu begegnen. Dieser Ansatz beinhaltet die Erfassung von Bildpaaren mit synthesebasierten oder clusterbasierten Pipelines und die Bereitstellung dieser Paare mit genauen Textanweisungen mithilfe eines feinabgestimmten multimodalen großen Sprachmodells.
Um die Leistung unseres Modells umfassend zu bewerten, erstellen wir einen Benchmark von manuell annotierten Paardaten für eine Vielzahl von visuellen Erstellungsaufgaben. Die umfangreichen experimentellen Ergebnisse demonstrieren die Überlegenheit unseres Modells im Bereich der visuellen Erzeugung. Dank der All-in-One-Fähigkeiten unseres Modells können wir auf einfache Weise ein multimodales Chat-System erstellen, das auf jede interaktive Anfrage zur Bilderzeugung reagiert, wobei ein einziges Modell als Backend dient und die bei visuellen Agenten übliche umständliche Pipeline vermieden wird. Code und Modelle werden auf der Projektseite verfügbar sein: https://ali-vilab.github.io/ace-page/.
Wangkai930418. “Awesome-Diffusion-Categorized.” GitHub, https://github.com/wangkai930418/awesome-diffusion-categorized.
Akhaliq. “_Akhaliq.” X, https://x.com/_akhaliq?lang=de.
Han, Zhen, et al. “ACE: All-Round Creator and Editor Following Instructions via Diffusion Transformer.” arXiv.org, 30 Sept. 2023, https://arxiv.org/abs/2410.00086.
—. “Proceedings of the 38th International Conference on Machine Learning.” Proceedings of Machine Learning Research, https://icml.cc/virtual/2024/papers.html.
Chen, Junsong, et al. “PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis.” arXiv.org, 30 Sept. 2023, https://arxiv.org/abs/2310.00426.
Carlini, Nicholas. “A Complete List of All (arXiv) Adversarial Example Papers.” Nicholas Carlini, 15 June 2019, https://nicholas.carlini.com/writing/2019/all-adversarial-example-papers.html.
“Thirty-Seventh Conference on Neural Information Processing Systems.” Thirty-Seventh Conference on Neural Information Processing Systems, https://neurips.cc/virtual/2023/session/74070.
Yzhang2016. “Video-Generation-Survey/Editing-in-Diffusion.md at Main · Yzhang2016/Video-Generation-Survey.” GitHub, https://github.com/yzhang2016/video-generation-survey/blob/main/Editing-in-Diffusion.md.
“Teknologi Rekayasa Material Pertahanan.” Repository IDU, https://ftp.idu.ac.id/wp-content/uploads/ebook/tdg/TEKNOLOGI%20REKAYASA%20MATERIAL%20PERTAHANAN/Materials%20Science%20and%20Engineering%20An%20Introduction%20by%20William%20D.%20Callister,%20Jr.,%20David%20G.%20Rethwish%20(z-lib.org).pdf.
“Fourier Transform.” Wikipedia, Wikimedia Foundation, https://en.wikipedia.org/wiki/Fourier_transform.