Das Wichtigste in Kürze
- SpargeAttention2 ist eine neue Methode für trainierbare, dünnbesetzte (sparse) Aufmerksamkeitsmechanismen in Videodiffusionsmodellen.
- Die Methode erreicht eine Aufmerksamkeitsdünnheit von 95 % und eine Beschleunigung der Aufmerksamkeitsberechnung um das 16,2-fache.
- Dabei wird die Qualität der Videogenerierung beibehalten oder sogar übertroffen, im Vergleich zu früheren Ansätzen.
- SpargeAttention2 nutzt eine hybride Top-k+Top-p Maskierung und eine destillationsinspirierte Feinabstimmung.
- Diese Innovationen adressieren die Herausforderungen der Maskierungsfehler und des Datenverteilungs-Mismatchs bei der Feinabstimmung.
Die Effizienz von Videodiffusionsmodellen stellt aufgrund der langen Sequenzlängen und der quadratischen Zeitkomplexität von Aufmerksamkeitsoperationen eine signifikante Herausforderung dar. Dünnbesetzte Aufmerksamkeitsmechanismen (Sparse Attention) sind ein vielversprechender Ansatz, um diese Modelle zu beschleunigen. Aktuelle Forschungsergebnisse, insbesondere die Entwicklung von SpargeAttention2, zeigen hierbei bemerkenswerte Fortschritte, die für Unternehmen im Bereich der KI-gestützten Content-Erstellung von grosser Relevanz sind.
Herausforderungen in der Sparse Attention
Die Implementierung dünnbesetzter Aufmerksamkeitsmechanismen in Diffusionsmodellen, insbesondere für Videoanwendungen, ist komplex. Es gibt zwei zentrale Probleme, die die Effizienz und Qualität beeinflussen:
Maskierungsfehler bei hoher Dünnheit
Bei sehr hoher Aufmerksamkeitsdünnheit (z. B. über 90 %) können herkömmliche Maskierungsregeln wie Top-k und Top-p wichtige Aufmerksamkeitsberechnungen übersehen. Dies liegt daran, dass Top-k bei einer gleichmässigen Verteilung der Wahrscheinlichkeiten möglicherweise zu wenige relevante Token beibehält, während Top-p bei stark asymmetrischen Verteilungen möglicherweise nur "Attention Sinks" auswählt und andere informative Token verwirft.
Grenzen der Feinabstimmung mit Diffusionsverlust
Die Feinabstimmung dünnbesetzter Aufmerksamkeitsmechanismen unter Verwendung des Standard-Diffusionsverlusts kann problematisch sein, insbesondere wenn die Feinabstimmungsdaten nicht der Verteilung der ursprünglichen Vortrainingsdaten entsprechen. Dies kann zu einer Verschlechterung der Generierungsqualität führen, selbst bei Verwendung vollständiger Aufmerksamkeit, da das Modell gezwungen wird, sich an die möglicherweise minderwertigere Feinabstimmungsdatenverteilung anzupassen.
SpargeAttention2: Ein innovativer Ansatz
SpargeAttention2 wurde entwickelt, um diese Herausforderungen zu adressieren und eine hohe Aufmerksamkeitsdünnheit ohne Qualitätsverlust zu erreichen. Die Methode basiert auf drei Kernkomponenten:
Hybride Top-k+Top-p Maskierung
Um die Nachteile von reinen Top-k- oder Top-p-Maskierungen zu überwinden, integriert SpargeAttention2 eine hybride Maskierungsregel. Diese kombiniert Top-k und Top-p, um eine robustere Maskierung bei hoher Dünnheit zu gewährleisten. Für Zeilen mit gleichmässiger Wahrscheinlichkeitsverteilung hilft Top-p, das Versagen von Top-k zu verhindern, indem es sicherstellt, dass ausreichend nützliche Token beibehalten werden. Bei stark asymmetrischen Verteilungen verhindert Top-k, dass der kumulative Schwellenwert von Top-p zu früh durch unwesentliche Token erreicht wird, wodurch eine effektivere Auswahl gewährleistet wird.
Effiziente Implementierung
Die Methode umfasst eine effiziente Implementierung des trainierbaren dünnbesetzten Aufmerksamkeitsmechanismus. Dies ermöglicht eine praktische Beschleunigung der Berechnungen, indem unnötige Matrixmultiplikationen und Softmax-Berechnungen übersprungen werden.
Destillationsinspirierte Feinabstimmung (Velocity Distillation Loss)
Um dem Problem des Datenverteilungs-Mismatchs zu begegnen, führt SpargeAttention2 einen geschwindigkeitsbasierten Destillationsverlust ein. Anstatt das Modell direkt auf die Feinabstimmungsdaten anzupassen, wird es darauf trainiert, das Diffusionsverhalten eines eingefrorenen Full-Attention-Referenzmodells nachzuahmen. Dies stellt sicher, dass die ursprüngliche Generierungsqualität erhalten bleibt, selbst wenn die Feinabstimmungsdatenverteilung von der Vortrainingsverteilung abweicht.
Leistung und Effizienz
Experimente mit Videodiffusionsmodellen, insbesondere den Wan2.1-Modellen (1.3B bei 480p und 14B bei 720p), haben die Wirksamkeit von SpargeAttention2 demonstriert. Die Methode erreichte eine Aufmerksamkeitsdünnheit von 95 % und eine Beschleunigung der Aufmerksamkeitsberechnung um das 16,2-fache. Die End-to-End-Videogenerierungszeit konnte um das bis zu 4,7-fache reduziert werden, während die Generierungsqualität im Vergleich zu Full Attention beibehalten oder sogar übertroffen wurde. Im Vergleich zu anderen sparsamen Aufmerksamkeitsmethoden zeigte SpargeAttention2 eine überlegene Leistung in Bezug auf Bildqualität, Konsistenz und ästhetische Qualität.
Beispielsweise konnte SpargeAttention2 bei Wan2.1-1.3B (480p) die Aufmerksamkeitslatenz von 97 Sekunden auf 6 Sekunden reduzieren und war damit 1,8-mal schneller als SLA und mehr als 4-mal schneller als VSA und VMoBA, bei gleichzeitig höherer Generierungsqualität. Die End-to-End-Generierungszeit sank von 159 Sekunden auf 68 Sekunden.
Implikationen für B2B-Anwendungen
Für Unternehmen, die im Bereich der KI-gestützten Content-Erstellung tätig sind, wie die Mindverse GmbH, bietet SpargeAttention2 erhebliche Vorteile:
- Beschleunigte Videogenerierung: Die drastische Reduzierung der Berechnungszeiten ermöglicht eine schnellere Erstellung von hochauflösenden Videos, was in Produktionsumgebungen von grossem Wert ist.
- Ressourceneffizienz: Die hohe Aufmerksamkeitsdünnheit führt zu einem geringeren Rechenaufwand, was die Betriebskosten senken und den Einsatz von KI-Modellen auf breiterer Hardware ermöglichen kann.
- Qualitätserhalt: Die Fähigkeit, die Generierungsqualität trotz hoher Dünnheit zu bewahren, ist entscheidend für professionelle Anwendungen, bei denen visuelle Exzellenz erwartet wird.
- Robustheit bei der Feinabstimmung: Der destillationsbasierte Feinabstimmungsansatz minimiert die Risiken, die mit einem Mismatch der Trainingsdaten verbunden sind, und erleichtert die Anpassung an spezifische Anwendungsfälle.
Fazit
SpargeAttention2 stellt einen wichtigen Fortschritt in der Optimierung von Videodiffusionsmodellen dar. Durch die Kombination einer hybriden Maskierungsstrategie und einer innovativen Feinabstimmungsmethode überwindet es zentrale Einschränkungen früherer Ansätze. Die erzielten Leistungs- und Effizienzsteigerungen sind vielversprechend und unterstreichen das Potenzial für eine breitere Anwendung in der KI-gestützten Videoproduktion und anderen datenintensiven B2B-Anwendungen.
Bibliographie
- Bai, S., Cai, Y., Chen, R., Chen, K., Chen, X., Cheng, Z., Deng, L., Ding, W., Gao, C., Ge, C., et al. (2025). Qwen3-vl technical report. arXiv preprint arXiv:2511.21631.
- Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., et al. (2023). Stable video diffusion: scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127.
- Cai, S., Yang, C., Zhang, L., Guo, Y., Xiao, J., Yang, Z., Xu, Y., Yang, Z., Yuille, A., Guibas, L., et al. (2025). Mixture of contexts for long video generation. arXiv preprint arXiv:2508.21058.
- Chen, P., Zeng, X., Zhao, M., Ye, P., Shen, M., Cheng, W., Yu, G., and Chen, T. (2025a). Sparse-vdit: unleashing the power of sparse attention to accelerate video diffusion transformers. arXiv preprint arXiv:2506.03065.
- Chen, R., Mills, K. G., Jiang, L., Gao, C., and Niu, D. (2025b). Re-ttention: ultra sparse visual generation via attention statistical reshape. In The Thirty-ninth Annual Conference on Neural Information Processing Systems.
- Dao, T. (2023). Flashattention-2: faster attention with better parallelism and work partitioning. arXiv preprint arXiv:2307.08691.
- Desai, A., Agrawal, K. K., Yang, S., Cuadron, A., Schroeder, L. G., Zaharia, M., Gonzalez, J. E., and Stoica, I. (2025). VAttention: verified sparse attention. arXiv preprint arXiv:2510.05688.
- Ding, J., Ma, S., Dong, L., Zhang, X., Huang, S., Wang, W., Zheng, N., and Wei, F. (2023). Longnet: scaling transformers to 1,000,000,000 tokens. arXiv preprint arXiv:2307.02486.
- Gao, Y., Zeng, Z., Du, D., Cao, S., Zhou, P., Qi, J., Lai, J., So, H. K., Cao, T., Yang, F., et al. (2024). Seerattention: learning intrinsic sparse attention in your llms. arXiv preprint arXiv:2410.13276.
- Gu, X., Pang, T., Du, C., Liu, Q., Zhang, F., Du, C., Wang, Y., and Lin, M. (2024). When attention sink emerges in language models: an empirical view. arXiv preprint arXiv:2410.10781.
- Hinton, G., Vinyals, O., and Dean, J. (2015). Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531.
- Ho, J., Jain, A., and Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems 33, pp. 6840–6851.
- Hu, Y., Huang, W., Liang, Z., Chen, C., Zhang, J., Zhu, J., and Chen, J. (2025). Identifying sensitive weights via post-quantization integral. arXiv preprint arXiv:2503.01901.
- Hu, Y., Singh, H., Maheswaran, M., Xi, H., Hooper, C., Zhang, J., Tomar, A., Mahoney, M. W., Min, S., Farajtabar, M., et al. (2026). Residual context diffusion language models. arXiv preprint arXiv:2601.22954.
- Huang, Z., He, Y., Yu, J., Zhang, F., Si, C., Jiang, Y., Zhang, Y., Wu, T., Jin, Q., Chanpaisit, N., et al. (2024). Vbench: comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 21807–21818.
- Jiang, H., Li, Y., Zhang, C., Wu, Q., Luo, X., Ahn, S., Han, Z., Abdi, A. H., Li, D., Lin, C., et al. (2024). Minference 1.0: accelerating pre-filling for long-context llms via dynamic sparse attention. Advances in Neural Information Processing Systems 37, pp. 52481–52515.
- Jiang, Y., Fu, F., Zhao, W., Rabanser, S., Lane, N. D., and Yuan, B. (2025). Cascadia: a cascade serving system for large language models. arXiv preprint arXiv:2506.04203.
- Jiang, Y., Li, W., Peng, Y., Zhang, J., Yan, R., Chen, J., Han, X., Fu, F., and Yuan, B. (2026). HexGen-3: a fully disaggregated llm serving framework with fine-grained heterogeneous resource autoscaling.
- Kong, W., Tian, Q., Zhang, Z., Min, R., Dai, Z., Zhou, J., Xiong, J., Li, X., Wu, B., Zhang, J., et al. (2024). Hunyuanvideo: a systematic framework for large video generative models. arXiv preprint arXiv:2412.03603.
- Lai, X., Lu, J., Luo, Y., Ma, Y., and Zhou, X. (2025). Flexprefill: a context-aware sparse attention mechanism for efficient long-sequence inference. arXiv preprint arXiv:2502.20766.
- Li, X., Li, M., Cai, T., Xi, H., Yang, S., Lin, Y., Zhang, L., Yang, S., Hu, J., Peng, K., et al. (2025). Radial attention: o (nlog n) sparse attention with energy decay for long video generation. arXiv preprint arXiv:2506.19852.
- Lin, C., Tang, J., Yang, S., Wang, H., Tang, T., Tian, B., Stoica, I., Han, S., and Gao, M. (2025). Twilight: adaptive attention sparsity with hierarchical top-pp pruning. arXiv preprint arXiv:2502.02770.
- Lipman, Y., Chen, R. T., Ben-Hamu, H., Nickel, M., and Le, M. (2022). Flow matching for generative modeling. arXiv preprint arXiv:2210.02747.
- Liu, A., Mei, A., Lin, B., Xue, B., Wang, B., Xu, B., Wu, B., Zhang, B., Lin, C., Dong, C., et al. (2025a). Deepseek-v3. 2: pushing the frontier of open large language models. arXiv preprint arXiv:2512.02556.
- Liu, A., Zhang, Z., Li, Z., Bai, X., Han, Y., Tang, J., Xing, Y., Wu, J., Yang, M., Chen, W., et al. (2025b). FPSAttention: training-aware fp8 and sparsity co-design for fast video diffusion. arXiv preprint arXiv:2506.04648.
- Liu, X., Gong, C., and Liu, Q. (2022). Flow straight and fast: learning to generate and transfer data with rectified flow. arXiv preprint arXiv:2209.03003.
- Liu, Y., Cun, X., Liu, X., Wang, X., Zhang, Y., Chen, H., Liu, Y., Zeng, T., Chan, R., and Shan, Y. (2024). Evalcrafter: benchmarking and evaluating large video generation models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
- Lu, E., Jiang, Z., Liu, J., Du, Y., Jiang, T., Hong, C., Liu, S., He, W., Yuan, E., Wang, Y., et al. (2025). Moba: mixture of block attention for long-context llms. arXiv preprint arXiv:2502.13189.
- Ribar, L., Chelombiev, I., Hudlass-Galley, L., Blake, C., Luschi, C., and Orr, D. (2023). Sparq attention: bandwidth-efficient llm inference.
- Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., and Ganguli, S. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pp. 2256–2265.
- Song, Y. and Ermon, S. (2019). Generative modeling by estimating gradients of the data distribution. Advances in neural information processing systems 32.
- Song, Y., Sohl-Dickstein, J., Kingma, D. P., Kumar, A., Ermon, S., and Poole, B. (2020). Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456.
- Sun, W., Tu, R., Ding, Y., Jin, Z., Liao, J., Liu, S., and Tao, D. (2025). VORTA: efficient video diffusion via routing sparse attention. arXiv preprint arXiv:2505.18809.
- Tan, X., Chen, Y., Jiang, Y., Chen, X., Yan, K., Duan, N., Zhu, Y., Jiang, D., and Xu, H. (2025). Dsv: exploiting dynamic sparsity to accelerate large-scale video dit training. arXiv preprint arXiv:2502.07590.
- Tang, J., Zhao, Y., Zhu, K., Xiao, G., Kasikci, B., and Han, S. (2024). Quest: query-aware sparsity for efficient long-context llm inference. arXiv preprint arXiv:2406.10774.
- Wan, T., Wang, A., Ai, B., Wen, B., Mao, C., Xie, C., Chen, D., Yu, F., Zhao, H., Yang, J., et al. (2025). Wan: open and advanced large-scale video generative models. arXiv preprint arXiv:2503.20314.
- Wu, J., Hou, L., Yang, H., Tao, X., Tian, Y., Wan, P., Zhang, D., and Tong, Y. (2025). VMoBA: mixture-of-block attention for video diffusion models. arXiv preprint arXiv:2506.23858.
- Xi, H., Yang, S., Zhao, Y., Li, M., Cai, H., Li, X., Lin, Y., Zhang, Z., Zhang, J., Li, X., et al. (2026). Quant videogen: auto-regressive long video generation via 2-bit kv-cache quantization. arXiv preprint arXiv:2602.02958.
- Xi, H., Yang, S., Zhao, Y., Xu, C., Li, M., Li, X., Lin, Y., Cai, H., Zhang, J., Li, D., et al. (2025). Sparse videogen: accelerating video diffusion transformers with spatial-temporal sparsity. arXiv preprint arXiv:2502.01776.
- Xia, Y., Ling, S., Fu, F., Wang, Y., Li, H., Xiao, X., and Cui, B. (2025). Training-free and adaptive sparse attention for efficient long video generation. arXiv preprint arXiv:2502.21079.
- Xiang, C., Liu, J., Zhang, J., Yang, X., Fang, Z., Wang, S., Wang, Z., Zou, Y., Su, H., and Zhu, J. (2026). Geometry-aware rotary position embedding for consistent video world model. arXiv preprint arXiv:2602.07854.
- Xiao, G., Tian, Y., Chen, B., Han, S., and Lewis, M. (2024). Efficient streaming language models with attention sinks. In The Twelfth International Conference on Learning Representations.
- Xu, J., Huang, Y., Cheng, J., Yang, Y., Xu, J., Wang, Y., Duan, W., Yang, S., Jin, Q., Li, S., et al. (2024). Visionreward: fine-grained multi-dimensional human preference learning for image and video generation. arXiv preprint arXiv:2412.21059.
- Xu, R., Xiao, G., Huang, H., Guo, J., and Han, S. (2025). Xattention: block sparse attention with antidiagonal scoring. arXiv preprint arXiv:2503.16428.
- Yang, S., Xi, H., Zhao, Y., Li, M., Zhang, J., Cai, H., Lin, Y., Li, X., Xu, C., Peng, K., et al. (2025). Sparse videogen2: accelerate video generation with sparse attention via semantic-aware permutation. Advances in Neural Information Processing Systems (NeurIPS 2025).
- Yang, Z., Teng, J., Zheng, W., Ding, M., Huang, S., Xu, J., Yang, Y., Hong, W., Zhang, X., Feng, G., et al. (2024). Cogvideox: text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:2408.06072.
- Yuan, J., Gao, H., Dai, D., Luo, J., Zhao, L., Zhang, Z., Xie, Z., Wei, Y., Wang, L., Xiao, Z., et al. (2025). Native sparse attention: hardware-aligned and natively trainable sparse attention. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 23078–23097.
- Zhan, C., Li, W., Shen, C., Zhang, J., Wu, S., and Zhang, H. (2025). Bidirectional sparse attention for faster video diffusion training. arXiv preprint arXiv:2509.01085.
- Zhang, J., Huang, H., Zhang, P., Wei, J., Zhu, J., and Chen, J. (2025a). SageAttention2: efficient attention with thorough outlier smoothing and per-thread int4 quantization. In International Conference on Machine Learning (ICML 2025).
- Zhang, J., Li, G., and Su, J. (2025b). Sage: a framework of precise retrieval for rag. arXiv preprint arXiv:2503.01713.
- Zhang, J., Su, R., Liu, C., Wei, J., Wang, Z., Wang, H., Zhang, P., Jiang, H., Huang, H., Xiang, C., et al. Efficient attention methods: hardware-efficient, sparse, compact, and linear attention.
- Zhang, J., Wang, H., Jiang, K., Yang, S., Zheng, K., Xi, H., Wang, Z., Zhu, H., Zhao, M., Stoica, I., et al. (2025c). SLA: beyond sparsity in diffusion transformers via fine-tunable sparse-linear attention. arXiv preprint arXiv:2509.24006.
- Zhang, J., Wang, H., Jiang, K., Zheng, K., Jiang, Y., Stoica, I., Chen, J., Zhu, J., and Gonzalez, J. E. (2026). SLA2: Sparse-Linear Attention with Learnable Routing and QAT.
- Zhang, J., Wei, J., Huang, H., Zhang, P., Zhu, J., and Chen, J. (2025d). SageAttention: accurate 8-bit attention for plug-and-play inference acceleration. In International Conference on Learning Representations (ICLR 2025).
- Zhang, J., Wei, J., Zhang, P., Xu, X., Huang, H., Wang, H., Jiang, K., Zhu, J., and Chen, J. (2025e). Sageattention3: microscaling fp4 attention for inference and an exploration of 8-bit training. Advances in Neural Information Processing Systems (NeurIPS 2025).
- Zhang, J., Xiang, C., Huang, H., Xi, H., Zhu, J., Chen, J., et al. (2025f). SpargeAttention: accurate and training-free sparse attention accelerating any model inference. In Forty-second International Conference on Machine Learning.
- Zhang, J., Xu, X., Wei, J., Huang, H., Zhang, P., Xiang, C., Zhu, J., and Chen, J. (2025g). Sageattention2++: a more efficient implementation of sageattention2. arXiv preprint arXiv:2505.21136.
- Zhang, J., Zheng, K., Jiang, K., Wang, H., Stoica, I., Gonzalez, J. E., Chen, J., and Zhu, J. (2025h). TurboDiffusion: accelerating video diffusion models by 100-200 times. arXiv preprint arXiv:2512.16093.
- Zhang, P., Chen, Y., Huang, H., Lin, W., Liu, Z., Stoica, I., Xing, E., and Zhang, H. (2025i). Vsa: faster video diffusion with trainable sparse attention. arXiv preprint arXiv:2505.13389.
- Zhang, P., Chen, Y., Su, R., Ding, H., Stoica, I., Liu, Z., and Zhang, H. (2025j). Fast video generation with sliding tile attention. arXiv preprint arXiv:2502.04507.
- Zhang, P., Wei, J., Zhang, J., Zhu, J., and Chen, J. (2025k). Accurate int8 training through dynamic block-level fallback. arXiv preprint arXiv:2503.08040.
- Zhang, Z., Sheng, Y., Zhou, T., Chen, T., Zheng, L., Cai, R., Song, Z., Tian, Y., Ré, C., Barrett, C., et al. (2023). H2o: heavy-hitter oracle for efficient generative inference of large language models. Advances in Neural Information Processing Systems 36, pp. 34661–34710.
- Zhao, M., Yan, B., Yang, X., Zhu, H., Zhang, J., Liu, S., Li, C., and Zhu, J. (2025a). UltraImage: rethinking resolution extrapolation in image diffusion transformers. arXiv preprint arXiv:2512.04504.
- Zhao, M., Zhu, H., Wang, Y., Yan, B., Zhang, J., He, G., Yang, L., Li, C., and Zhu, J. (2025b). UltraViCo: breaking extrapolation limits in video diffusion transformers. arXiv preprint arXiv:2511.20123.
- Zheng, K., Wang, Y., Ma, Q., Chen, H., Zhang, J., Balaji, Y., Chen, J., Liu, M., Zhu, J., and Zhang, Q. (2025). Large scale diffusion distillation via score-regularized continuous-time consistency. arXiv preprint arXiv:2510.08431.
- Zheng, Z., Peng, X., Yang, T., Shen, C., Li, S., Liu, H., Zhou, Y., Li, T., and You, Y. (2024). Open-sora: democratizing efficient video production for all. arXiv preprint arXiv:2412.20404.
- Zhou, Y., Xiao, Z., Wei, T., Yang, S., and Pan, X. (2025). Trainable log-linear sparse attention for efficient diffusion transformers. arXiv preprint arXiv:2512.16615.
- Zhu, K., Tang, T., Xu, Q., Gu, Y., Zeng, Z., Kadekodi, R., Zhao, L., Li, A., Krishnamurthy, A., and Kasikci, B. (2025). Tactic: adaptive sparse attention with clustering and distribution fitting for long-context llms. arXiv preprint arXiv:2502.12216.