Der schnelle Überblick
- SpargeAttention2 ist eine neue Methode zur Verbesserung der Effizienz von Video-Diffusionsmodellen durch trainierbare, dünnbesetzte Aufmerksamkeit.
- Die Methode kombiniert Top-k- und Top-p-Maskierungsregeln, um eine robustere Maskierung bei hoher Sparsity zu erreichen.
- Ein Schlüsselelement ist der Distillations-inspirierte Fine-Tuning-Ansatz, der die Generierungsqualität trotz hoher Sparsity aufrechterhält.
- SpargeAttention2 erreicht eine Aufmerksamkeits-Sparsity von 95 % und eine Beschleunigung des Aufmerksamkeits-Laufzeits um das 16,2-fache.
- Die End-to-End-Videogenerierung wird um das bis zu 4,7-fache beschleunigt, ohne die Qualität der Ausgabe zu beeinträchtigen.
- Die neue Methode übertrifft frühere Ansätze in Bezug auf Effizienz und Qualität bei der Videogenerierung.
Einführung in SpargeAttention2: Optimierung der Aufmerksamkeitsmechanismen in Diffusionsmodellen
Die Effizienz von Aufmerksamkeitsmechanismen, insbesondere in Video-Diffusionsmodellen, stellt aufgrund der langen Sequenzlängen und der quadratischen Zeitkomplexität des Aufmerksamkeitsoperators eine zentrale Herausforderung dar. Dünnbesetzte Aufmerksamkeitsmethoden (Sparse Attention) haben sich als vielversprechend erwiesen, um diese Komplexität zu reduzieren. Während viele dieser Methoden ohne Training auskommen, deuten jüngste Forschungsarbeiten darauf hin, dass trainierbare dünnbesetzte Aufmerksamkeit die Sparsity weiter erhöhen kann, ohne die Generierungsqualität zu beeinträchtigen.
In diesem Kontext wurde SpargeAttention2 entwickelt, eine trainierbare dünnbesetzte Aufmerksamkeitsmethode, die eine hohe Sparsity erreicht, ohne die Generierungsqualität zu mindern. Die Entwicklung von SpargeAttention2 basiert auf der Untersuchung von drei Schlüsselfragen:
- Wann versagen die gängigen Maskierungsregeln Top-k und Top-p, und wie können diese Fehler vermieden werden?
- Warum kann trainierbare dünnbesetzte Aufmerksamkeit eine höhere Sparsity erzielen als nicht-trainierbare Methoden?
- Welche Einschränkungen ergeben sich beim Fine-Tuning von dünnbesetzter Aufmerksamkeit mittels des Diffusions-Loss, und wie können diese behoben werden?
Basierend auf diesen Analysen integriert SpargeAttention2 drei wesentliche Komponenten: eine hybride Maskierungsregel, die Top-k und Top-p kombiniert; eine effiziente Implementierung der trainierbaren dünnbesetzten Aufmerksamkeit; und ein Distillations-inspiriertes Fine-Tuning-Ziel, um die Generierungsqualität während des Fine-Tunings besser zu erhalten.
Grundlagen der dünnbesetzten Aufmerksamkeit und ihre Herausforderungen
Die Standard-Aufmerksamkeitsmechanismen in Transformatoren berechnen eine Score-Matrix, die dann durch eine zeilenweise Softmax-Funktion in Aufmerksamkeitsgewichte umgewandelt wird. Dies führt zu einer quadratischen Komplexität in Bezug auf die Sequenzlänge, was bei langen Sequenzen, wie sie in Video-Diffusionsmodellen vorkommen, sehr rechenintensiv ist. Dünnbesetzte Aufmerksamkeit reduziert diese Kosten, indem sie unwichtige Aufmerksamkeitsgewichte maskiert. Dies geschieht durch eine binäre Maske, die nur ausgewählte Gewichte beibehält.
Block-dünnbesetzte Aufmerksamkeit
In der Praxis ist die feingranulare (elementweise) Sparsity auf modernen GPUs oft ineffizient. Daher nutzen effiziente Kernel wie FlashAttention eine Blockstruktur. Tensor-Operationen werden in Kacheln (Tiles) unterteilt, und die Maske wird innerhalb jeder Kachel konstant gehalten: Jede Kachel ist entweder ein vollständiger Block (behalten) oder ein Nullblock (verwerfen). Dieses blockweise Gating ermöglicht praktische Beschleunigungen, da die Sparsity an die GPU-freundliche Kachelung angepasst wird.
Maskierungsstrategien: Top-k und Top-p
Für Diffusionsmodelle, die keine autoregressive Dekodierung verwenden, wird dünnbesetzte Aufmerksamkeit üblicherweise in block-dünnbesetzter Form implementiert. Die Herausforderung besteht darin, für jedes Blockpaar zu entscheiden, ob es beibehalten oder verworfen werden soll. Da die Berechnung vollständiger Aufmerksamkeitsgewichte zu aufwendig ist, wird oft eine block-gepoolte Aufmerksamkeitskarte verwendet. Die Blockmaske wird dann durch Anwenden von Top-k oder Top-p auf jede Zeile dieser gepoolten Karte bestimmt:
- Top-k: Für jede Zeile werden die k% größten Positionen beibehalten.
- Top-p: Für jede Zeile wird die kleinste Menge von Positionen beibehalten, deren kumulative Wahrscheinlichkeiten p% erreichen.
Einschränkungen traditioneller Methoden
Die Analyse der Fehlerquellen bei dünnbesetzter Aufmerksamkeit zeigt, dass Top-k- und Top-p-Maskierungen unter bestimmten Bedingungen versagen können, insbesondere bei sehr hoher Sparsity (z.B. >90%).
- Versagen von Top-k: Bei einer relativ gleichmäßigen Wahrscheinlichkeitsverteilung der Aufmerksamkeitsgewichte kann Top-k wichtige Kontextelemente übersehen, da eine feste Anzahl von Token nur einen kleinen Teil der Gesamtinformation erfasst.
- Versagen von Top-p: Bei einer stark verzerrten Verteilung kann Top-p das kumulative Schwellenwert mit nur wenigen Token erreichen, die möglicherweise von "Attention Sinks" dominiert werden, wodurch andere informative Token verworfen werden.
Darüber hinaus wurde festgestellt, dass das Fine-Tuning von Diffusionsmodellen mit dünnbesetzter Aufmerksamkeit unter Verwendung des Standard-Diffusions-Loss problematisch sein kann, wenn die Fine-Tuning-Daten nicht der Verteilung der ursprünglichen Pre-Training-Daten entsprechen. Dies kann zu einer Verschlechterung der Generierungsqualität führen, selbst bei voller Aufmerksamkeit.
SpargeAttention2: Eine innovative Lösung
Um die identifizierten Probleme zu adressieren, führt SpargeAttention2 eine Reihe von methodischen Neuerungen ein, die auf einer tiefgreifenden Analyse der Aufmerksamkeitsmechanismen basieren.
Hybride Top-k+Top-p Maskierung
Die hybride Maskierungsregel ist eine zentrale Komponente von SpargeAttention2. Sie kombiniert Top-k- und Top-p-Maskierungen, um die Robustheit bei hoher Sparsity zu gewährleisten. Für Zeilen mit einer relativ gleichmäßigen Wahrscheinlichkeitsverteilung verhindert Top-p das Versagen von Top-k, indem es sicherstellt, dass ausreichend nützliche Token beibehalten werden. Bei stark verzerrten Verteilungen hilft Top-k, das Versagen von Top-p zu vermeiden, indem es nicht nur die dominanten "Attention Sinks" auswählt, sondern auch andere wichtige Wahrscheinlichkeiten berücksichtigt.
Velocity Distillation Loss
Um das Problem der Datenverteilungsinkonsistenz beim Fine-Tuning zu lösen, ersetzt SpargeAttention2 den datengesteuerten Diffusions-Loss durch einen "Velocity Distillation Loss". Dieser Ansatz verwendet ein Lehrer-Schüler-Setup, bei dem ein eingefrorenes Modell mit voller Aufmerksamkeit als Lehrer dient und das dünnbesetzte Modell als Schüler. Der Schüler wird trainiert, um sein Diffusionsverhalten an das des Lehrers anzupassen, anstatt sich an die Fine-Tuning-Datenverteilung anzupassen. Dies bewahrt die ursprüngliche Generierungsqualität, selbst wenn die Fine-Tuning-Daten von den Pre-Training-Daten abweichen.
Effiziente Kernel-Implementierung und Modellanpassung
SpargeAttention2 implementiert die Maskenkonstruktion sowie die Vorwärts- und Rückwärtsläufe der block-dünnbesetzten Aufmerksamkeit in CUDA, aufbauend auf FlashAttention. Dies ermöglicht ein effizientes Überspringen maskierter Matrixmultiplikationen und Softmax-Berechnungen. Die Anpassung eines vortrainierten Diffusionsmodells an dünnbesetzte Aufmerksamkeit erfolgt durch den Austausch aller Aufmerksamkeits-Layer durch SpargeAttention2 und das anschließende Fine-Tuning mittels des Velocity Distillation Loss.
Experimentelle Ergebnisse und Leistungsbewertung
Die Wirksamkeit von SpargeAttention2 wurde anhand von Experimenten mit Video-Diffusionsmodellen evaluiert, insbesondere mit dem Wan2.1-Modell in zwei Konfigurationen: Wan2.1-1.3B bei 480p und Wan2.1-14B bei 720p Auflösung. Die Ergebnisse wurden mit etablierten Metriken für die Videogenerierungsqualität und Effizienz verglichen.
Effektivität
SpargeAttention2 zeigte eine konsistent überlegene Leistung im Vergleich zu früheren trainierbaren dünnbesetzten Aufmerksamkeitsmethoden wie VSA, VMoBA und SLA. Bei einer hohen Aufmerksamkeits-Sparsity von 95 % erreichte SpargeAttention2 eine Generierungsqualität, die der des Modells mit voller Aufmerksamkeit entsprach oder diese sogar übertraf. Dies deutet auf die Robustheit der Methode über verschiedene Modellgrößen und Auflösungen hin.
Effizienz
In Bezug auf die Effizienz erzielte SpargeAttention2 signifikante Beschleunigungen:
- Aufmerksamkeits-Latenz: Bei Wan2.1-1.3B (480p) reduzierte SpargeAttention2 die Aufmerksamkeits-Latenz von 97s auf 6s, was einer Beschleunigung um das 16,2-fache gegenüber voller Aufmerksamkeit entspricht. Dies ist auch 1,8-mal schneller als SLA und über 4-mal schneller als VSA und VMoBA.
- End-to-End-Generierungszeit: Die gesamte Videogenerierungszeit wurde von 159s auf 68s reduziert, was einer Beschleunigung um das 2,3-fache entspricht.
- Skalierung: Ähnliche Trends zeigten sich bei Wan2.1-14B (720p), wo die Aufmerksamkeits-Latenz von 2550s auf 157s (16,2-fache Beschleunigung) und die End-to-End-Generierungszeit von 3043s auf 650s (4,7-fache Beschleunigung) reduziert wurde.
Diese Ergebnisse zeigen, dass SpargeAttention2 nicht nur eine hohe Qualität beibehält, sondern auch erhebliche Effizienzgewinne bei der Videogenerierung ermöglicht.
Ablationsstudien
Die Ablationsstudien bestätigten die Beiträge der einzelnen Designentscheidungen von SpargeAttention2:
- Hybride Maskierung: Die kombinierte Top-k+Top-p-Maskierung zeigte eine bessere Gesamtgenerierungsqualität und -ausrichtung als reine Top-k- oder Top-p-Varianten.
- Trainierbarkeit: Das Deaktivieren des Trainings führte zu einer erheblichen Verschlechterung der Generierungsqualität, was die Notwendigkeit der Anpassung dünnbesetzter Aufmerksamkeit bei hoher Sparsity unterstreicht.
- Trainingsziel: Der Velocity Distillation Loss übertraf konsistent den Standard-Diffusions-Loss, was seine Wirksamkeit für die Anpassung dünnbesetzter Aufmerksamkeit belegt.
Fazit und Ausblick
SpargeAttention2 stellt einen signifikanten Fortschritt in der Entwicklung effizienter und präziser trainierbarer dünnbesetzter Aufmerksamkeitsmechanismen für Diffusionsmodelle dar. Durch die Kombination einer hybriden Top-k+Top-p-Maskierung, einer effizienten Implementierung und eines Distillations-inspirierten Fine-Tunings übertrifft SpargeAttention2 bestehende Methoden sowohl in Bezug auf die erreichte Sparsity als auch auf die beibehaltene Generierungsqualität.
Die Fähigkeit, eine Aufmerksamkeits-Sparsity von 95 % zu erreichen und gleichzeitig eine bis zu 16,2-fache Beschleunigung der Aufmerksamkeits-Laufzeit und eine bis zu 4,7-fache Beschleunigung der End-to-End-Videogenerierung zu realisieren, ist ein Beleg für das Potenzial dieser Methode. Dies eröffnet neue Möglichkeiten für die effiziente Erstellung hochauflösender Videos und könnte die Zugänglichkeit solcher Technologien erheblich verbessern.
Die gewonnenen Erkenntnisse über die Fallstricke traditioneller Maskierungsregeln und die Herausforderungen bei der Datenverteilungsinkonsistenz beim Fine-Tuning liefern wertvolle Beiträge für die weitere Forschung im Bereich der dünnbesetzten Aufmerksamkeit. SpargeAttention2 bietet eine robuste und praktische Lösung, die die Grenzen der aktuellen Video-Diffusionsmodelle erweitert.
Bibliographie
- Bai, S., Cai, Y., Chen, R., Chen, K., Chen, X., Cheng, Z., Deng, L., Ding, W., Gao, C., Ge, C., et al. (2025). Qwen3-vl technical report. arXiv preprint arXiv:2511.21631.
- Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., et al. (2023). Stable video diffusion: scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127.
- Cai, S., Yang, C., Zhang, L., Guo, Y., Xiao, J., Yang, Z., Xu, Y., Yang, Z., Yuille, A., Guibas, L., et al. (2025). Mixture of contexts for long video generation. arXiv preprint arXiv:2508.21058.
- Chen, P., Zeng, X., Zhao, M., Ye, P., Shen, M., Cheng, W., Yu, G., and Chen, T. (2025a). Sparse-vdit: unleashing the power of sparse attention to accelerate video diffusion transformers. arXiv preprint arXiv:2506.03065.
- Chen, R., Mills, K. G., Jiang, L., Gao, C., and Niu, D. (2025b). Re-ttention: ultra sparse visual generation via attention statistical reshape. In The Thirty-ninth Annual Conference on Neural Information Processing Systems.
- Dao, T. (2023). Flashattention-2: faster attention with better parallelism and work partitioning. arXiv preprint arXiv:2307.08691.
- Desai, A., Agrawal, K. K., Yang, S., Cuadron, A., Schroeder, L. G., Zaharia, M., Gonzalez, J. E., and Stoica, I. (2025). VAttention: verified sparse attention. arXiv preprint arXiv:2510.05688.
- Ding, J., Ma, S., Dong, L., Zhang, X., Huang, S., Wang, W., Zheng, N., and Wei, F. (2023). Longnet: scaling transformers to 1,000,000,000 tokens. arXiv preprint arXiv:2307.02486.
- Gao, Y., Zeng, Z., Du, D., Cao, S., Zhou, P., Qi, J., Lai, J., So, H. K., Cao, T., Yang, F., et al. (2024). Seerattention: learning intrinsic sparse attention in your llms. arXiv preprint arXiv:2410.13276.
- Gu, X., Pang, T., Du, C., Liu, Q., Zhang, F., Du, C., Wang, Y., and Lin, M. (2024). When attention sink emerges in language models: an empirical view. arXiv preprint arXiv:2410.10781.
- Hinton, G., Vinyals, O., and Dean, J. (2015). Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531.
- Ho, J., Jain, A., and Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems 33, pp. 6840–6851.
- Huang, Z., He, Y., Yu, J., Zhang, F., Si, C., Jiang, Y., Zhang, Y., Wu, T., Jin, Q., Chanpaisit, N., et al. (2024). Vbench: comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 21807–21818.
- Jiang, H., Li, Y., Zhang, C., Wu, Q., Luo, X., Ahn, S., Han, Z., Abdi, A. H., Li, D., Lin, C., et al. (2024). Minference 1.0: accelerating pre-filling for long-context llms via dynamic sparse attention. Advances in Neural Information Processing Systems 37, pp. 52481–52515.
- Kong, W., Tian, Q., Zhang, Z., Min, R., Dai, Z., Zhou, J., Xiong, J., Li, X., Wu, B., Zhang, J., et al. (2024). Hunyuanvideo: a systematic framework for large video generative models. arXiv preprint arXiv:2412.03603.
- Lai, X., Lu, J., Luo, Y., Ma, Y., and Zhou, X. (2025). Flexprefill: a context-aware sparse attention mechanism for efficient long-sequence inference. arXiv preprint arXiv:2502.20766.
- Li, X., Li, M., Cai, T., Xi, H., Yang, S., Lin, Y., Zhang, L., Yang, S., Hu, J., Peng, K., et al. (2025). Radial attention: o (nlog n) sparse attention with energy decay for long video generation. arXiv preprint arXiv:2506.19852.
- Lin, C., Tang, J., Yang, S., Wang, H., Tang, T., Tian, B., Stoica, I., Han, S., and Gao, M. (2025). Twilight: adaptive attention sparsity with hierarchical top-pp pruning. arXiv preprint arXiv:2502.02770.
- Lipman, Y., Chen, R. T., Ben-Hamu, H., Nickel, M., and Le, M. (2022). Flow matching for generative modeling. arXiv preprint arXiv:2210.02747.
- Liu, A., Mei, A., Lin, B., Xue, B., Wang, B., Xu, B., Wu, B., Zhang, B., Lin, C., Dong, C., et al. (2025a). Deepseek-v3. 2: pushing the frontier of open large language models. arXiv preprint arXiv:2512.02556.
- Liu, A., Zhang, Z., Li, Z., Bai, X., Han, Y., Tang, J., Xing, Y., Wu, J., Yang, M., Chen, W., et al. (2025b). FPSAttention: training-aware fp8 and sparsity co-design for fast video diffusion. arXiv preprint arXiv:2506.04648.
- Liu, X., Gong, C., and Liu, Q. (2022). Flow straight and fast: learning to generate and transfer data with rectified flow. arXiv preprint arXiv:2209.03003.
- Liu, Y., Cun, X., Liu, X., Wang, X., Zhang, Y., Chen, H., Liu, Y., Zeng, T., Chan, R., and Shan, Y. (2024). Evalcrafter: benchmarking and evaluating large video generation models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
- Lu, E., Jiang, Z., Liu, J., Du, Y., Jiang, T., Hong, C., Liu, S., He, W., Yuan, E., Wang, Y., et al. (2025). Moba: mixture of block attention for long-context llms. arXiv preprint arXiv:2502.13189.
- Ribar, L., Chelombiev, I., Hudlass-Galley, L., Blake, C., Luschi, C., and Orr, D. (2023). Sparq attention: bandwidth-efficient llm inference.
- Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., and Ganguli, S. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pp. 2256–2265.
- Song, Y. and Ermon, S. (2019). Generative modeling by estimating gradients of the data distribution. Advances in neural information processing systems 32.
- Song, Y., Sohl-Dickstein, J., Kingma, D. P., Kumar, A., Ermon, S., and Poole, B. (2020). Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456.
- Sun, W., Tu, R., Ding, Y., Jin, Z., Liao, J., Liu, S., and Tao, D. (2025). VORTA: efficient video diffusion via routing sparse attention. arXiv preprint arXiv:2505.18809.
- Tan, X., Chen, Y., Jiang, Y., Chen, X., Yan, K., Duan, N., Zhu, Y., Jiang, D., and Xu, H. (2025). Dsv: exploiting dynamic sparsity to accelerate large-scale video dit training. arXiv preprint arXiv:2502.07590.
- Tang, J., Zhao, Y., Zhu, K., Xiao, G., Kasikci, B., and Han, S. (2024). Quest: query-aware sparsity for efficient long-context llm inference. arXiv preprint arXiv:2406.10774.
- Wan, T., Wang, A., Ai, B., Wen, B., Mao, C., Xie, C., Chen, D., Yu, F., Zhao, H., Yang, J., et al. (2025). Wan: open and advanced large-scale video generative models. arXiv preprint arXiv:2503.20314.
- Wu, J., Hou, L., Yang, H., Tao, X., Tian, Y., Wan, P., Zhang, D., and Tong, Y. (2025). VMoBA: mixture-of-block attention for video diffusion models. arXiv preprint arXiv:2506.23858.
- Xi, H., Yang, S., Zhao, Y., C. Xu, M. Li, X. Li, Y. Lin, H. Cai, J. Zhang, D. Li, et al. (2025). Sparse videogen: accelerating video diffusion transformers with spatial-temporal sparsity. arXiv preprint arXiv:2502.01776.
- Xia, Y., Ling, S., Fu, F., Wang, Y., Li, H., Xiao, X., and Cui, B. (2025). Training-free and adaptive sparse attention for efficient long video generation. arXiv preprint arXiv:2502.21079.
- Xiao, G., Tian, Y., Chen, B., Han, S., and Lewis, M. (2024). Efficient streaming language models with attention sinks. In The Twelfth International Conference on Learning Representations.
- Xu, J., Huang, Y., Cheng, J., Yang, Y., Xu, J., Wang, Y., Duan, W., Yang, S., Jin, Q., Li, S., et al. (2024). Visionreward: fine-grained multi-dimensional human preference learning for image and video generation. arXiv preprint arXiv:2412.21059.
- Xu, R., Xiao, G., Huang, H., Guo, J., and Han, S. (2025). Xattention: block sparse attention with antidiagonal scoring. arXiv preprint arXiv:2503.16428.
- Yang, S., Xi, H., Zhao, Y., Li, M., Zhang, J., Cai, H., Lin, Y., Li, X., Xu, C., Peng, K., et al. (2025). Sparse videogen2: accelerate video generation with sparse attention via semantic-aware permutation. Advances in Neural Information Processing Systems (NeurIPS 2025).
- Yang, Z., Teng, J., Zheng, W., Ding, M., Huang, S., Xu, J., Yang, Y., Hong, W., Zhang, X., Feng, G., et al. (2024). Cogvideox: text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:2408.06072.
- Yuan, J., Gao, H., Dai, D., Luo, J., Zhao, L., Zhang, Z., Xie, Z., Wei, Y., Wang, L., Xiao, Z., et al. (2025). Native sparse attention: hardware-aligned and natively trainable sparse attention. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 23078–23097.
- Zhan, C., Li, W., Shen, C., Zhang, J., Wu, S., and Zhang, H. (2025). Bidirectional sparse attention for faster video diffusion training. arXiv preprint arXiv:2509.01085.
- Zhang, J., Wang, H., Jiang, K., Yang, S., Zheng, K., Xi, H., Wang, Z., Zhu, H., Zhao, M., Stoica, I., et al. (2025c). SLA: beyond sparsity in diffusion transformers via fine-tunable sparse-linear attention. arXiv preprint arXiv:2509.24006.
- Zhang, J., Xiang, C., Huang, H., Xi, H., Zhu, J., Chen, J., et al. (2025f). SpargeAttention: accurate and training-free sparse attention accelerating any model inference. In Forty-second International Conference on Machine Learning.
- Zhang, P., Chen, Y., Huang, H., Lin, W., Liu, Z., Stoica, I., Xing, E., and Zhang, H. (2025i). Vsa: faster video diffusion with trainable sparse attention. arXiv preprint arXiv:2505.13389.
- Zhang, P., Chen, Y., Su, R., Ding, H., Stoica, I., Liu, Z., and Zhang, H. (2025j). Fast video generation with sliding tile attention. arXiv preprint arXiv:2502.04507.
- Zhang, Z., Sheng, Y., Zhou, T., Chen, T., Zheng, L., Cai, R., Song, Z., Tian, Y., Ré, C., Barrett, C., et al. (2023). H2o: heavy-hitter oracle for efficient generative inference of large language models. Advances in Neural Information Processing Systems 36, pp. 34661–34710.
- Zheng, Z., Peng, X., Yang, T., Shen, C., Li, S., Liu, H., Zhou, Y., Li, T., and You, Y. (2024). Open-sora: democratizing efficient video production for all. arXiv preprint arXiv:2412.20404.
- Zhou, Y., Xiao, Z., Wei, T., Yang, S., and Pan, X. (2025). Trainable log-linear sparse attention for efficient diffusion transformers. arXiv preprint arXiv:2512.16615.
- Zhu, K., Tang, T., Xu, Q., Gu, Y., Zeng, Z., Kadekodi, R., Zhao, L., Li, A., Krishnamurthy, A., and Kasikci, B. (2025). Tactic: adaptive sparse attention with clustering and distribution fitting for long-context llms. arXiv preprint arXiv:2502.12216.