Der schnelle Überblick
- Die Forschung konzentriert sich auf die effiziente Generierung langer Videos, um die Lücke zwischen der Fülle hochwertiger Kurzvideos und der Knappheit kohärenter Langzeitdaten zu schließen.
- Ein neues Trainingsparadigma, "Mode Seeking meets Mean Seeking", entkoppelt lokale Detailtreue von langfristiger Kohärenz.
- Ein "Decoupled Diffusion Transformer" (DDT) wird eingesetzt, der einen gemeinsamen Encoder mit zwei spezialisierten Decoder-Heads verwendet.
- Ein globaler Flow Matching Head wird mit überwachtem Lernen auf langen Videos trainiert, um die narrative Struktur zu erfassen (Mean Seeking).
- Ein lokaler Distribution Matching Head gleicht gleitende Fenster an einen eingefrorenen Kurzvideo-Lehrer an, um lokalen Realismus zu gewährleisten (Mode Seeking).
- Diese Methode ermöglicht die Synthese von Videos im Minutenbereich, die sowohl langfristige Kohärenz als auch lokalen Realismus aufweisen.
- Die Evaluierungen zeigen eine Verbesserung der lokalen Schärfe, Bewegung und langfristigen Konsistenz, wodurch die Lücke zwischen Detailtreue und Zeitrahmen geschlossen wird.
Neuartige Ansätze zur Generierung langer Videos: Eine Analyse des "Mode Seeking meets Mean Seeking"-Paradigmas
Die Fähigkeit, hochwertige und kohärente Videos über längere Zeiträume hinweg zu generieren, stellt einen zentralen Forschungsbereich in der künstlichen Intelligenz dar. Während die Generierung von Kurzvideos, die wenige Sekunden dauern, erhebliche Fortschritte gemacht hat, bleibt die Erzeugung von Videos im Minutenbereich, die eine konsistente narrative Struktur und hohe Detailtreue über die gesamte Länge beibehalten, eine Herausforderung. Diese Komplexität resultiert hauptsächlich aus der Diskrepanz zwischen der Fülle an verfügbaren Kurzvideodaten und der Seltenheit kohärenter, qualitativ hochwertiger Langzeitdaten.
Die Herausforderung der Langvideo-Generierung
Aktuelle Modelle zur Videogenerierung, insbesondere solche, die auf Diffusionsmodellen und Transformatoren basieren, erzielen beeindruckende Ergebnisse bei der Erstellung kurzer Videoclips. Dies ist auf die breite Verfügbarkeit von Daten im Sekundenbereich zurückzuführen, die im Web in großem Umfang zugänglich sind. Die Skalierung dieser Erfolge auf Videos, die mehrere Minuten dauern, stößt jedoch an Grenzen. Langform-Videos mit dauerhaften Ereignissen und Kontext sind wesentlich seltener, heterogener und deren Kuratierung sowie Filterung für das generative Training ist aufwendiger. Ein gängiger Ansatz aus der Bildgenerierung, ein einziges Modell mit Videos unterschiedlicher Länge zu trainieren, stößt hierbei an seine Grenzen. Die zeitliche Dimension ist keine einfache Interpolation wie die Bildauflösung; ein einminütiges Video ist keine bloße höher aufgelöste Version eines Fünf-Sekunden-Videos, sondern eine Extrapolation, die neue Ereignisse, Kausalzusammenhänge und narrative Strukturen einführt.
Diese Diskrepanz führt zu einem kritischen Problem: Modelle, die längere Sequenzen generieren können, verlieren oft die scharfe lokale Dynamik, die für Kurzvideo-Expertenmodelle charakteristisch ist. Die Ergebnisse können weicher, weniger detailliert und weniger "lebendig" erscheinen. Dies liegt daran, dass das Modell gezwungen ist, ein hochqualitatives Kurzvideo-Prior aus einem daten- und rechenleistungsbeschränkten Regime neu zu lernen.
Das "Mode Seeking meets Mean Seeking"-Paradigma
Um dieser Herausforderung zu begegnen, wurde ein neues Trainingsparadigma vorgeschlagen, das "Mode Seeking meets Mean Seeking". Dieser Ansatz zielt darauf ab, die lokale Detailtreue von der langfristigen Kohärenz zu entkoppeln, basierend auf einer vereinheitlichten Repräsentation mittels eines Decoupled Diffusion Transformers (DDT). Der Kern dieser Methode liegt in der Verwendung von zwei spezialisierten Decoder-Heads, die einen gemeinsamen Encoder nutzen.
Architektur und Trainingsansatz
Der vorgeschlagene Ansatz gliedert sich in folgende Komponenten:
- Gemeinsamer Encoder: Ein Encoder namens Eφ bildet ein verrauschtes langes Video in einen spatiotemporalen Feature-Tensor ab. Dieser Encoder ist ein Video-Diffusionstransformator mit umfassenden zeitlichen Abhängigkeiten und dient als gemeinsames Rückgrat für beide Decoder-Heads.
- Zwei Geschwindigkeits-Heads: Auf dem vom Encoder erzeugten Feature-Tensor sind zwei leichte Transformer-Decoder aufgesetzt:
- Flow Matching (FM) Head (DFMθ): Dieser Head parameterisiert das globale Geschwindigkeitsfeld des Studentenmodells und wird durch überwachtes Lernen (Mean Seeking) auf realen Langvideos trainiert. Sein Ziel ist es, die narrative Struktur und langfristige Kohärenz zu erfassen.
- Distribution Matching (DM) Head (DDMψ): Dieser Head ist ein Few-Step-Generator, der durch Lehrer-Alignment (Mode Seeking) auf lokalen Fenstern trainiert wird. Er gleicht gleitende Fenster an einen eingefrorenen, hochqualitativen Kurzvideo-Lehrer an, um lokalen Realismus und scharfe Dynamik zu gewährleisten.
Die Entkopplung des Trainings in zwei Köpfe, die einen gemeinsamen Encoder nutzen, bietet zwei wesentliche Vorteile:
- Die Langkontext-Repräsentation wird gelernt und über beide Ziele hinweg wiederverwendet.
- Die Kurzvideo-Generierungsfähigkeit wird von der Lehrerverteilung destilliert, ohne dass dies beim Training mit spärlichen Langvideodaten vergessen wird.
Lokales Reverse-KL über DMD/VSD
Der lokale Distribution Matching Loss dient dazu, die lokale Dynamik und Qualität des Studentenmodells unter Verwendung des Kurzvideo-Lehrers zu regulieren. Dies geschieht über eine mode-seeking Reverse-KL-Divergenz, die sicherstellt, dass jedes vom Langvideo-Generator erzeugte gleitende Fenster der Lehrerverteilung ähnelt. Im Gegensatz zu Mean-Seeking-Methoden, die zu einer Mittelung über Modi neigen könnten, fördert Mode Seeking, dass der Student seine Masse auf die hochqualitativen Modi des Lehrers konzentriert.
SFT Flow-Matching Anker auf Langvideos
Da das Distribution Matching allein keine globale, minütengenaue Kohärenz lehren kann – der Kurzvideo-Lehrer modelliert per Definition keine Langstreckenstruktur –, wird der FM Head mit einem überwachten Flow-Matching-Ziel (SFT) auf Videos voller Länge trainiert. Dies verankert das globale Geschwindigkeitsfeld des Studentenmodells an realen Langvideotrajektorien und fördert korrekte zeitliche Abhängigkeiten und narrative Strukturen über lange Zeiträume hinweg.
Gemeinsames Ziel und Trainingsverfahren
Das Training kombiniert diese beiden komplementären Signale: überwachtes Langvideo-Flow Matching auf dem globalen FM Head und lokales Reverse-KL-Alignment auf dem DM Head. Der gemeinsame Encoder erhält Gradienten von beiden Termen, während die beiden Heads durch ihre jeweiligen Signale aktualisiert werden. Dies ermöglicht eine effektive Kombination aus Langvideo-Supervision und lokalem Kurzvideo-Lehrer-Alignment.
Inferenz
Während der Inferenz wird der FM Head verworfen und die Langvideos werden ausschließlich mit dem DM Head generiert. Der gemeinsame Encoder stellt sicher, dass die vom DM Head verwendete Repräsentation so geformt wurde, dass jedes gleitende Fenster des generierten Langvideos den lokalen Verteilungsmodi des Kurzvideo-Lehrers entspricht. Gleichzeitig wurde die Langstreckenkohärenz und narrative Struktur aus den begrenzten Langvideos über das SFT-Ziel gelernt. Dieses entkoppelte Design ermöglicht eine schnelle Generierung von Videos im Minutenbereich mit hoher Detailtreue und Konsistenz.
Empirische Ergebnisse und Vergleiche
Die Methode wurde auf Basismodellen wie Wan 1.3B und Wan 14B trainiert und evaluiert. Im Vergleich zu etablierten Baselines wie "Long-context SFT" (reine Langvideo-Feinabstimmung) und "Mixed-lengths SFT" (Training mit Videos unterschiedlicher Länge) sowie autoregressiven Methoden wie CausVid, Self-Forcing und InfinityRoPE, zeigte der neue Ansatz deutliche Vorteile.
- SFT-only Methoden: Diese Methoden, die hauptsächlich auf überwachtem Fine-Tuning basieren, bewahren zwar den groben Szenenaufbau, führen aber zu einem Verlust an lokalem Realismus (Unschärfe, weichere Kanten, weniger definierte Vordergrundobjekte) aufgrund der Knappheit hochwertiger Langvideodaten.
- Teacher-only Methoden: Ansätze, die sich ausschließlich auf die Destillation eines Kurzvideo-Lehrers verlassen, wie CausVid und Self-Forcing, sichern zwar lokalen Realismus für kurze Zeiträume, scheitern aber daran, langfristige narrative Strukturen zu erhalten. Sie leiden unter Fehlerakkumulation in autoregressiven Rollouts und neigen dazu, statische oder sich wiederholende Inhalte zu generieren, da der Kurzvideo-Lehrer "blind" für Langkontext-Konzepte ist.
- Der vorgeschlagene Ansatz: Durch die Entkopplung von globaler Mean-Seeking-Supervision (SFT Flow Matching auf Langvideos) und lokalem Mode-Seeking-Alignment (Reverse-KL Distribution Matching auf gleitenden Fenstern) gelingt es dem Modell, sowohl die Langstrecken-Szenen-/narrative Konsistenz aufrechtzuerhalten als auch das klare lokale Erscheinungsbild zu bewahren. Dies führt zu schärferen, konsistenter gerenderten Vordergrundobjekten und fließenden Hintergrundentwicklungen ohne die abrupten Ansichtsänderungen, die bei reinen SFT-Methoden auftreten, oder den Bewegungskollaps, der bei reinen Lehrer-Rollouts zu beobachten ist.
Ablationsstudien bestätigten die Notwendigkeit aller Komponenten des Modells. Insbesondere das Entfernen der DDT-Dual-Head-Architektur führte zum größten Leistungsabfall, was die Annahme bestätigt, dass die beiden Ziele bei erzwungener Nutzung eines einzigen Heads zu Gradienteninterferenzen führen. Das Deaktivieren des Sliding-Window DMD führte zu einer Verschlechterung, die der von SFT-only-Methoden ähnelte. Das Entfernen von SFT zeigte, dass ein Kurzvideo-Lehrer allein keine langfristige narrative Struktur vermitteln kann.
Fazit
Das "Mode Seeking meets Mean Seeking"-Paradigma in Kombination mit einem Decoupled Diffusion Transformer stellt einen signifikanten Fortschritt in der Generierung langer Videos dar. Durch die geschickte Entkopplung von Zielen – die Nutzung eines Mean-Seeking-Flow-Matching-Heads für globale Kohärenz aus realen Langvideos und eines Mode-Seeking-Distribution-Matching-Heads für lokalen Realismus durch Alignment mit einem Kurzvideo-Lehrer – wird die "Fidelity-Horizon-Lücke" effektiv geschlossen. Diese Methode ermöglicht die schnelle Synthese von Videos im Minutenbereich, die sowohl durch lokale Schärfe und Bewegung als auch durch langfristige Konsistenz überzeugen. Die Forschung legt den Grundstein für zukünftige Anwendungen in der interaktiven Weltmodellierung, der Generierung von Langform-Geschichten und der kontrollierbaren Videobearbeitung, die über längere Zeiträume hinweg Identität und Stil beibehält.
Danksagungen
Wir danken Shuai Yang für die fruchtbare Diskussion und die Erläuterung bezüglich LongLive (Yang et al., 2026). Wir danken Zhen Li für die Unterstützung bezüglich des Sekai-Datensatzes (Li et al., 2025c).
Auswirkungen
Diese Arbeit präsentiert Forschungsergebnisse, deren Ziel es ist, das Feld des maschinellen Lernens voranzutreiben. Es gibt viele potenzielle gesellschaftliche Auswirkungen unserer Arbeit, von denen wir keine hier explizit hervorheben müssen.
Bibliographie
- Bain et al. (2021) Bain, M., Nagrani, A., Varol, G., and Zisserman, A. Frozen in time: A joint video and image encoder for end-to-end retrieval. In ICCV, 2021.
- Cai et al. (2026) Cai, S., Yang, C., Zhang, L., Guo, Y., Xiao, J., Yang, Z., Xu, Y., Yang, Z., Yuille, A., Guibas, L., Agrawala, M., Jiang, L., and Wetzstein, G. Mixture of contexts for long video generation. In ICLR, 2026.
- Chen et al. (2025a) Chen, B., Martí Monsó, D., Du, Y., Simchowitz, M., Tedrake, R., and Sitzmann, V. Diffusion forcing: Next-token prediction meets full-sequence diffusion. In NeurIPS, 2025a.
- Chen et al. (2025b) Chen, G., Lin, D., Yang, J., Lin, C., Zhu, J., Fan, M., Zhang, H., Chen, S., Chen, Z., Ma, C., Xiong, W., Wang, W., Pang, N., Kang, K., Xu, Z., Jin, Y., Liang, Y., Song, Y., Zhao, P., Xu, B., Qiu, D., Li, D., Fei, Z., Li, Y., and Zhou, Y. Skyreels-v2: Infinite-length film generative model. In arXiv, 2025b.
- Cui et al. (2026) Cui, J., Wu, J., Li, M., Yang, T., Li, X., Wang, R., Bai, A., Ban, Y., and Hsieh, C.-J. Self-forcing++: Towards minute-scale high-quality video generation. In ICLR, 2026.
- Dalal et al. (2025) Dalal, K., Koceja, D., Hussein, G., Xu, J., Zhao, Y., Song, Y., Han, S., Cheung, K. C., Kautz, J., Guestrin, C., Hashimoto, T., Koyejo, S., Choi, Y., Sun, Y., and Wang, X. One-minute video generation with test-time training. In arXiv, 2025.
- Dao (2024) Dao, T. FlashAttention-2: Faster attention with better parallelism and work partitioning. In ICLR, 2024.
- Dao et al. (2022) Dao, T., Fu, D. Y., Ermon, S., Rudra, A., and Ré, C. FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In NeurIPS, 2022.
- Fan et al. (2025) Fan, W., Si, C., Song, J., Yang, Z., He, Y., Zhuo, L., Huang, Z., Dong, Z., He, J., Pan, D., et al. Vchitect-2.0: Parallel transformer for scaling up video diffusion models. In arXiv, 2025.
- Gao et al. (2025a) Gao, X., Hu, L., Hu, S., Huang, M., Ji, C., Meng, D., Qi, J., Qiao, P., Shen, Z., Song, Y., Sun, K., Tian, L., Wang, G., Wang, Q., Wang, Z., Xiao, J., Xu, S., Zhang, B., Zhang, P., Zhang, X., Zhang, Z., Zhou, J., and Zhuo, L. Wan-s2v: Audio-driven cinematic video generation. In arXiv, 2025a.
- Gao et al. (2025b) Gao, Y., Guo, H., Hoang, T., Huang, W., Jiang, L., Kong, F., Li, H., Li, J., Li, L., Li, X., Li, X., Li, Y., Lin, S., Lin, Z., Liu, J., Liu, S., Nie, X., Qing, Z., Ren, Y., Sun, L., Tian, Z., Wang, R., Wang, S., Wei, G., Wu, G., Wu, J., Xia, R., Xiao, F., Xiao, X., Yan, J., Yang, C., Yang, J., Yang, R., Yang, T., Yang, Y., Ye, Z., Zeng, X., Zeng, Y., Zhang, H., Zhao, Y., Zheng, X., Zhu, P., Zou, J., and Zuo, F. Seedance 1.0: Exploring the boundaries of video generation models. In arXiv, 2025b.
- Gu et al. (2025) Gu, Y., Mao, w., and Shou, M. Z. Long-context autoregressive video modeling with next-frame prediction. In arXiv, 2025.
- Guo et al. (2025) Guo, Y., Yang, C., He, H., Zhao, Y., Wei, M., Yang, Z., Huang, W., and Lin, D. End-to-end training for autoregressive video diffusion via self-resampling. In arXiv, 2025.
- Henschel et al. (2025) Henschel, R., Khachatryan, L., Hayrapetyan, D., Poghosyan, H., Tadevosyan, V., Wang, Z., Navasardyan, S., and Shi, H. Streamingt2v: Consistent, dynamic, and extendable long video generation from text. In CVPR, 2025.
- Hong et al. (2023) Hong, W., Ding, M., Zheng, W., Liu, X., and Tang, J. Cogvideo: Large-scale pretraining for text-to-video generation via transformers. In ICLR, 2023.
- Huang et al. (2024a) Huang, Z., He, Y., Yu, J., Zhang, F., Si, C., Jiang, Y., Zhang, Y., Wu, T., Jin, Q., Chanpaisit, N., Wang, Y., Chen, X., Wang, L., Lin, D., Qiao, Y., and Liu, Z. VBench: Comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024a.
- Huang et al. (2024b) Huang, Z., Zhang, F., Xu, X., He, Y., Yu, J., Dong, Z., Ma, Q., Chanpaisit, N., Si, C., Jiang, Y., Wang, Y., Chen, X., Chen, Y.-C., Wang, L., Lin, D., Qiao, Y., and Liu, Z. Vbench++: Comprehensive and versatile benchmark suite for video generative models. In arXiv, 2024b.
- Huang et al. (2025b) Huang, X., Li, Z., He, G., Zhou, M., and Shechtman, E. Self forcing: Bridging the train-test gap in autoregressive video diffusion. In NeurIPS, 2025b.
- Jacobs et al. (2023) Jacobs, S. A., Tanaka, M., Zhang, C., Zhang, M., Song, S. L., Rajbhandari, S., and He, Y. Deepspeed ulysses: System optimizations for enabling training of extreme long sequence transformer models. In arXiv, 2023.
- Ji et al. (2025) Ji, S., Chen, X., Yang, S., Tao, X., Wan, P., and Zhao, H. Memflow: Flowing adaptive memory for consistent and efficient long video narratives. In arXiv, 2025.
- Jia et al. (2026) Jia, W., Lu, Y., Huang, M., Wang, H., Huang, B., Chen, N., Liu, M., Jiang, J., and Mao, Z. Moga: Mixture-of-groups attention for end-to-end long video generation. In ICLR, 2026.
- Jin et al. (2024) Jin, Y., Sun, Z., Li, N., Xu, K., Jiang, H., Zhuang, N., Huang, Q., Song, Y., Mu, Y., and Lin, Z. Pyramidal flow matching for efficient video generative modeling. In ICLR, 2024.
- Ju et al. (2024) Ju, X., Gao, Y., Zhang, Z., Yuan, Z., Wang, X., Zeng, A., Xiong, Y., Xu, Q., and Shan, Y. Miradata: A large-scale video dataset with long durations and structured captions. In arXiv, 2024.
- Kodaira et al. (2025) Kodaira, A., Hou, T., Hou, J., Tomizuka, M., and Zhao, Y. Streamdit: Real-time streaming text-to-video generation. In arXiv, 2025.
- Kong et al. (2024) Kong, W., Tian, Q., Zhang, Z., Min, R., Dai, Z., Zhou, J., Xiong, J., Li, X., Wu, B., Zhang, J., et al. Hunyuanvideo: A systematic framework for large video generative models. In arXiv, 2024.
- Lee et al. (2024) Lee, S.-H., Wang, J., Zhang, Z., Fan, D., and Li, X. Video token merging for long-form video understanding. In arXiv, 2024.
- Li et al. (2024) Li, C., Huang, D., Lu, Z., Xiao, Y., Pei, Q., and Bai, L. A survey on long video generation: Challenges, methods, and prospects. In arXiv, 2024.
- Li et al. (2025c) Li, Z., Li, C., Mao, X., Lin, S., Li, M., Zhao, S., Xu, Z., Li, X., Feng, Y., Sun, J., Li, Z., Zhang, F., Ai, J., Wang, Z., Wu, Y., He, T., Pang, J., Qiao, Y., Jia, Y., and Zhang, K. Sekai: A video dataset towards world exploration. In arXiv, 2025c.
- Lin et al. (2025) Lin, S., Yang, C., He, H., Jiang, J., Ren, Y., Xia, X., Zhao, Y., Xiao, X., and Jiang, L. Autoregressive adversarial post-training for real-time interactive video generation. In NeurIPS, 2025.
- Lipman et al. (2023) Lipman, Y., Chen, R. T., Ben-Hamu, H., Nickel, M., and Le, M. Flow matching for generative modeling. In ICLR, 2023.
- Liu et al. (2023) Liu, X., Gong, C., and Liu, Q. Flow straight and fast: Learning to generate and transfer data with rectified flow. In ICLR, 2023.
- Liu et al. (2025) Liu, K., Hu, W., Xu, J., Shan, Y., and Lu, S. Rolling forcing: Autoregressive long video diffusion in real time. In arXiv, 2025.
- Lu et al. (2025a) Lu, Y., Liang, Y., Zhu, L., and Yang, Y. Freelong: Training-free long video generation with spectralblend temporal attention. In NeurIPS, 2025a.
- Lu & Yang (2025) Lu, Y. and Yang, Y. Freelong++: Training-free long video generation via multi-band spectralfusion. In arXiv, 2025.
- Lu et al. (2025b) Lu, Y., Zeng, Y., Li, H., Ouyang, H., Wang, Q., Cheng, K. L., Zhu, J., Cao, H., Zhang, Z., Zhu, X., Shen, Y., and Zhang, M. Reward forcing: Efficient streaming video generation with rewarded distribution matching distillation. In arXiv, 2025b.
- Lv et al. (2026) Lv, C., Shi, Y., Huang, Y., Gong, R., Ren, S., and Wang, W. Light forcing: Accelerating autoregressive video diffusion via sparse attention. In arXiv, 2026.
- Meng et al. (2025) Meng, Y., Ouyang, H., Yu, Y., Wang, Q., Wang, W., Cheng, K. L., Wang, H., Li, Y., Chen, C., Zeng, Y., Shen, Y., and Qu, H. Holocine: Holistic generation of cinematic multi-shot long video narratives. In arXiv, 2025.
- Nie et al. (2026) Nie, W., Berner, J., Liu, C., and Vahdat, A. Nvidia fastgen: Fast generation from diffusion models. In GitHub, 2026.
- Peebles & Xie (2023) Peebles, W. and Xie, S. Scalable diffusion models with transformers. In ICCV, 2023.
- Po et al. (2025a) Po, R., Chan, E. R., Chen, C., and Wetzstein, G. Bagger: Backwards aggregation for mitigating drift in autoregressive video diffusion models. In arXiv, 2025a.
- Po et al. (2025b) Po, R., Nitzan, Y., Zhang, R., Chen, B., Dao, T., Shechtman, E., Wetzstein, G., and Huang, X. Long-context state-space video world models. In ICCV, 2025b.
- Qiu et al. (2024) Qiu, H., Xia, M., Zhang, Y., He, Y., Wang, X., Shan, Y., and Liu, Z. Freenoise: Tuning-free longer video diffusion via noise rescheduling. In ICLR, 2024.
- Ruhe et al. (2024) Ruhe, D., Heek, J., Salimans, T., and Hoogeboom, E. Rolling diffusion models. In arXiv, 2024.
- Sand-AI (2025) Sand-AI. Magi-1: Autoregressive video generation at scale. In arXiv, 2025.
- Savov et al. (2025) Savov, N., Kazemi, N., Zhang, D., Paudel, D. P., Wang, X., and Gool, L. V. Statespacediffuser: Bringing long context to diffusion world models. In NeurIPS, 2025.
- Seedance et al. (2025) Seedance, T., Chen, H., Chen, S., Chen, X., Chen, Y., Chen, Y., Chen, Z., Cheng, F., Cheng, T., Cheng, X., Chi, X., Cong, J., Cui, J., Cui, Q., Dong, Q., Fan, J., Fang, J., Fang, Z., Feng, C., Feng, H., Gao, M., Gao, Y., Guo, D., Guo, Q., Hao, B., Hao, Q., He, B., He, Q., Hoang, T., Hu, R., Hu, X., Huang, W., Huang, Z., Huang, Z., Ji, D., Jiang, S., Jiang, W., Jiang, Y., Jiang, Z., Kim, A., Kong, J., Lai, Z., Lao, S., Leng, Y., Li, A., Li, F., Li, G., Li, H., Li, J., Li, L., Li, M., Li, S., Li, T., Li, X., Li, X., Li, X., Li, X., Li, Y., Li, Y., Li, Y., Liang, C., Liang, H., Liang, J., Liang, Y., Liang, Z., Liao, W., Liao, Y., Lin, H., Lin, K., Lin, S., Lin, X., Lin, Z., Ling, F., Liu, F., Liu, G., Liu, J., Liu, J., Liu, J., Liu, S., Liu, S., Liu, S., Liu, S., Liu, X., Liu, X., Liu, Y., Liu, Z., Liu, Z., Lyu, J., Lyu, L., Lyu, Q., Mu, H., Nie, X., Ning, J., Pan, X., Peng, Y., Qin, L., Qu, X., Ren, Y., Shen, K., Shi, G., Shi, L., Song, Y., Song, Y., Sun, F., Sun, L., Sun, R., Sun, Y., Sun, Z., Tang, W., Tang, Y., Tao, Z., Wang, F., Wang, F., Wang, J., Wang, J., Wang, K., Wang, K., Wang, Q., Wang, R., Wang, S., Wang, S., Wang, T., Wang, W., Wang, X., Wang, Y., Wang, Y., Wang, Y., Wang, Y., Wang, Z., Wei, G., Wei, W., Wu, D., Wu, G., Wu, H., Wu, J., Wu, J., Wu, R., Wu, X., Wu, Y., Xia, R., Xiang, L., Xiao, F., Xiao, X., Xie, P., Xie, S., Xu, S., Xue, J., Yan, S., Yang, B., Yang, C., Yang, J., Yang, R., Yang, T., Yang, Y., Yang, Y., Yang, Z., Yang, Z., Yao, S., Yao, Y., Ye, Z., Yu, B., Yu, J., Yuan, C., Yuan, L., Zeng, S., Zeng, W., Zeng, X., Zeng, Y., Zhang, C., Zhang, H., Zhang, J., Zhang, K., Zhang, L., Zhang, L., Zhang, M., Zhang, T., Zhang, W., Zhang, X., Zhang, X., Zhang, Y., Zhang, Y., Zhang, Z., Zhao, F., Zhao, H., Zhao, Y., Zheng, H., Zheng, J., Zheng, X., Zheng, Y., Zheng, Y., Zhou, J., Zhu, J., Zhu, K., Zhu, S., Zhu, W., Zou, B., and Zuo, F. Seedance 1.5 pro: A native audio-visual joint generation foundation model. In arXiv, 2025.
- Seawead et al. (2025) Seawead, T., Yang, C., Lin, Z., Zhao, Y., Lin, S., Ma, Z., Guo, H., Chen, H., Qi, L., Wang, S., Cheng, F., Zuo, F., Zeng, X., Yang, Z., Kong, F., Wei, M., Qing, Z., Xiao, F., Hoang, T., Zhang, S., Zhu, P., Zhao, Q., Yan, J., Gui, L., Bi, S., Li, J., Ren, Y., Wang, R., Li, H., Xiao, X., Liu, S., Ling, F., Zhang, H., Wei, H., Kuang, H., Duncan, J., Zhang, J., Zheng, J., Sun, L., Zhang, M., Sun, R., Zhuang, X., Li, X., Xia, X., Chi, X., Peng, Y., Wang, Y., Wang, Y., Zhao, Z., Chen, Z., Song, Z., Yang, Z., Feng, J., Yang, J., and Jiang, L. Seaweed-7b: Cost-effective training of video generation foundation model. In arXiv, 2025.
- Song et al. (2025) Song, K., Chen, B., Simchowitz, M., Du, Y., Tedrake, R., and Sitzmann, V. History-guided video diffusion. In ICML, 2025.
- Su et al. (2021) Su, J., Lu, Y., Pan, S., Wen, B., and Liu, Y. Roformer: Enhanced transformer with rotary position embedding. In arXiv, 2021.
- Team (2025a) Team, B. D. C. Contentv: Efficient training of video generation models with limited compute. In arXiv, 2025a.
- Team (2025b) Team, T. H. F. M. Hunyuanvideo 1.5 technical report. In arXiv, 2025b.
- Wang et al. (2023a) Wang, Y., He, Y., Li, Y., Li, K., Yu, J., Ma, X., Li, X., Chen, G., Chen, X., Wang, Y., et al. Internvid: A large-scale video-text dataset for multimodal understanding and generation. In ICLR, 2023a.
- Wang et al. (2023b) Wang, Z., Lu, C., Wang, Y., Bao, F., Li, C., Su, H., and Zhu, J. Prolificdreamer: High-fidelity and diverse text-to-3d generation with variational score distillation. In NeurIPS, 2023b.
- Wang et al. (2025a) Wang, A., Ai, B., Wen, B., Mao, C., Xie, C.-W., Chen, D., Yu, F., Zhao, H., Yang, J., Zeng, J., Wang, J., Zhang, J., Zhou, J., Wang, J., Chen, J., Zhu, K., Zhao, K., Yan, K., Huang, L., Feng, M., Zhang, N., Li, P., Wu, P., Chu, R., Feng, R., Zhang, S., Sun, S., Fang, T., Wang, T., Gui, T., Weng, T., Shen, T., Lin, W., Wang, W., Wang, W., Zhou, W., Wang, W., Shen, W., Yu, W., Shi, X., Huang, X., Xu, X., Kou, Y., Lv, Y., Li, Y., Liu, Y., Wang, Y., Zhang, Y., Huang, Y., Li, Y., Wu, Y., Liu, Y., Pan, Y., Zheng, Y., Hong, Y., Shi, Y., Feng, Y., Jiang, Z., Han, Z., Wu, Z.-F., and Liu, Z. Wan: Open and advanced large-scale video generative models. In arXiv, 2025a.
- Wang et al. (2025c) Wang, S., Tian, Z., Huang, W., and Wang, L. Ddt: Decoupled diffusion transformer. In arXiv, 2025c.
- Wu et al. (2026) Wu, R., He, X., Cheng, M., Yang, T., Zhang, Y., Kang, Z., Cai, X., Wei, X., Guo, C., Li, C., and Cheng, M.-M. Infinite-world: Scaling interactive world models to 1000-frame horizons via pose-free hierarchical memory. In arXiv, 2026.
- Xia et al. (2025) Xia, Y., Ling, S., Fu, F., Wang, Y., Li, H., Xiao, X., and Cui, B. Training-free and adaptive sparse attention for efficient long video generation. In arXiv, 2025.
- Xi et al. (2025) Xi, H., Yang, S., Zhao, Y., Xu, C., Li, M., Li, X., Lin, Y., Cai, H., Zhang, J., Li, D., et al. Sparse videogen: Accelerating video diffusion transformers with spatial-temporal sparsity. In arXiv, 2025.
- Xiao et al. (2026) Xiao, J., Yang, C., Zhang, L., Cai, S., Zhao, Y., Guo, Y., Wetzstein, G., Agrawala, M., Yuille, A., and Jiang, L. Captain cinema: Towards short movie generation. In ICLR, 2026.
- Xie et al. (2025a) Xie, E., Chen, J., Chen, J., Cai, H., Tang, H., Lin, Y., Zhang, Z., Li, M., Zhu, L., Lu, Y., et al. Sana: Efficient high-resolution image synthesis with linear diffusion transformers. In ICLR, 2025a.
- Yang et al. (2024) Yang, Z., Teng, J., Zheng, W., Ding, M., Huang, S., Xu, J., Yang, Y., Hong, W., Zhang, X., Feng, G., et al. Cogvideox: Text-to-video diffusion models with an expert transformer. In arXiv, 2024.
- Yang et al. (2025) Yang, S., Xi, H., Zhao, Y., Li, M., Zhang, J., Cai, H., Lin, Y., Li, X., Xu, C., Peng, K., et al. Sparse videogen2: Accelerate video diffusion transformers with sparse attention via semantic-aware permutation. In NeurIPS, 2025.
- Yang et al. (2026) Yang, S., Huang, W., Chu, R., Xiao, Y., Zhao, Y., Wang, X., Li, M., Xie, E., Chen, Y., Lu, Y., Han, S., and Chen, Y. Longlive: Real-time interactive long video generation. In ICLR, 2026.
- Yesiltepe et al. (2026) Yesiltepe, H., Meral, T. H. S., Akan, A. K., Oktay, K., and Yanardag, P. Infinity-rope: Action-controllable infinite video generation emerges from autoregressive self-rollout. In CVPR, 2026.
- Yi et al. (2025) Yi, J., Jang, W., Cho, P. H., Nam, J., Yoon, H., and Kim, S. Deep forcing: Training-free long video generation with deep sink and participative compression. In arXiv, 2025.
- Yin et al. (2024a) Yin, T., Gharbi, M., Park, T., Zhang, R., Shechtman, E., Durand, F., and Freeman, W. T. Improved distribution matching distillation for fast image synthesis. In NeurIPS, 2024a.
- Yin et al. (2024b) Yin, T., Gharbi, M., Zhang, R., Shechtman, E., Durand, F., Freeman, W. T., and Park, T. One-step diffusion with distribution matching distillation. In CVPR, 2024b.
- Yin et al. (2025) Yin, T., Zhang, Q., Zhang, R., Freeman, W. T., Durand, F., Shechtman, E., and Huang, X. From slow bidirectional to fast autoregressive video diffusion models. In CVPR, 2025.
- Yu et al. (2025b) Yu, Y., Wu, X., Hu, X., Hu, T., Sun, Y., Lyu, X., Wang, B., Ma, L., Ma, Y., Wang, Z., and Qi, X. Videossm: Autoregressive long video generation with hybrid state-space memory. In arXiv, 2025b.
- Zhan et al. (2025) Zhan, C., Li, W., Shen, C., Zhang, J., Wu, S., and Zhang, H. Bidirectional sparse attention for faster video diffusion training. In arXiv, 2025.
- Zhang et al. (2025b) Zhang, J., Jiang, M., Dai, N., Lu, T., Uzunoglu, A., Zhang, S., Wei, Y., Wang, J., Patel, V. M., Liang, P. P., Khashabi, D., Peng, C., Chellappa, R., Shu, T., Yuille, A., Du, Y., and Chen, J. World-in-world: World models in a closed-loop world. In arXiv, 2025b.
- Zhang et al. (2025k) Zhang, Z., Chang, S., He, Y., Han, Y., Tang, J., Wang, F., and Zhuang, B. Blockvid: Block diffusion for high-quality and consistent minute-long video generation. In arXiv, 2025k.
- Zhang et al. (2026a) Zhang, J., Jiang, K., Xiang, C., Feng, W., Hu, Y., Xi, H., Chen, J., and Zhu, J. Spargeattention2: Trainable sparse attention via hybrid top-k+top-p masking and distillation fine-tuning. In arXiv, 2026a.
- Zhang et al. (2026b) Zhang, J., Wang, H., Jiang, K., Zheng, K., Jiang, Y., Stoica, I., Chen, J., Zhu, J., and Gonzalez, J. E. Sla2: Sparse-linear attention with learnable routing and qat. In arXiv, 2026b.
- Zhang et al. (2026c) Zhang, L., Cai, S., Li, M., Zeng, C., Lu, B., Rao, A., Han, S., Wetzstein, G., and Agrawala, M. Pretraining frame preservation in autoregressive video memory compression. In arXiv, 2026c.
- Zhang & Agrawala (2025) Zhang, L. and Agrawala, M. Packing input frame contexts in next-frame prediction models for video generation. In arXiv, 2025.
- Zhang et al. (2025f) Zhang, L., Cai, S., Li, M., Wetzstein, G., and Agrawala, M. Frame context packing and drift prevention in next-frame-prediction video diffusion models. In NeurIPS, 2025f.
- Zhao et al. (2025) Zhao, M., He, G., Chen, Y., Zhu, H., Li, C., and Zhu, J. Riflex: A free lunch for length extrapolation in video diffusion transformers. In ICML, 2025.
- Zheng et al. (2025) Zheng, D., Huang, Z., Liu, H., Zou, K., He, Y., Zhang, F., Zhang, Y., He, J., Zheng, W.-S., Qiao, Y., and Liu, Z. VBench-2.0: Advancing video generfation benchmark suite for intrinsic faithfulness. In arXiv, 2025.