Das Wichtigste in Kürze
- DyCAST ist ein neuer Ansatz zur dynamischen, zeichenorientierten Sprach-Tokenisierung, der eine variable Framerate ermöglicht.
- Im Gegensatz zu traditionellen Kodierungen mit fester Framerate passt DyCAST die Token-Dauer an den sprachlichen Inhalt an, was zu kürzeren und effizienteren Sequenzen führt.
- Das Framework nutzt eine weiche zeichenbasierte Ausrichtung und explizite Dauer-Modellierung.
- Ein Mechanismus zur retrieval-augmentierten Dekodierung verbessert die Rekonstruktionsqualität bei niedrigen Bitraten ohne Erhöhung der Bitrate.
- DyCAST zeigt eine wettbewerbsfähige Leistung bei der Sprach-Resynthese und in nachgelagerten Aufgaben, während es deutlich weniger Token verwendet als Kodierungen mit fester Framerate.
- Die Methode bietet Flexibilität bei der Kodierung und Dekodierung, einschließlich der Steuerung von Frameraten und der Rekonstruktionsqualität.
Als Senior Specialist Journalist und Analyst für Mindverse, ein führendes deutsches KI-Unternehmen, das sich auf KI-gestützte Content-Tools spezialisiert hat, beobachten wir kontinuierlich die neuesten Entwicklungen im Bereich der Künstlichen Intelligenz. Ein aktueller Fokus liegt auf Innovationen im Bereich der Sprachverarbeitung, insbesondere auf der Effizienz und Qualität von Sprach-Tokenisierungsverfahren. Die jüngste Veröffentlichung zum Thema "Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization" stellt einen bedeutsamen Fortschritt dar, der das Potenzial hat, die Art und Weise, wie wir Sprache in Large Language Models (LLMs) verarbeiten, maßgeblich zu verändern. Im Folgenden analysieren wir die Kernaspekte dieser Entwicklung und deren Implikationen für B2B-Anwendungen.
Revolutionäre Sprach-Tokenisierung: DyCAST im Detail
Neurale Audio-Codecs bilden das Fundament moderner Konversations-Sprachtechnologien. Sie wandeln kontinuierliche Sprachsignale in diskrete Token-Sequenzen um, die von LLMs verarbeitet werden können. Bislang operieren die meisten dieser Codecs mit festen Frameraten, was bedeutet, dass Token zeitlich gleichmäßig verteilt werden. Dies führt oft zu unnötig langen Sequenzen, da die Informationsdichte in der Sprache nicht konstant ist – Stille und gleichmäßige Segmente sind informationsarm, während sich schnell ändernde Segmente informationsreich sind. Dieser Ansatz ist nicht optimal auf die inhärent variable zeitliche Struktur der Sprache abgestimmt.
Die Einführung von DyCAST
Das neue Framework namens DyCAST (Dynamic Character-Aligned Speech Tokenizer) adressiert diese Limitationen, indem es eine variable Framerate für die Tokenisierung ermöglicht. Dies geschieht durch eine Kombination aus weicher zeichenbasierter Ausrichtung (soft character-level alignment) und expliziter Dauer-Modellierung. DyCAST lernt während des Trainings, Token mit sprachlichen Einheiten auf Zeichenebene zu assoziieren. Dies ermöglicht es dem System, die Dauer der Token direkt zu steuern und eine ausrichtungsfreie Inferenz zu unterstützen.
Verbesserung der Rekonstruktionsqualität und Effizienz
Ein weiterer wesentlicher Beitrag von DyCAST ist ein Mechanismus zur retrieval-augmentierten Dekodierung. Dieser Mechanismus zielt darauf ab, die Qualität der Sprach-Resynthese bei niedrigen Frameraten zu verbessern, ohne die Bitrate zu erhöhen. Experimentelle Ergebnisse zeigen, dass DyCAST eine wettbewerbsfähige Sprach-Resynthese-Qualität und nachgelagerte Leistung erzielt, während es signifikant weniger Token verwendet als herkömmliche Codecs mit fester Framerate. Dies resultiert in einer verbesserten Effizienz und erleichtert die Modellierung von Sequenzen in Transformer-Architekturen.
Architektur und Funktionsweise von DyCAST
Das DyCAST-Framework baut auf einer modularen Architektur auf, die durch dedizierte Module für dynamisches Pooling erweitert wird.
Dynamisches Chunking
Das Kernstück des dynamischen Chunkings ist ein Boundary Predictor, der semantisch bedeutsame Segmentgrenzen identifiziert, und ein Downsampler, der Frame-Level-Repräsentationen innerhalb jedes Segments zu kompakten Chunk-Level-Repräsentationen zusammenfasst. Für das Training der Segmentgrenzen wird ein vortrainierter Zeichen-Aligner verwendet, der zeichenbasierte Dauern liefert. Der Boundary Predictor nutzt ein diskretes Hazard-Modell, um die Zeit bis zur nächsten Grenze zu modellieren, was eine zeitlich abhängige und normierte Vorhersage ermöglicht.
Entschunking und Dauer-Modellierung
Das Dechunker-Modul umfasst einen Dauer-Prädiktor und einen Upsampler. Der Dauer-Prädiktor schätzt die Anzahl der Frames, die jedem zeichenorientierten diskreten Token zugeordnet sind. Da im Allgemeinen nur die Token-Sequenz, nicht aber die ursprünglichen Segmentgrenzen übertragen werden, ist dies entscheidend für die Wiederherstellung der zeitlichen Struktur. Ein negatives Binomial-Dauermodell wird verwendet, um die Verteilung der Token-Dauern zu modellieren, was eine hohe Flexibilität bei der Abbildung von überdispersen Zähldaten ermöglicht, die typisch für Sprachdauern sind.
Retrieval-Augmentierte Dekodierung (RAD)
Da zeichenorientierte Repräsentationen naturgemäß zu sehr niedrigen Frameraten führen, wird die genaue Wellenform-Rekonstruktion anspruchsvoller. Um dies zu adressieren, wurde die Retrieval-Augmentierte Dekodierung (RAD) integriert. RAD verbessert die Rekonstruktionsqualität, indem sie Hilfsinformationen während der Dekodierung nutzt, ohne die Bitrate zu erhöhen. Dies geschieht durch den Abruf ähnlicher latenter Vektoren aus einem Pool kontinuierlicher Latents, was die Wiedergabetreue und feine akustische Details verbessert, insbesondere bei niedrigen Bitraten.
Experimentelle Evaluation und Ergebnisse
Die Leistungsfähigkeit von DyCAST wurde umfassend evaluiert, insbesondere in Bezug auf Sprach-Resynthese, Voice Conversion und diskriminative sowie generative Aufgaben.
Sprach-Resynthese und Voice Conversion
DyCAST zeigt eine starke Balance zwischen Rekonstruktionsqualität und Token-Effizienz. Es operiert mit deutlich niedrigeren Frameraten als feste Framerate-Baselines, während es eine vergleichbare Leistung in allen Metriken beibehält. Insbesondere DyCAST-CA (Character-Aligned) und DyCAST-BP1 (Boundary Predictor mit min_gap=1) erreichen dWER-Werte, die mit denen von Hochraten-Baselines vergleichbar sind, was die Fähigkeit belegt, linguistischen Inhalt auch bei reduzierten Token-Raten zu erhalten.
Die retrieval-augmentierte Dekodierung wurde als effektiver Mechanismus zur Verbesserung der Verständlichkeit und Sprecherähnlichkeit bei niedrigen Token-Raten identifiziert, ohne die Natürlichkeit zu beeinträchtigen. Dies ist besonders vorteilhaft, wenn Token-Sequenzen kurz sind und die Rekonstruktionsambiguität höher ist.
Diskriminative Aufgaben
In diskriminativen Aufgaben wie automatischer Spracherkennung (ASR), Sprecheridentifikation (SI) und Spracherkennung von Emotionen (SER) zeigt DyCAST eine gute Leistung, obwohl es mit deutlich niedrigeren Frameraten arbeitet. Die zeichenorientierte Variante von DyCAST erzielt die beste ASR-Leistung unter allen verglichenen Codecs, was den Vorteil der expliziten Modellierung von Dauern und linguistischer Ausrichtung hervorhebt.
Text-to-Speech (TTS)
Für Text-to-Speech-Anwendungen (TTS) demonstriert DyCAST ebenfalls eine starke Leistung. Die geringeren Frameraten führen zu kürzeren Sequenzen, was das Lernen für autoregressive Modelle erleichtert. Insbesondere die DyCAST-CA-Variante, die eine nicht-autoregressive Eins-zu-Eins-Architektur ermöglicht, erzielt die beste TTS-Leistung über alle Metriken hinweg. Dies unterstreicht das Potenzial von DyCAST für hochqualitative und effiziente Inferenz in datenlimitierten TTS-Szenarien.
Fazit und Ausblick
DyCAST stellt einen wichtigen Schritt in der Entwicklung von Sprach-Codecs dar. Durch die Einführung einer variablen Framerate, die auf weicher zeichenbasierter Ausrichtung und expliziter Dauer-Modellierung basiert, adressiert es fundamentale Ineffizienzen traditioneller Systeme. Die Fähigkeit, wesentlich kürzere Token-Sequenzen zu erzeugen und dennoch eine hohe Rekonstruktionsqualität und Leistung in verschiedenen nachgelagerten Aufgaben zu gewährleisten, ist von großer Bedeutung. Die Flexibilität von DyCAST in Bezug auf die Steuerung von Frameraten, Bitraten und Rekonstruktionsqualität, kombiniert mit der retrieval-augmentierten Dekodierung, bietet eine vielversprechende Grundlage für die nächste Generation von Sprach-Tokenisierungs-Technologien. Für B2B-Kunden von Mindverse bedeutet dies das Potenzial für effizientere, leistungsfähigere und anpassungsfähigere KI-gestützte Sprachlösungen, die sowohl die Qualität als auch die Kosten-Effizienz verbessern können.
Bibliographie
- Della Libera, L., Subakan, C., & Ravanelli, M. (2026). Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization. arXiv preprint arXiv:2601.23174.
- Ahia, O., Kumar, S., Gonen, H., Hofmann, V., Limisiewicz, T., Tsvetkov, Y., & Smith, N. A. (2024). MAGNET: improving the multilingual fairness of language models with adaptive gradient-based tokenization. In International Conference on Neural Information Processing Systems (NeurIPS), Vol. 37, pp. 47790–47814.
- Baas, M., van Niekerk, B., & Kamper, H. (2023). Voice conversion with just nearest neighbors. In Interspeech, pp. 2053–2057.
- Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). Wav2vec 2.0: a framework for self-supervised learning of speech representations. In International Conference on Neural Information Processing Systems (NeurIPS), pp. 12449–12460.
- Bai, H., Likhomanenko, T., Zhang, R., Gu, Z., Aldeneh, Z., & Jaitly, N. (2024). dMel: speech tokenization made simple. arXiv preprint arXiv:2407.15835.
- Borsos, Z., Marinier, R., Vincent, D., Kharitonov, E., Pietquin, O., Sharifi, M., Roblek, D., Teboul, O., Grangier, D., Tagliasacchi, M., & Zeghidour, N. (2023). AudioLM: a language modeling approach to audio generation. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 31, pp. 2523–2533.
- Busso, C., Bulut, M., Lee, C., Kazemzadeh, A., Mower, E., Kim, S., Chang, J. N., Lee, S., & Narayanan, S. S. (2008). IEMOCAP: interactive emotional dyadic motion capture database. Language Resources and Evaluation, 42(4), pp. 335–359.
- Chang, H., Gong, H., Wang, C., Glass, J., & Chung, Y. (2025). DC-Spin: a speaker-invariant speech tokenizer for spoken language models. In Interspeech, pp. 5723–5727.
- Chen, S., Wang, C., Chen, Z., Wu, Y., Liu, S., Chen, Z., Li, J., Kanda, N., Yoshioka, T., Xiao, X., Wu, J., Zhou, L., Ren, S., Qian, Y., Qian, Y., Wu, J., Zeng, M., Yu, X., & Wei, F. (2022). WavLM: large-scale self-supervised pre-training for full stack speech processing. IEEE Journal of Selected Topics in Signal Processing, pp. 1505–1518.
- Chen, S., Wang, C., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J., He, L., Zhao, S., & Wei, F. (2025). Neural codec language models are zero-shot text to speech synthesizers. IEEE Transactions on Audio, Speech and Language Processing (TASLP), 33, pp. 705–718.
- Comanici, G., Bieber, E., Schaekermann, M., Pasupat, I., Sachdeva, N., Dhillon, I., Blistein, M., Ram, O., Zhang, D., Rosen, E., et al. (2025). Gemini 2.5: pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities. arXiv preprint arXiv:2507.06261.
- Copet, J., Kreuk, F., Gat, I., Remez, T., Kant, D., Synnaeve, G., Adi, Y., & Defossez, A. (2023). Simple and controllable music generation. In International Conference on Neural Information Processing Systems (NeurIPS), Vol. 36, pp. 47704–47720.
- Cosentino, J., Pariente, M., Cornell, S., Deleforge, A., & Vincent, E. (2020). LibriMix: an open-source dataset for generalizable speech separation. arXiv preprint arXiv:2005.11262.
- Cuervo, S., Łańcucki, A., Marxer, R., Rychlikowski, P., & Chorowski, J. (2022). Variable-rate hierarchical CPC leads to acoustic unit discovery in speech. In International Conference on Neural Information Processing Systems (NeurIPS), Vol. 35, pp. 34995–35006.
- DeepSeek-AI, Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., Zhao, C., Deng, C., Zhang, C., et al. (2025). DeepSeek-V3 technical report. arXiv preprint arXiv:2412.19437.
- Défossez, A., Copet, J., Synnaeve, G., & Adi, Y. (2023). High fidelity neural audio compression. Transactions on Machine Learning Research (TMLR).
- Défossez, A., Mazaré, L., Orsini, M., Royer, A., Pérez, P., Jégou, H., Grave, E., & Zeghidour, N. (2024). Moshi: a speech-text foundation model for real-time dialogue. arXiv preprint arXiv:2410.00037.
- Della Libera, L., Paissan, F., Subakan, C., & Ravanelli, M. (2025a). FocalCodec: low-bitrate speech coding via focal modulation networks. In International Conference on Neural Information Processing Systems (NeurIPS).
- Della Libera, L., Subakan, C., & Ravanelli, M. (2024). Focal modulation networks for interpretable sound classification. In IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW), pp. 853–857.
- Della Libera, L., Subakan, C., & Ravanelli, M. (2025b). FocalCodec-Stream: Streaming low-bitrate speech coding via causal distillation. arXiv preprint arXiv:2509.16195.
- Dieleman, S., Nash, C., Engel, J., & Simonyan, K. (2021). Variable-rate discrete representation learning. arXiv preprint arXiv:2103.06089.
- Gong, Y., Jin, L., Deng, R., Zhang, D., Zhang, X., Cheng, Q., Fei, Z., Li, S., & Qiu, X. (2025). XY-Tokenizer: mitigating the semantic-acoustic conflict in low-bitrate speech codecs. arXiv preprint arXiv:2506.23325.
- Grattafiori, A., Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Vaughan, A., Yang, A., Fan, A., et al. (2024). The Llama 3 herd of models. arXiv preprint arXiv:2407.21783.
- Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J. (2006). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In International Conference on Machine Learning (ICML), pp. 369–376.
- Guo, Y., Li, Z., Wang, H., Li, B., Shao, C., Zhang, H., Du, C., Chen, X., Liu, S., & Yu, K. (2025). Recent advances in discrete speech tokens: a review. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
- Har-Tuv, N., Tal, O., & Adi, Y. (2025). PAST: phonetic-acoustic speech tokenizer. In Interspeech, pp. 3509–3513.
- Hsu, M., Tseng, L., Lee, H., & Wu, Z. (2025). TASLA: text-aligned speech tokens with multiple layer-aggregation. arXiv preprint arXiv:2510.14934.
- Hsu, W., Bolte, B., Tsai, Y. H., Lakhotia, K., Salakhutdinov, R., & Mohamed, A. (2021). HuBERT: self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, pp. 3451–3460.
- Hwang, S., Wang, B., & Gu, A. (2025). Dynamic chunking for end-to-end hierarchical sequence modeling. arXiv preprint arXiv:22507.07955.
- Ji, S., Jiang, Z., Wang, W., Chen, Y., Fang, M., Zuo, J., Yang, Q., Cheng, X., Wang, Z., Li, R., Zhang, Z., Yang, X., Huang, R., Jiang, Y., Chen, Q., Zheng, S., Wang, W., & Zhao, Z. (2025). WavTokenizer: an efficient acoustic discrete codec tokenizer for audio language modeling. In International Conference on Learning Representations (ICLR).
- Jiang, A. Q., Sablayrolles, A., Roux, A., Mensch, A., Savary, B., Chaplot, D. S., de las Casas, D., & B. H., E. (2024a). Mixtral of experts. arXiv preprint arXiv:2401.04088.
- Jiang, X., Peng, X., Zhang, Y., & Lu, Y. (2024b). Universal speech token learning via low-bitrate neural codec and pretrained representations. IEEE Journal of Selected Topics in Signal Processing, pp. 1–13.
- Johnson, J., Douze, M., & Jégou, H. (2019). Billion-scale similarity search with GPUs. IEEE Transactions on Big Data, 7(3), pp. 535–547.
- Ju, Z., Wang, Y., Shen, K., Tan, X., Xin, D., Yang, D., Liu, Y., Leng, Y., Song, K., Tang, S., Wu, Z., Qin, T., Li, X., Ye, W., Zhang, S., Bian, J., He, L., Li, J., & Zhao, S. (2024). NaturalSpeech 3: zero-shot speech synthesis with factorized codec and diffusion models. In International Conference on Machine Learning (ICML).
- Kong, J., Kim, J., & Bae, J. (2020). HiFi-GAN: generative adversarial networks for efficient and high fidelity speech synthesis. In International Conference on Neural Information Processing Systems (NeurIPS).
- Kumar, R., Seetharaman, P., Luebs, A., Kumar, I., & Kumar, K. (2023). High-fidelity audio compression with improved RVQGAN. In International Conference on Neural Information Processing Systems (NeurIPS).
- Labiausse, T., Mazaré, L., Grave, E., Défossez, A., & Zeghidour, N. (2025). High-fidelity simultaneous speech-to-speech translation. In International Conference on Machine Learning (ICML).
- Li, J., Lin, X., Li, Z., Huang, S., Wang, Y., Wang, C., Zhan, Z., & Wu, Z. (2025a). DualCodec: a low-frame-rate, semantically-enhanced neural audio codec for speech generation. In Interspeech 2025, pp. 4883–4887.
- Li, J., Qian, Y., Hu, Y., Zhang, L., Wang, X., Lu, H., Thakker, M., Li, J., Zhao, S., & Wu, Z. (2025b). FlexiCodec: a dynamic neural audio codec for low frame rates. arXiv preprint arXiv:2510.00981.
- Liu, H., Xu, X., Yuan, Y., Wu, M., Wang, W., & Plumbley, M. D. (2024). SemantiCodec: an ultra low bitrate semantic audio codec for general sound. IEEE Journal of Selected Topics in Signal Processing, 18(8), pp. 1448–1461.
- Loshchilov, I., & Hutter, F. (2019). Decoupled weight decay regularization. In International Conference on Learning Representations (ICLR).
- Lu, Y., Gaur, Y., Zhou, W., Muller, B., Villalba, J., Dehak, N., Zettlemoyer, L., Ghosh, G., Lewis, M., Iyer, S., & Le, D. (2025). Latent speech-text transformer. arXiv preprint arXiv:2510.06195.
- Mentzer, F., Minnen, D., Agustsson, E., & Tschannen, M. (2024). Finite scalar quantization: VQ-VAE made simple. In International Conference on Learning Representations (ICLR).
- Messica, S., & Adi, Y. (2024). NAST: noise aware speech tokenization for speech language models. In Interspeech, pp. 4169–4173.
- Mousavi, P., Della Libera, L., Duret, J., Ploujnikov, A., Subakan, C., & Ravanelli, M. (2024a). DASB - discrete audio and speech benchmark. arXiv preprint arXiv:2406.14294.
- Mousavi, P., Duret, J., Zaiem, S., Della Libera, L., Ploujnikov, A., Subakan, C., & Ravanelli, M. (2024b). How should we extract discrete audio tokens from self-supervised models?. In Interspeech, pp. 2554–2558.
- Mousavi, P., Maimon, G., Moumen, A., Petermann, D., Shi, J., Wu, H., Yang, H., Kuznetsova, A., Ploujnikov, A., Marxer, R., et al. (2025). Discrete audio tokens: more than a survey!. Transactions on Machine Learning Research (TMLR).
- Nawrot, P., Chorowski, J., Lancucki, A., & Ponti, E. M. (2023). Efficient transformers with dynamic token pooling. In Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 6403–6417.
- Nguyen, T. A., Muller, B., Yu, B., Costa-jussa, M. R., Elbayad, M., Popuri, S., Ropers, C., Duquenne, P., Algayres, R., Mavlyutov, R., Gat, I., Williamson, M., Synnaeve, G., Pino, J., Sagot, B., & Dupoux, E. (2025). SpiRit-LM: interleaved spoken and written language model. Transactions of the Association for Computational Linguistics (TACL), 13, pp. 30–52.
- Pagnoni, A., Pasunuru, R., Rodriguez, P., Nguyen, J., Muller, B., Li, M., Zhou, C., Yu, L., Weston, J. E., Zettlemoyer, L., Ghosh, G., Lewis, M., Holtzman, A., & Iyer, S. (2025). Byte latent transformer: patches scale better than tokens. In Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 9238–9258.
- Panayotov, V., Chen, G., Povey, D., & Khudanpur, S. (2015). LibriSpeech: an ASR corpus based on public domain audio books. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5206–5210.
- Parker, J. D., Smirnov, A., Pons, J., Carr, C., Zukowski, Z., Evans, Z., & Liu, X. (2025). Scaling transformers for low-bitrate high-quality speech coding. In International Conference on Learning Representations (ICLR).
- Pratap, V., Xu, Q., Sriram, A., Synnaeve, G., & Collobert, R. (2020). MLS: a large-scale multilingual dataset for speech research. In Interspeech, pp. 2757–2761.
- Pratap, V., Tjandra, A., Shi, B., Tomasello, P., Babu, A., Kundu, S., Elkahky, A., Ni, Z., Vyas, A., Fazel-Zarandi, M., Baevski, A., Adi, Y., Zhang, X., Hsu, W., Conneau, A., & Auli, M. (2024). Scaling speech technology to 1,000+ languages. Journal of Machine Learning Research (JMLR), 25.
- Radford, A., Kim, J. W., Xu, T., Brockman, G., Mcleavey, C., & Sutskever, I. (2023). Robust speech recognition via large-scale weak supervision. In International Conference on Machine Learning (ICML), Vol. 202, pp. 28492–28518.
- Ravanelli, M., Parcollet, T., Moumen, A., de Langen, S., Subakan, C., Plantinga, P., Wang, Y., Mousavi, P., Della Libera, L., Ploujnikov, A., Paissan, F., Borra, D., Zaiem, S., Zhao, Z., Zhang, S., Karakasidis, G., Yeh, S., Champion, P., Rouhe, A., Braun, R., Mai, F., Zuluaga-Gomez, J., Mousavi, S. M., Nautsch, A., Nguyen, H., Liu, X., Sagar, S., Duret, J., Mdhaffar, S., Laperrière, G., Rouvier, M., Mori, R. D., & Estève, Y. (2024). Open-source conversational AI with SpeechBrain 1.0. Journal of Machine Learning Research (JMLR), 25(333), pp. 1–11.
- Ravanelli, M., Parcollet, T., Plantinga, P., Rouhe, A., Cornell, S., Lugosch, L., Subakan, C., Dawalatabad, N., Heba, A., Zhong, J., Chou, J., Yeh, S., Fu, S., Liao, C., Rastorgueva, E., Grondin, F., Aris, W., Na, H., Gao, Y., Mori, R. D., & Bengio, Y. (2021). SpeechBrain: a general-purpose speech toolkit. arXiv preprint arXiv:2106.04624.
- Reddy, C. K., Gopal, V., & Cutler, R. (2022). DNSMOS P.835: a non-intrusive perceptual objective speech quality metric to evaluate noise suppressors. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
- Ren, K., Qin, J., Zheng, L., Yang, Z., Zhang, W., Qiu, L., & Yu, Y. (2019). Deep recurrent survival analysis. In AAAI Conference on Artificial Intelligence.
- Rix, A. W., Beerends, J. G., Hollier, M. P., & Hekstra, A. P. (2001). Perceptual evaluation of speech quality (PESQ)—a new method for speech quality assessment of telephone networks and codecs. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 749–752.
- Saeki, T., Xin, D., Nakata, W., Koriyama, T., Takamichi, S., & Saruwatari, H. (2022). UTMOS: UTokyo-SaruLab system for VoiceMOS challenge 2022. In Interspeech, pp. 4521–4525.
- Singer, J. D., & Willett, J. B. (1993). It’s about time: using discrete-time survival analysis to study duration and the timing of events. Journal of Educational Statistics, 18(2), pp. 155–195.
- Singh, A., Fry, A., Perelman, A., Tart, A., Ganesh, A., El-Kishky, A., McLaughlin, A., Low, A., Ostrow, A., Ananthram, A., et al. (2025). OpenAI GPT-5 system card. arXiv preprint arXiv:2601.03267.
- Siuzdak, H. (2024). Vocos: closing the gap between time-domain and fourier-based neural vocoders for high-quality audio synthesis. In International Conference on Learning Representations (ICLR).
- Slagle, K. (2024). SpaceByte: towards deleting tokenization from large language modeling. In International Conference on Neural Information Processing Systems (NeurIPS), Vol. 37, pp. 124925–124950.
- Song, Y., Chen, J., Zhuang, X., Du, C., Ma, Z., Wu, J., Cong, J., Jia, D., Chen, Z., Wang, Y., Wang, Y., & Chen, X. (2025). MagiCodec: simple masked gaussian-injected codec for high-fidelity reconstruction and generation. arXiv preprint arXiv:2506.00385.
- Taal, C. H., Hendriks, R. C., Heusdens, R., & Jensen, J. (2011). An algorithm for intelligibility prediction of time–frequency weighted noisy speech. IEEE Transactions on Audio, Speech and Language Processing (TASLP), pp. 2125–2136.
- Tan, W., Inaguma, H., Dong, N., Tomasello, P. D., & Ma, X. (2025). SSR: alignment-aware modality connector for speech language models. In International Conference on Spoken Language Translation (IWSLT 2025), E. Salesky, M. Federico, & A. Anastasopoulos (Eds.), pp. 56–75.
- Tian, J., Shi, J., Chen, W., Arora, S., Masuyama, Y., Maekaku, T., Wu, Y., Peng, J., Bharadwaj, S., Zhao, Y., Cornell, S., Peng, Y., Yue, X., Yang, C. H., Neubig, G., & Watanabe, S. (2025). ESPnet-SpeechLM: an open speech language model toolkit. In Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics (NAACL): Human Language Technologies (System Demonstrations), pp. 116–124.
- Tseng, L., Chen, Y., Lee, K., Shiu, D., & Lee, H. (2025). TASTE: text-aligned speech tokenization and embedding for spoken language modeling. arXiv preprint arXiv:2504.07053.
- Valentini-Botinhao, C., Wang, X., Takaki, S., & Yamagishi, J. (2016). Investigating RNN-based speech enhancement methods for noise-robust text-to-speech. In Speech Synthesis Workshop, pp. 146–152.
- Van Kuyk, S., Kleijn, W. B., & Hendriks, R. C. (2017). On the information rate of speech communication. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5625–5629.
- Videau, M., Y. Idrissi, B., Leite, A., Schoenauer, M., Teytaud, O., & Lopez-Paz, D. (2025). From bytes to ideas: language modeling with autoregressive U-Nets. In International Conference on Neural Information Processing Systems (NeurIPS).
- Wang, H., Guo, Y., Shao, C., Li, B., Chen, X., & Yu, K. (2025a). CodecSlime: temporal redundancy compression of neural speech codec via dynamic frame rate. arXiv preprint arXiv:2506.21074.
- Wang, Y., Chen, D., Zhang, X., Zhang, J., Li, J., & Wu, Z. (2025b). TaDiCodec: text-aware diffusion speech tokenizer for speech language modeling. In International Conference on Neural Information Processing Systems (NeurIPS).
- Wang, Z., et al. (2021). Sequential multi-frame neural beamforming for speech separation and enhancement. In IEEE Spoken Language Technology Workshop (SLT), pp. 905–911.
- Wang, Z., Zhu, X., Zhang, Z., Lv, Y., Jiang, N., Zhao, G., & Xie, L. (2024). SELM: speech enhancement using discrete tokens and language models. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 11561–11565.
- Wichern, G., Antognini, J., Flynn, M., Zhu, L. R., McQuinn, E., Crow, D., Manilow, E., & Roux, J. L. (2019). WHAM!: extending speech separation to noisy environments. In Interspeech, pp. 1368–1372.
- Wu, H., Kanda, N., Eskimez, S. E., & Li, J. (2025). TS3-Codec: transformer-based simple streaming single codec. In Interspeech, pp. 604–608.
- Xin, D., Tan, X., Takamichi, S., & Saruwatari, H. (2024). BigCodec: pushing the limits of low-bitrate neural speech codec. arXiv preprint arXiv:2409.05377.
- Yamagishi, J., Veaux, C., & MacDonald, K. (2017). CSTR VCTK corpus: english multi-speaker corpus for CSTR voice cloning toolkit. University of Edinburgh. The Centre for Speech Technology Research (CSTR), 6, pp. 15.
- Yang, D., Liu, S., Guo, H., Zhao, J., Wang, Y., Wang, H., Ju, Z., Liu, X., Chen, X., Tan, X., Wu, X., & Meng, H. M. (2025). ALMTokenizer: a low-bitrate and semantic-rich audio codec tokenizer for audio language modeling. In International Conference on Machine Learning (ICML).
- Yang, J., Li, C., Dai, X., & Gao, J. (2022). Focal modulation networks. In International Conference on Neural Information Processing Systems (NeurIPS).
- Ye, Z., Zhu, X., Chan, C., Wang, X., Tan, X., Lei, J., Peng, Y., Liu, H., Jin, Y., Dai, Z., Lin, H., Chen, J., Du, X., Xue, L., Chen, Y., Li, Z., Xie, L., Kong, Q., Guo, Y., & Xue, W. (2025). Llasa: scaling train-time and inference-time compute for Llama-based speech synthesis. arXiv preprint arXiv:2502.04128.
- Zeghidour, N., Kharitonov, E., Orsini, M., Volhejn, V., de Marmiesse, G., Grave, E., Pérez, P., Mazaré, L., & Défossez, A. (2025). Streaming sequence-to-sequence learning with delayed streams modeling. arXiv preprint arXiv:2509.08753.
- Zeghidour, N., Luebs, A., Omran, A., Skoglund, J., & Tagliasacchi, M. (2021). SoundStream: an end-to-end neural audio codec. IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp. 495–507.
- Zen, H., Dang, V., Clark, R., Zhang, Y., Weiss, R. J., Jia, Y., Chen, Z., & Wu, Y. (2019). LibriTTS: a corpus derived from LibriSpeech for text-to-speech. In Interspeech.
- Zen, H., Tokuda, K., & Black, A. W. (2009). Statistical parametric speech synthesis. Speech Communication, 51(11), pp. 1039–1064.
- Zhang, H., Guo, Y., Li, Z., Hao, X., Chen, X., & Yu, K. (2025). Unlocking temporal flexibility: neural speech codec with variable frame rate. In Interspeech, pp. 5003–5007.
- Zhang, X., Zhang, D., Li, S., Zhou, Y., & Qiu, X. (2024). SpeechTokenizer: unified speech tokenizer for speech large language models. In International Conference on Learning Representations (ICLR).
- Zhao, Y., Xiong, Y., & Krähenbühl, P. (2025). Image and video tokenization with binary spherical quantization. In International Conference on Learning Representations (ICLR).
- Zheng, R., Liu, W., Du, H., Zhang, Q., Deng, C., Chen, Q., Wang, W., Ai, Y., & Ling, Z. (2026). Say more with less: variable-frame-rate speech tokenization via adaptive clustering and implicit duration coding. In AAAI Conference on Artificial Intelligence.
- Zheng, Y., Tu, W., Kang, Y., Chen, J., Zhang, Y., Xiao, L., Yang, Y., & Ma, L. (2025). FreeCodec: a disentangled neural speech codec with fewer tokens. In Interspeech, pp. 4878–4882.
- Zobel, J., & Moffat, A. (2006). Inverted files for text search engines. ACM Computing Surveys (CSUR), 38(2), pp. 6–es.