In der schnelllebigen Welt der künstlichen Intelligenz (KI) schreitet die Entwicklung von Sprachsynthese-Systemen (TTS) rasant voran. Insbesondere nicht-autoregressive TTS-Systeme, die im Gegensatz zu ihren traditionellen, sequenziellen Gegenstücken Sprache parallel erzeugen, gewinnen zunehmend an Bedeutung. Ein vielversprechender Ansatz in diesem Bereich ist F5-TTS, ein neuartiges System, das auf Flow Matching mit Diffusion Transformer (DiT) basiert.
F5-TTS zeichnet sich durch seine Einfachheit und Effizienz aus. Im Gegensatz zu komplexeren Architekturen verzichtet es auf separate Module für Dauermodellierung, Textcodierung und Phonem-Alignment. Stattdessen wird der Text mit Füllsymbolen auf die Länge der Sprachsequenz gebracht und anschließend einem Denoising-Prozess unterzogen, um Sprache zu erzeugen. Dieses Prinzip wurde bereits von E2 TTS demonstriert, jedoch litt E2 TTS unter langsamer Konvergenz und geringer Robustheit.
F5-TTS adressiert diese Herausforderungen durch eine verbesserte Textrepräsentation mithilfe von ConvNeXt. Diese ermöglicht eine effizientere Abstimmung von Text und Sprache. Ein weiterer Vorteil von F5-TTS ist die Einführung der Sway Sampling Strategie, die die Leistung und Effizienz des Modells während der Inferenz deutlich steigert. Diese Sampling-Strategie für Flow Steps kann problemlos auf bestehende Flow Matching-Modelle angewendet werden, ohne dass ein erneutes Training erforderlich ist.
Dank seines optimierten Designs erreicht F5-TTS eine beeindruckende Inferenzgeschwindigkeit von 0.15 RTF (Real-Time Factor), was eine deutliche Verbesserung gegenüber anderen diffusionsbasierten TTS-Modellen darstellt. Trainiert auf einem umfangreichen multilingualen Datensatz mit 100.000 Stunden Sprachaufnahmen, demonstriert F5-TTS bemerkenswerte Fähigkeiten in Zero-Shot-Szenarien, nahtloses Code-Switching und effiziente Geschwindigkeitskontrolle.
Die Veröffentlichung von F5-TTS, inklusive Code und Checkpoints, ist ein wichtiger Schritt für die Weiterentwicklung von TTS-Systemen. Die Kombination aus hoher Sprachqualität, schneller Inferenz und einfacher Architektur macht F5-TTS zu einem vielversprechenden Kandidaten für verschiedene Anwendungen, von Sprachassistenten bis hin zur Generierung von Audiodeskriptionen.
### Bibliographie
- https://github.com/elayer/Steam-Elden-Ring-Reviews-Project/blob/main/NLP%20Steam%20Reviews%20-%20LSA%20%26%20LDA%20(Latent%20Dirichlet%20Analysis%2C%20Latent%20Semantic%20Analysis)%20v3.ipynb
- http://agl.cs.unm.edu/~chris2d/papers/freq2.txt
- https://github.com/google-research-datasets/gap-coreference/blob/master/gap-development.tsv
- https://home.ttic.edu/~kgimpel/software/nogappats-acl11.txt
- https://archive.org/stream/WordsAndIdeas/Words%20and%20Ideas_djvu.txt
- https://www.lingexp.uni-tuebingen.de/z2/Morphology/baroni.rows
- https://public.ukp.informatik.tu-darmstadt.de/reimers/embeddings/wikipedia_word_frequencies.txt
- https://core.ac.uk/download/pdf/288383019.pdf
- https://huggingface.co/sentence-transformers/average_word_embeddings_komninos/commit/df610d658d812159de8fa0c97c3ace87b8955b3b.diff?file=0_WordEmbeddings%2Fwhitespacetokenizer_config.json
- https://editura.mttlc.ro/carti/c_g_sandulescu_vol_32_german_contextualized_ep_9_to_11.pdf