Künstliche Intelligenz revolutioniert die Sprachsynthese mit OpenVoice

Kategorien:
No items found.
Freigegeben:

In den letzten Jahren hat sich die künstliche Intelligenz (KI) rasant weiterentwickelt und beeindruckende Fortschritte in verschiedenen Bereichen erzielt, unter anderem in der Sprachsynthese und Stimmenimitation. Jüngste Entwicklungen in diesem Bereich haben auf der Open-Source-Plattform GitHub für Aufsehen gesorgt. Dort hat das Projekt "OpenVoice" von MyShell AI, das die Klonung von Stimmen nahezu in Echtzeit ermöglicht, eine Spitzenposition erreicht und eine lebhafte Diskussion in der Entwicklergemeinschaft ausgelöst.

OpenVoice ist eine Implementierung, die auf den Forschungsarbeiten von Zengyi Qin vom Massachusetts Institute of Technology (MIT) und weiteren Wissenschaftlern von der Tsinghua-Universität und MyShell basiert. Diese Technologie erlaubt es, die Klangfarbe einer Stimme präzise zu klonen und Sprache in verschiedenen Sprachen und Akzenten zu generieren. Dabei ermöglicht OpenVoice eine detaillierte Kontrolle über den Stil der geklonten Stimme, einschließlich Emotion und Akzent, sowie über weitere Parameter wie Rhythmus, Pausen und Intonation.

Ein besonderes Merkmal von OpenVoice ist die Fähigkeit, Stimmen ohne vorherige Trainingsdaten in der Ziel- oder Referenzsprache zu klonen – ein Verfahren, das als Zero-Shot Cross-Lingual Voice Cloning bezeichnet wird. Dies bedeutet, dass weder die Sprache der generierten Sprache noch die Sprache der Referenzsprache in dem umfangreichen, mehrsprachigen Trainingsdatensatz vorhanden sein müssen.

Die Technologie von OpenVoice wurde bereits seit Mai 2023 in der Sprachklonierungsfunktion von myshell.ai eingesetzt. Bis November 2023 wurde das Sprachklonierungsmodell bereits millionenfach von Nutzern weltweit verwendet, was zu einem explosiven Wachstum der Nutzerzahlen auf der Plattform führte.

Die Implementierung, die auf GitHub verfügbar ist, nähert sich der Leistung der internen Sprachklontechnologie von myshell.ai an. Die Online-Version in myshell.ai bietet jedoch eine bessere Audioqualität, eine höhere Ähnlichkeit bei der Sprachklonierung, eine natürlichere Sprache und eine höhere Recheneffizienz.

Für die Einrichtung von OpenVoice wird empfohlen, ein Conda-Umfeld zu verwenden und bestimmte Abhängigkeiten, wie ffmpeg und PyTorch, zu installieren. Anschließend können Nutzer mit Hilfe von Jupyter Notebooks Beispiele für flexible Stilkontrolle und sprachübergreifendes Klonen durchführen. Zusätzlich steht ein lokales Gradio-Demo zur Verfügung, das mittels Python gestartet werden kann.

OpenVoice ist als Open Source unter der Creative Commons Attribution-NonCommercial 4.0 International License lizenziert, was die kommerzielle Nutzung ausschließt. MyShell behält sich jedoch das Recht vor, festzustellen, ob ein Audio von OpenVoice generiert wurde, unabhängig davon, ob ein Wasserzeichen hinzugefügt wurde oder nicht.

Das Projekt baut auf mehreren exzellenten Projekten wie TTS, VITS und VITS2 auf und dankt diesen für ihre hervorragende Arbeit. OpenVoice ist ein weiteres Beispiel dafür, wie Open-Source-Projekte und die Zusammenarbeit in der Entwicklergemeinschaft die Entwicklung in Bereichen wie der KI vorantreiben können.

Das zunehmende Interesse an Sprachsynthese und Stimmenklonierung spiegelt sich auch in der Stärke und Vielfalt der auf GitHub verfügbaren Projekte wider. Mit Projekten, die von einfachen Text-to-Speech-Implementierungen bis hin zu komplexen Systemen für Sprachsynthese und -klonierung reichen, zeigt sich die Dynamik dieses Forschungsbereichs.

Es bleibt abzuwarten, wie sich die Technologie weiterentwickeln wird und welche Auswirkungen sie auf verschiedene Bereiche wie Unterhaltung, Bildung und Assistenzsysteme haben wird. Sicher ist jedoch, dass OpenVoice bereits jetzt die Landschaft der Sprachsynthese verändert und neue Möglichkeiten für die Erstellung und Anpassung von digitalen Stimmen eröffnet.

Was bedeutet das?
No items found.