Innovative Datenpipeline für vollduplex-fähige Sprachmodelle

Kategorien:

No items found.

Freigegeben:

March 30, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Entwicklung von vollduplex-fähigen Sprachmodellen (SLMs) wird durch den Mangel an hochwertigen Konversationsdaten mit mehreren Sprechern behindert.
"Sommelier" ist eine neue, skalierbare Open-Source-Pipeline zur Audio-Vorverarbeitung, die diesen Mangel beheben soll.
Die Pipeline ermöglicht die Erstellung von multilinearen Konversationsdaten, die für das Training von vollduplex-fähigen SLMs optimiert sind.
Besondere Herausforderungen wie überlappende Sprache, Rückkanalisation und ASR-Halluzinationen werden durch innovative Methoden wie die Sprechertrennung und Ensemble-basierte ASR angegangen.
Die Evaluierung von "Sommelier"-verarbeiteten Daten zeigt Verbesserungen bei der Handhabung von Rückkanalisation, reibungslosem Sprecherwechsel und Nutzerunterbrechungen in vollduplex-fähigen Modellen.

Die Art und Weise, wie wir mit künstlicher Intelligenz interagieren, entwickelt sich stetig weiter. Während textbasierte große Sprachmodelle (LLMs) bereits weit verbreitet sind, rückt der Fokus zunehmend auf Sprachmodelle (SLMs), die eine natürlichere und intuitivere Kommunikation ermöglichen. Ein zentrales Ziel dieser Entwicklung sind sogenannte Vollduplex-Systeme. Diese Systeme sollen in der Lage sein, gleichzeitig zuzuhören und zu sprechen, ähnlich wie bei menschlichen Gesprächen, in denen Unterbrechungen, Rückmeldungen und fließende Sprecherwechsel alltäglich sind.

Die Herausforderung der Vollduplex-Interaktion

Die Entwicklung solcher fortschrittlichen SLMs stößt jedoch auf erhebliche Hürden. Eine der größten ist die Knappheit an hochwertigen Konversationsdaten, die mehrere Sprecher umfassen. Bestehende Datensätze sind oft auf einzelne Sprecher beschränkt oder decken die komplexen Dynamiken natürlicher Dialoge, wie überlappende Sprache oder Rückkanalisation, nur unzureichend ab. Standard-Verarbeitungspipelines leiden häufig unter Fehlern bei der Sprechererkennung (Diarisierung) und sogenannten ASR-Halluzinationen, bei denen die automatische Spracherkennung (ASR) unsinnige oder sich wiederholende Texte generiert, insbesondere in stillen oder verrauschten Segmenten. Diese Probleme beeinträchtigen die Qualität der Trainingsdaten und somit die Leistungsfähigkeit der resultierenden SLMs.

Sommelier: Eine Lösung für die Datenknappheit

Um diese Lücke zu schließen, wurde eine robuste und skalierbare Open-Source-Datenverarbeitungspipeline namens "Sommelier" entwickelt. Ziel dieser Pipeline ist es, die Erstellung von multilinearen Konversationsdaten zu ermöglichen, die speziell für das Training von vollduplex-fähigen SLMs optimiert sind. Die Architektur von "Sommelier" ist modular aufgebaut, wodurch einzelne Komponenten je nach Bedarf angepasst oder deaktiviert werden können. Dies erlaubt den Forschenden, ein Gleichgewicht zwischen Datenreinheit und der Authentizität natürlicher Konversationen zu finden.

Die Komponenten der Sommelier-Pipeline

Die "Sommelier"-Pipeline umfasst mehrere Schlüsselkomponenten, die darauf abzielen, Roh-Audiodaten in hochwertige, strukturierte Daten umzuwandeln, ohne den semantischen Kontext zu verlieren:

Audio-Standardisierung: Zunächst werden Audiodaten aus verschiedenen Quellen (z.B. Radio, Podcasts) in ein einheitliches Format (16 kHz, 16-Bit, Mono) konvertiert und die Lautstärke normalisiert. Dies gewährleistet eine konsistente Basis für die weitere Verarbeitung.
VAD & Sprecher-Diarisierung: Lange Audiodateien werden in kleinere Segmente von weniger als fünf Minuten unterteilt, um Speicherprobleme zu vermeiden. Eine Voice Activity Detection (VAD) identifiziert Sprechpausen. Für die Sprecher-Diarisierung, also die Identifizierung, wer wann spricht, wird ein Modell wie Sortformer verwendet, das auch sehr kurze Äußerungen wie Rückkanalisation robust erfasst.
Umgang mit überlappender Sprache: Überlappende Sprache, eine häufige Erscheinung in natürlichen Dialogen, wird nicht als Rauschen entfernt, sondern durch einen speziellen Separationsprozess behandelt. Dieser Prozess trennt überlappende Sprachregionen und ordnet sie den jeweiligen Sprechern zu, wodurch wichtige Gesprächsdynamiken erhalten bleiben.
Entfernung von Hintergrundmusik: Bei Bedarf kann Hintergrundmusik aus den Audiodaten entfernt werden, um die Sprachqualität zu verbessern. Dies geschieht selektiv, um unnötige Qualitätsverluste zu vermeiden.
Ensemble-basierte ASR: Um die Genauigkeit der Sprachtranskription zu maximieren und ASR-Halluzinationen zu minimieren, wird eine Ensemble-Strategie eingesetzt. Dabei werden die Ausgaben von drei verschiedenen ASR-Modellen kombiniert und durch einen priorisierten Mehrheitsentscheid sowie eine Filterung von Wiederholungen verbessert.

Wirksamkeit der Sommelier-verarbeiteten Daten

Die Wirksamkeit der "Sommelier"-Pipeline wurde durch das Fine-Tuning des Vollduplex-Modells Moshi mit den verarbeiteten Daten demonstriert. Die Ergebnisse zeigten eine signifikante Verbesserung in verschiedenen Bereichen der Konversationsführung, darunter die Handhabung von Rückkanalisation, reibungslosem Sprecherwechsel und Nutzerunterbrechungen. Insbesondere bei der Verzögerung (Latenz) wurde festgestellt, dass eine erhöhte Latenz nach dem Fine-Tuning positiv interpretiert werden kann, da sie darauf hinweist, dass das Modell Nutzereingaben aktiv verarbeitet und angemessene Antworten vorbereitet.

Diarisierungsgenauigkeit

Ein Vergleich zwischen dem in der Pipeline verwendeten Sortformer-Modell und dem weit verbreiteten Pyannote 3.1 zeigte, dass Sortformer bei der Diarisierung konsistent bessere Leistungen erbringt. Dies war besonders in Bereichen mit kurzen Äußerungen und schnellen Sprecherwechseln der Fall, was die Eignung von Sortformer für die Verarbeitung hochinteraktiver Dialoge unterstreicht.

Sprachqualität bei Überlappungstrennung

Die quantitative Analyse zur Sprachqualität überlappender Sprachsegmente ergab, dass die "Sommelier"-Methode die Sprachqualität im Vergleich zu einer Baseline-Methode deutlich verbessert. Dies gilt insbesondere bei hohen Überlappungsraten, bei denen die Baseline-Modelle erhebliche Qualitätseinbußen erleiden. Die wahrgenommene Qualität (UTMOS-Werte) der durch "Sommelier" verarbeiteten Sprache nähert sich dabei dem Ideal an, was auf eine hohe Natürlichkeit hindeutet.

ASR-Ensemble-Leistung

Das Ensemble-basierte ASR-Verfahren von "Sommelier" zeigte im Vergleich zu einem einzelnen Whisper-Modell eine deutliche Reduzierung der Wortfehlerrate (WER) um etwa 37%. Diese Verbesserung war besonders bei verrauschten Daten ausgeprägt. Obwohl der Ensemble-Ansatz eine höhere Inferenzzeit benötigt, wird dies durch die verbesserte Genauigkeit und die Reduzierung von ASR-Halluzinationen gerechtfertigt.

Latenzbetrachtung

Die Datenvorverarbeitung ist eine rechenintensive Aufgabe. Die "Sommelier"-Pipeline erreicht einen Real-Time Factor (RTF) von 0.1746 für eine 120-sekündige Audiodatei. Durch die Möglichkeit, mehrere Prozesse parallel auf einer GPU auszuführen, kann die effektive RTF weiter gesenkt werden, was die praktische Umsetzbarkeit für große Datenmengen unterstreicht.

Fazit und Ausblick

"Sommelier" stellt eine bedeutende Entwicklung für die Forschung und Entwicklung im Bereich der vollduplex-fähigen Sprachmodelle dar. Durch die Bereitstellung einer skalierbaren und robusten Open-Source-Pipeline zur Audio-Vorverarbeitung wird ein kritischer Engpass bei der Datenverfügbarkeit adressiert. Dies fördert die Reproduzierbarkeit industrieller Forschung und beschleunigt den Fortschritt hin zu natürlicheren, Echtzeit-Mensch-KI-Interaktionen. Zukünftige Arbeiten könnten die Integration nicht-sprachlicher akustischer Ereignisse und die weitere Verfeinerung der Audio-Fidelity umfassen, um die Künstliche Intelligenz noch näher an die Komplexität menschlicher Kommunikation heranzuführen.

Bibliography - Jung, K., Kim, J., Kim, S., Kim, J., Choo, J., & Park, C. (2026). Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models. arXiv preprint arXiv:2603.25750. - Kim, J. (2026). Jihwan Kim's Post. LinkedIn. - Hugging Face. (2026). Daily Papers - Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models. - Wang, P., Lu, S., Tang, Y., Yan, S., Xia, W., & Xiong, Y. (2024). A Full-duplex Speech Dialogue Scheme Based On Large Language Models. arXiv preprint arXiv:2405.19487. - Yu, W., Wang, S., Yang, X., Chen, X., Tian, X., Zhang, J., Sun, G., Lu, L., Wang, Y., & Zhang, C. (2024). SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation. arXiv preprint arXiv:2411.18138. - Veluri, B. (2025). Deep Learning Methods for Real-Time Speech & Audio. Dissertation, University of Washington. - Hugging Face. (2024-2026). Daily Papers - Duplex Speech Models.