Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Art und Weise, wie wir mit künstlicher Intelligenz interagieren, entwickelt sich stetig weiter. Während textbasierte große Sprachmodelle (LLMs) bereits weit verbreitet sind, rückt der Fokus zunehmend auf Sprachmodelle (SLMs), die eine natürlichere und intuitivere Kommunikation ermöglichen. Ein zentrales Ziel dieser Entwicklung sind sogenannte Vollduplex-Systeme. Diese Systeme sollen in der Lage sein, gleichzeitig zuzuhören und zu sprechen, ähnlich wie bei menschlichen Gesprächen, in denen Unterbrechungen, Rückmeldungen und fließende Sprecherwechsel alltäglich sind.
Die Entwicklung solcher fortschrittlichen SLMs stößt jedoch auf erhebliche Hürden. Eine der größten ist die Knappheit an hochwertigen Konversationsdaten, die mehrere Sprecher umfassen. Bestehende Datensätze sind oft auf einzelne Sprecher beschränkt oder decken die komplexen Dynamiken natürlicher Dialoge, wie überlappende Sprache oder Rückkanalisation, nur unzureichend ab. Standard-Verarbeitungspipelines leiden häufig unter Fehlern bei der Sprechererkennung (Diarisierung) und sogenannten ASR-Halluzinationen, bei denen die automatische Spracherkennung (ASR) unsinnige oder sich wiederholende Texte generiert, insbesondere in stillen oder verrauschten Segmenten. Diese Probleme beeinträchtigen die Qualität der Trainingsdaten und somit die Leistungsfähigkeit der resultierenden SLMs.
Um diese Lücke zu schließen, wurde eine robuste und skalierbare Open-Source-Datenverarbeitungspipeline namens "Sommelier" entwickelt. Ziel dieser Pipeline ist es, die Erstellung von multilinearen Konversationsdaten zu ermöglichen, die speziell für das Training von vollduplex-fähigen SLMs optimiert sind. Die Architektur von "Sommelier" ist modular aufgebaut, wodurch einzelne Komponenten je nach Bedarf angepasst oder deaktiviert werden können. Dies erlaubt den Forschenden, ein Gleichgewicht zwischen Datenreinheit und der Authentizität natürlicher Konversationen zu finden.
Die "Sommelier"-Pipeline umfasst mehrere Schlüsselkomponenten, die darauf abzielen, Roh-Audiodaten in hochwertige, strukturierte Daten umzuwandeln, ohne den semantischen Kontext zu verlieren:
Die Wirksamkeit der "Sommelier"-Pipeline wurde durch das Fine-Tuning des Vollduplex-Modells Moshi mit den verarbeiteten Daten demonstriert. Die Ergebnisse zeigten eine signifikante Verbesserung in verschiedenen Bereichen der Konversationsführung, darunter die Handhabung von Rückkanalisation, reibungslosem Sprecherwechsel und Nutzerunterbrechungen. Insbesondere bei der Verzögerung (Latenz) wurde festgestellt, dass eine erhöhte Latenz nach dem Fine-Tuning positiv interpretiert werden kann, da sie darauf hinweist, dass das Modell Nutzereingaben aktiv verarbeitet und angemessene Antworten vorbereitet.
Ein Vergleich zwischen dem in der Pipeline verwendeten Sortformer-Modell und dem weit verbreiteten Pyannote 3.1 zeigte, dass Sortformer bei der Diarisierung konsistent bessere Leistungen erbringt. Dies war besonders in Bereichen mit kurzen Äußerungen und schnellen Sprecherwechseln der Fall, was die Eignung von Sortformer für die Verarbeitung hochinteraktiver Dialoge unterstreicht.
Die quantitative Analyse zur Sprachqualität überlappender Sprachsegmente ergab, dass die "Sommelier"-Methode die Sprachqualität im Vergleich zu einer Baseline-Methode deutlich verbessert. Dies gilt insbesondere bei hohen Überlappungsraten, bei denen die Baseline-Modelle erhebliche Qualitätseinbußen erleiden. Die wahrgenommene Qualität (UTMOS-Werte) der durch "Sommelier" verarbeiteten Sprache nähert sich dabei dem Ideal an, was auf eine hohe Natürlichkeit hindeutet.
Das Ensemble-basierte ASR-Verfahren von "Sommelier" zeigte im Vergleich zu einem einzelnen Whisper-Modell eine deutliche Reduzierung der Wortfehlerrate (WER) um etwa 37%. Diese Verbesserung war besonders bei verrauschten Daten ausgeprägt. Obwohl der Ensemble-Ansatz eine höhere Inferenzzeit benötigt, wird dies durch die verbesserte Genauigkeit und die Reduzierung von ASR-Halluzinationen gerechtfertigt.
Die Datenvorverarbeitung ist eine rechenintensive Aufgabe. Die "Sommelier"-Pipeline erreicht einen Real-Time Factor (RTF) von 0.1746 für eine 120-sekündige Audiodatei. Durch die Möglichkeit, mehrere Prozesse parallel auf einer GPU auszuführen, kann die effektive RTF weiter gesenkt werden, was die praktische Umsetzbarkeit für große Datenmengen unterstreicht.
"Sommelier" stellt eine bedeutende Entwicklung für die Forschung und Entwicklung im Bereich der vollduplex-fähigen Sprachmodelle dar. Durch die Bereitstellung einer skalierbaren und robusten Open-Source-Pipeline zur Audio-Vorverarbeitung wird ein kritischer Engpass bei der Datenverfügbarkeit adressiert. Dies fördert die Reproduzierbarkeit industrieller Forschung und beschleunigt den Fortschritt hin zu natürlicheren, Echtzeit-Mensch-KI-Interaktionen. Zukünftige Arbeiten könnten die Integration nicht-sprachlicher akustischer Ereignisse und die weitere Verfeinerung der Audio-Fidelity umfassen, um die Künstliche Intelligenz noch näher an die Komplexität menschlicher Kommunikation heranzuführen.
Bibliography - Jung, K., Kim, J., Kim, S., Kim, J., Choo, J., & Park, C. (2026). Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models. arXiv preprint arXiv:2603.25750. - Kim, J. (2026). Jihwan Kim's Post. LinkedIn. - Hugging Face. (2026). Daily Papers - Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models. - Wang, P., Lu, S., Tang, Y., Yan, S., Xia, W., & Xiong, Y. (2024). A Full-duplex Speech Dialogue Scheme Based On Large Language Models. arXiv preprint arXiv:2405.19487. - Yu, W., Wang, S., Yang, X., Chen, X., Tian, X., Zhang, J., Sun, G., Lu, L., Wang, Y., & Zhang, C. (2024). SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation. arXiv preprint arXiv:2411.18138. - Veluri, B. (2025). Deep Learning Methods for Real-Time Speech & Audio. Dissertation, University of Washington. - Hugging Face. (2024-2026). Daily Papers - Duplex Speech Models.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen