Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die automatische Spracherkennung (ASR) ist ein zentraler Bestandteil vieler moderner KI-Anwendungen, von Sprachassistenten bis hin zu Transkriptionsdiensten. Traditionelle ASR-Systeme, insbesondere solche, die auf großen Sprachmodellen (LLMs) basieren, erzielen zwar eine hohe Genauigkeit, leiden jedoch oft unter hohen Latenzzeiten aufgrund ihrer autoregressiven Natur. IBM Research hat nun mit NLE (Non-autoregressive LLM-based ASR by Transcript Editing) einen innovativen Ansatz vorgestellt, der diese Herausforderungen adressiert. NLE formuliert die Spracherkennung als eine bedingte Transkriptbearbeitung, was eine vollständig parallele Vorhersage ermöglicht und erhebliche Geschwindigkeitsvorteile mit sich bringt.
Autoregressive (AR) ASR-Systeme, die auf LLMs basieren, generieren Text Token für Token sequenziell. Obwohl dieser Ansatz zu einer hohen Genauigkeit führt, begrenzt er die Parallelisierung und führt zu erheblichen End-to-End-Latenzen. Dies ist besonders problematisch in Echtzeit-Konversationsszenarien, wo eine Stapelverarbeitung nicht praktikabel ist und die fehlende Möglichkeit zur Parallelisierung der Token-Generierung direkt zu hohen Latenzen pro Äußerung führt. Darüber hinaus verwerfen diese Systeme oft die anfängliche Hypothese, die vom Sprach-Encoder generiert wird, obwohl diese häufig einen brauchbaren Entwurf darstellt, der verfeinert statt neu generiert werden könnte.
NLE geht diese Einschränkungen an, indem es LLM-basierte Spracherkennung als bedingte Transkriptbearbeitung neu definiert. Anstatt Token autoregressiv zu dekodieren, bearbeitet NLE eine Hypothese, die aus einem vorab trainierten Sprach-Encoder extrahiert wird, und wird dabei durch akustischen Kontext desselben Encoders geleitet. Diese Bearbeitungsformulierung ermöglicht eine vollständig parallele Vorhersage und somit eine schnelle Inferenz.
Die NLE-Architektur integriert mehrere Schlüsselkomponenten:
Die Ergebnisse von NLE sind laut IBM Research vielversprechend:
Eine detaillierte Ablationsstudie zeigte die Bedeutung jeder Designentscheidung für die Gesamtleistung von NLE. Das Entfernen der Kopier-Regularisierung, die Beschränkung auf kausale Aufmerksamkeit oder das Entfernen akustischer Einbettungen führte zu einer Verschlechterung der Validierungsverluste. Die Studie bestätigte, dass die bidirektionale Aufmerksamkeit und die verschachtelte Auffüllungsstrategie entscheidend für die Effektivität von NLE sind.
Die Fehleranalyse offenbarte interessante Unterschiede zwischen den Modellen. Autoregressive Modelle zeigten tendenziell höhere Einfügungsraten, was auf potenzielle Halluzinationen bei schwachen akustischen Beweisen hindeutet. NLE hingegen wies eine höhere Löschrate und niedrigere Einfügungsrate auf, was eine konservativere Bearbeitungsstrategie widerspiegelt, die Löschungen gegenüber Einfügungen bevorzugt.
Trotz der beeindruckenden Ergebnisse hat NLE, wie jedes Modell, auch Grenzen. Es ist weniger flexibel bei Aufgaben, bei denen die Ausgabe erheblich von der Eingabehypothese abweicht, wie beispielsweise bei gesprochener Frage-Antwort-Generierung. Zudem kann der Wechsel zwischen verschiedenen Tokenizern (CTC-Encoder und LLM) zu geringfügigen Latenz-Overheads führen.
Zukünftige Forschungsrichtungen umfassen die Verbesserung der Mehrschritt-Bearbeitung durch Text-Augmentierungsstrategien, die Kombination des Bearbeitungsansatzes mit Mask-Predict-Strategien für eine iterativ verfeinerte Vorhersage und die Umstrukturierung der LLM-Architektur zur getrennten Verarbeitung von Audio und Text in verschiedenen Schichten, um die Rechenkomplexität zu reduzieren.
NLE stellt einen signifikanten Fortschritt in der ASR-Forschung dar, indem es die Geschwindigkeitsvorteile nicht-autoregressiver Modelle mit der linguistischen Expertise großer Sprachmodelle kombiniert. Durch die Formulierung der Spracherkennung als Transkriptbearbeitung eröffnet dieser Ansatz neue Möglichkeiten für Echtzeit-Sprachanwendungen und könnte die Art und Weise, wie wir mit gesprochener Sprache interagieren, nachhaltig beeinflussen.
Bibliography - Dekel, A., Thomas, S., Fukada, T., & Saon, G. (2026). NLE: Non-autoregressive LLM-based ASR by Transcript Editing. arXiv preprint arXiv:2603.08397. - IBM Research. (2025). Semi-Autoregressive Streaming ASR With Label Context for ICASSP 2024. - Dekel, A., Thomas, S., Fukada, T., & Saon, G. (2026). NLE: Non-autoregressive LLM-based ASR by Transcript Editing - Paper Details. ChatPaper.ai. - Dekel, A. (2026). Paper page - NLE: Non-autoregressive LLM-based ASR by Transcript Editing. Hugging Face. - Saon, G., Thomas, S., Fukuda, T., Nagano, T., Dekel, A., & Lastras, L. (2026). Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts. arXiv preprint arXiv:2603.11243.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen