Cohere präsentiert neues Open-Source-Spracherkennungsmodell mit hoher Genauigkeit

Kategorien:

No items found.

Freigegeben:

March 29, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Cohere hat ein neues Open-Source-Spracherkennungsmodell namens „Transcribe“ veröffentlicht.
„Transcribe“ hat auf dem HuggingFace Open ASR Leaderboard die erste Position erreicht und übertrifft andere führende Modelle wie OpenAI Whisper Large v3.
Das Modell zeigt eine durchschnittliche Wortfehlerrate (WER) von 5,42 % und bietet eine verbesserte Genauigkeit gegenüber bestehenden Lösungen.
Es unterstützt 14 Sprachen, darunter Englisch, Deutsch, Französisch, Italienisch und Chinesisch.
„Transcribe“ ist als Open-Source-Lösung verfügbar und kann lokal oder über die Cohere API eingesetzt werden, auch für den Unternehmenseinsatz.
Das Modell wurde mit einem Fokus auf hohe Durchsatzraten und geringe Latenz für den Produktionseinsatz entwickelt.

Neues Open-Source-Modell von Cohere setzt Maßstäbe in der Spracherkennung

In der Welt der Künstlichen Intelligenz schreitet die Entwicklung von Spracherkennungssystemen kontinuierlich voran. Eine aktuelle Veröffentlichung des Unternehmens Cohere, das neue Open-Source-Modell „Transcribe“, hat in diesem Bereich signifikante Aufmerksamkeit erregt. Es positioniert sich als eine führende Lösung für automatische Spracherkennung (ASR) und übertrifft etablierte Modelle in verschiedenen Benchmarks.

Cohere Transcribe: Ein Überblick über die Leistungsfähigkeit

Cohere hat mit „Transcribe“ ein Spracherkennungsmodell vorgestellt, das speziell auf hohe Genauigkeit unter realen Bedingungen ausgelegt ist. Das Modell wurde von Grund auf neu trainiert, mit dem Ziel, die Wortfehlerrate (WER) zu minimieren und gleichzeitig die Produktionsreife zu gewährleisten. Dies bedeutet, dass es nicht nur ein Forschungsprototyp, sondern ein System für den praktischen Einsatz ist.

Führende Position in Benchmarks

Ein zentraler Aspekt der Veröffentlichung ist die Platzierung von „Transcribe“ auf dem HuggingFace Open ASR Leaderboard. Dort belegt es den ersten Platz und weist eine durchschnittliche Wortfehlerrate von 5,42 % auf. Dieser Wert übertrifft andere dedizierte ASR-Alternativen, sowohl Open-Source als auch proprietäre, einschließlich OpenAI Whisper Large v3, ElevenLabs Scribe v2 und Qwen3-ASR-1.7B. Diese Ergebnisse deuten auf eine vielseitige Leistungsfähigkeit des Modells hin, insbesondere in Umgebungen mit mehreren Sprechern, bei Besprechungsakustik und verschiedenen Akzenten.

Sprachunterstützung und Architekturgestaltung

„Transcribe“ wurde für 14 Sprachen trainiert, darunter europäische Sprachen wie Englisch, Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch, Griechisch, Niederländisch, Polnisch sowie asiatische Sprachen wie Chinesisch (Mandarin), Japanisch, Koreanisch, Vietnamesisch und Arabisch. Die Architektur basiert auf einem Conformer-basierten Encoder-Decoder-Modell. Ein großer Conformer-Encoder extrahiert akustische Repräsentationen, gefolgt von einem leichtgewichtigen Transformer-Decoder für die Tokengenerierung. Diese Designentscheidung trägt zur Effizienz und Genauigkeit des Modells bei.

Praktische Anwendungen und technische Aspekte

Die Entwicklung von „Transcribe“ erfolgte mit einem starken Fokus auf den Unternehmenseinsatz. Spracherkennung wird zunehmend zu einer Kernmodalität für KI-gestützte Arbeitsabläufe und Automatisierungen, von der Transkription von Besprechungen und Sprachanalysen bis hin zu Echtzeit-Kundendienstagenten.

Durchsatz und Effizienz

In Produktionsumgebungen müssen ASR-Systeme strenge Latenz- und Durchsatzanforderungen erfüllen. „Transcribe“ wurde entwickelt, um eine hohe Genauigkeit (niedrige WER) mit einem hohen Durchsatz (hoher RTFx – Real-Time Factor multiple) zu kombinieren. Dies ist besonders relevant für Modelle mit über einer Milliarde Parametern und gewährleistet, dass das Modell auch bei hohem Volumen effizient arbeitet.

Verfügbarkeit und Integration

Cohere „Transcribe“ ist als Open-Source-Lösung auf Hugging Face verfügbar, was die lokale Ausführung und den Einsatz in Edge-Umgebungen ermöglicht. Darüber hinaus bietet Cohere den Zugang über eine API für Experimente und über den „Model Vault“ für den Produktionseinsatz ohne Ratenbegrenzungen. Der „Model Vault“ ermöglicht eine private Cloud-Inferenz mit geringer Latenz, ohne dass eine eigene Infrastruktur verwaltet werden muss.

Ausblick und zukünftige Entwicklungen

Die Veröffentlichung von „Transcribe“ markiert einen wichtigen Schritt für Cohere in Richtung der Integration von leistungsstarker Spracherkennung in Unternehmens-KI-Workflows. Das Unternehmen plant eine tiefere Integration von „Transcribe“ in seine KI-Agenten-Orchestrierungsplattform „North“, um es zu einer breiteren Grundlage für Unternehmens-Sprachintelligenz zu entwickeln.

Es ist zu beachten, dass das Modell derzeit keine automatische Spracherkennung oder Sprecher-Diarisierung (Unterscheidung verschiedener Sprecher) bietet. Diese Funktionen, zusammen mit der Handhabung von Code-Switching (Wechsel zwischen Sprachen in einem Satz) und der Filterung von Nicht-Sprachgeräuschen, sind Bereiche für zukünftige Verbesserungen. Dennoch stellt „Transcribe“ in seiner aktuellen Form eine bemerkenswerte Leistung im Bereich der automatischen Spracherkennung dar und bietet Unternehmen eine leistungsstarke, flexible und offene Lösung für ihre Transkriptionsbedürfnisse.

Die Fortschritte in der ASR-Technologie, wie sie Cohere mit „Transcribe“ demonstriert, unterstreichen die dynamische Entwicklung im Bereich der Künstlichen Intelligenz und deren Potenzial, alltägliche und geschäftliche Prozesse effizienter zu gestalten.

Bibliography: - Cohere Blog: Cohere Transcribe: state-of-the-art speech recognition. Veröffentlicht am 26. März 2026. - TechCrunch: Cohere launches an open source voice model specifically for transcription. Veröffentlicht am 26. März 2026. Autor: Ivan Mehta. - Awesome Agents: Cohere's Open-Source Transcribe Tops ASR Leaderboard. Veröffentlicht am 28. März 2026. Autor: Sophie Zhang. - Hugging Face Blog: Introducing Cohere-transcribe: state-of-the-art speech recognition. Veröffentlicht am 26. März 2026. - VKTR: Cohere Claims No. 1 Speech-to-Text Accuracy With Open-Source Transcribe Model. Veröffentlicht am 27. März 2026. Autor: Michelle Hawley. - AI for Automation: Cohere Transcribe just beat Whisper by 27% — it's free. Veröffentlicht am 27. März 2026. - Get AI Book: Cohere Transcribe debuts as open-source ASR model. Veröffentlicht am 26. März 2026. - Reddit: Cohere Transcribe Tops Open ASR Leaderboard with New Speech Model. Veröffentlicht am 27. März 2026.