In den letzten Jahren haben Fortschritte in der Künstlichen Intelligenz (KI) und insbesondere in der Entwicklung von großen Sprachmodellen (Large Language Models, LLMs) zu bedeutenden Verbesserungen in der Verarbeitung natürlicher Sprache geführt. Diese Modelle sind nicht nur in der Lage, Text mit hoher Kohärenz und Relevanz zu generieren, sondern auch komplexe Aufgaben wie die Übersetzung zwischen verschiedenen Sprachen und die Erkennung gesprochener Sprache zu bewältigen. Die automatische Spracherkennung (Automatic Speech Recognition, ASR) ist ein Bereich, der von diesen Entwicklungen erheblich profitieren kann.
Die herkömmliche ASR-Technologie basiert oft auf autoregressiven Modellen, bei denen die Vorhersage des nächsten Wortes oder Phonems von den vorhergehenden abhängt. Dieser sequenzielle Ansatz kann jedoch zu Latenz führen, die gerade bei Echtzeitanwendungen problematisch ist. Um diese Herausforderung anzugehen, haben Forscher nun ein nicht-autoregressives Modell für ASR vorgeschlagen, das die Parallelenverarbeitungsfähigkeiten von moderner Beschleuniger-Hardware wie GPUs und TPUs ausnutzt.
In einer aktuellen Studie wird ein solches System vorgestellt, das ein Universelles Sprachmodell (Universal Speech Model, USM) mit einem der größten verfügbaren LLMs, dem PaLM 2, kombiniert. Das PaLM 2-Modell ist in einem sogenannten per-Segment-Scoring-Modus integriert, was bedeutet, dass die Bewertung der Wahrscheinlichkeit einzelner Segmente unabhängig voneinander erfolgt, was zur Reduzierung der Latenz beiträgt.
Die Resultate dieser Neuentwicklung sind durchaus beeindruckend: Über verschiedene Sprachen hinweg konnte eine durchschnittliche relative Verbesserung der Worterkennungsrate (Word Error Rate, WER) von 10,8% auf dem FLEURS-Datensatz und 3,6% bei YouTube-Untertiteln erzielt werden. Diese Zahlen stellen einen signifikanten Fortschritt dar und könnten die Tür zu einer neuen Generation von ASR-Systemen öffnen, die schneller und genauer sind als bisherige Modelle.
Die Forschung umfasst zudem eine umfassende Ablationsstudie, die zeigt, wie verschiedene Faktoren wie die Größe des LLM, die Länge des Kontextes, die Größe des Vokabulars und die Methodik der Fusion die Leistung des ASR-Systems beeinflussen. Dabei wurde exploriert, welche Auswirkungen die Größe des LLM – von 128 Millionen bis zu 340 Milliarden Parametern – auf die Leistung der Spracherkennung hat.
Ein weiterer interessanter Ansatz, der in der Studie untersucht wird, ist die Verwendung eines Mixture-of-Experts-Modells namens Generalist Language Model (GLaM). Anstatt bei jedem Dekodierungsschritt alle Experten zu berücksichtigen, wählt GLaM dynamisch nur zwei aus, um die Rechenlast während der Inferenz konstant zu halten. Diese Methode hat in Tests zu einer Verbesserung der WER um 4,4% für Englisch und im Durchschnitt um 3,85% über 50 verschiedene Sprachen geführt. In 41 dieser Sprachen konnte eine Verbesserung beobachtet werden, mit einer maximalen Reduktion von 10%.
Die Ergebnisse dieser Forschung sind nicht nur für Wissenschaftler und Ingenieure von Interesse, sondern haben auch das Potenzial, die Entwicklung von Sprachtechnologie in der Industrie voranzutreiben. Nicht-autoregressive Modelle können die Leistung von Sprachassistenten, automatisierten Übersetzungssystemen und anderen sprachbasierten Anwendungen erheblich steigern.
Die Implikationen dieser Studie sind weitreichend. Sie zeigen, dass es möglich ist, ASR-Systeme zu entwickeln, die nicht nur in einer, sondern in vielen verschiedenen Sprachen effektiv funktionieren. Dies könnte insbesondere für multinationale Unternehmen und Organisationen, die in mehreren Ländern agieren, von Vorteil sein. Darüber hinaus könnte es Menschen auf der ganzen Welt den Zugang zu Technologien und Informationen erleichtern, insbesondere in Regionen, in denen bisher weniger verbreitete Sprachen gesprochen werden.
Zusammenfassend lässt sich sagen, dass die Integration von großen Sprachmodellen in ASR-Systeme das Potenzial hat, die Art und Weise, wie wir mit Technologie interagieren, grundlegend zu verändern. Durch die Reduktion von Latenz und die Verbesserung der Genauigkeit bei der Spracherkennung über ein breites Spektrum von Sprachen hinweg, stehen wir möglicherweise am Anfang einer neuen Ära der sprachgesteuerten Interaktion.