Neuer Ansatz für die multimodale Sprachverarbeitung mit Omni-AVSR

Kategorien:

No items found.

Freigegeben:

November 11, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Omni-AVSR ist ein neues, vereinheitlichtes Audio-Visual Large Language Model (LLM), das Audio Speech Recognition (ASR), Visual Speech Recognition (VSR) und Audio-Visual Speech Recognition (AVSR) in einem einzigen Modell integriert.
Das Modell nutzt Multi-Granularitäts-Training und parameter-effiziente Adaption, um hohe Genauigkeit bei reduziertem Ressourcenverbrauch zu erzielen.
Im Gegensatz zu früheren Ansätzen, die separate Modelle für jede Modalität trainierten, ermöglicht Omni-AVSR eine effizientere Nutzung von Rechenressourcen und Synergien zwischen den Aufgaben.
Drei LoRA-basierte Adaptionsstrategien wurden untersucht, um eine Balance zwischen geteilter und aufgabenspezifischer Spezialisierung zu finden.
Experimente auf den Datensätzen LRS2 und LRS3 zeigen, dass Omni-AVSR vergleichbare oder überlegene Genauigkeit im Vergleich zu aktuellen Bestleistungen erreicht und dabei robust gegenüber akustischem Rauschen bleibt.
Die Forschung liefert Einblicke in das Skalierungsverhalten mit zunehmender LLM-Größe und den Kompromiss zwischen Leistung und Effizienz.

Revolution in der Sprachverarbeitung: Ein vereinheitlichter multimodaler Ansatz mit Large Language Models

Die automatische Sprachverarbeitung (Speech Recognition) hat in den letzten Jahren durch den Einsatz von Large Language Models (LLMs) bemerkenswerte Fortschritte erzielt. Traditionell wurden jedoch Aufgaben wie die reine Audiosprachverarbeitung (ASR), die visuelle Sprachverarbeitung (VSR) und die audio-visuelle Sprachverarbeitung (AVSR) oft isoliert behandelt. Dies führte zu separaten Modellen und damit zu einem erhöhten Bedarf an Rechenressourcen und potenziell ungenutzten Synergien zwischen den Modalitäten. Eine neue Forschungsarbeit mit dem Titel "Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models" stellt nun einen vereinheitlichten Ansatz vor, der diese Herausforderungen adressiert.

Die Herausforderung fragmentierter Ansätze

Bisherige LLM-basierte Methoden tendierten dazu, für jede spezifische Aufgabe – sei es ASR, VSR oder AVSR – eigenständige Modelle zu entwickeln und zu trainieren. Dies resultierte in redundanten Systemen, die jeweils eigene Rechenleistung und Speicherplatz beanspruchten. Darüber hinaus limitierten fixierte Token-Kompressionstechniken die Flexibilität bei der Abwägung zwischen Genauigkeit und Effizienz. Die Notwendigkeit eines flexibleren und ressourcenschonenderen Frameworks war somit evident.

Omni-AVSR: Ein integriertes Modell für multiple Modalitäten

Das von Umberto Cappellazzo und seinem Team vorgestellte Omni-AVSR-Modell ist ein vereinheitlichtes Audio-Visual Large Language Model (LLM), das darauf abzielt, diese Fragmentierung zu überwinden. Es integriert ASR, VSR und AVSR in einem einzigen Modellrahmen. Der Kern des Ansatzes liegt in der Kombination von effizientem Multi-Granularitäts-Training und parameter-effizienter Adaption. Dies ermöglicht nicht nur die Verarbeitung verschiedener Modalitäten, sondern auch eine optimierte Ressourcennutzung.

Technologische Grundlagen und Innovationen

Multi-Granularitäts-Training: Omni-AVSR adaptiert das Matryoshka-Repräsentationslernparadigma. Dies erlaubt ein effizientes Training über verschiedene Audio- und visuelle Granularitäten hinweg, was den Trainingsressourcenverbrauch reduziert.
Parameter-effiziente Adaption (LoRA): Das Modell nutzt drei verschiedene LoRA-basierte Strategien zur Adaption des zugrunde liegenden LLM. LoRA (Low-Rank Adaptation) ist eine Technik, die es ermöglicht, große Modelle mit einer geringen Anzahl zusätzlicher, trainierbarer Parameter an spezifische Aufgaben anzupassen, ohne das gesamte Modell neu trainieren zu müssen. Dies schafft eine Balance zwischen der Spezialisierung auf spezifische Aufgaben und der Nutzung gemeinsamer Fähigkeiten des LLM.
Vereinheitlichte Architektur: Anstatt separate Modelle für jede Modalität zu unterhalten, verarbeitet Omni-AVSR Audio- und visuelle Tokens, die von vortrainierten Encodern erzeugt werden. Diese Tokens werden zusammen mit Text-Tokens von einem vortrainierten LLM (wie Llama3.1-8B) auto-regressiv verarbeitet, um die endgültige Spracherkennung zu liefern. Hierbei werden die multimodalen Encoder und das LLM selbst eingefroren, während nur die modalitätsspezifischen Projektoren und LoRA-Module trainiert werden.

Drei SMoP-Konfigurationen

Im Rahmen der Forschung wurden drei Sparse Mixture of Projectors (SMoP)-Konfigurationen untersucht, um multimodale Sprachrepräsentationen in den LLM-Raum einzubetten:

Joint-Experts, Joint-Router (JEJR): Ein einziger gemeinsamer Router leitet die verketteten Audio- und visuellen Tokens an einen gemeinsamen Pool von Experten weiter. Dieser Ansatz kann zwar Kreuzmodalitätsinteraktionen erfassen, könnte aber modalitätsspezifische Details vernachlässigen.
Disjoint-Experts, Disjoint-Routers (DEDR): Für jede Modalität (Audio und Video) werden separate Router und Expertengruppen verwendet. Die Ausgabetokens werden dann vor der Verarbeitung durch das LLM verkettet. Diese modulare Herangehensweise ermöglicht eine hohe Spezialisierung, könnte jedoch die Erfassung von Kreuzmodalitätsinteraktionen erschweren.
Joint-Experts, Disjoint-Routers (JEDR): Dieser Hybridansatz verwendet modalitätsspezifische Router, die jedoch auf einen gemeinsamen Pool von Experten zugreifen. Dies soll die Vorteile beider Ansätze kombinieren, indem sowohl die Modalitätsspezifität bei der Weiterleitung als auch ein gemeinsames Fachwissen genutzt werden.

Die Ergebnisse auf dem LRS3-Datensatz zeigten, dass die DEDR-Konfiguration (Disjoint-Experts, Disjoint-Routers) die beste Leistung erzielte und frühere Methoden in AVSR-Aufgaben übertraf. Dies deutet darauf hin, dass eine separate Verarbeitung und Spezialisierung für Audio- und visuelle Informationen vorteilhaft sein kann, bevor sie kombiniert werden.

Leistungsfähigkeit und Robustheit

Die Experimente auf den Datensätzen LRS2 und LRS3, die als größte öffentliche Benchmarks für AVSR gelten, demonstrieren, dass Omni-AVSR eine vergleichbare oder sogar überlegene Genauigkeit im Vergleich zu aktuellen Bestleistungen erreicht. Dies geschieht bei einem deutlich geringeren Ressourcenverbrauch für Training und Bereitstellung, da ein einziges, effizientes Modell verwendet wird. Darüber hinaus erweist sich das Modell als robust gegenüber akustischem Rauschen, was für reale Anwendungen von großer Bedeutung ist.

Die Analyse des Skalierungsverhaltens von Omni-AVSR bei zunehmender LLM-Größe liefert wichtige Erkenntnisse über das Verhältnis von Leistung und Effizienz. Dies ist entscheidend für Unternehmen, die KI-Lösungen implementieren möchten und dabei sowohl hohe Leistungsfähigkeit als auch Kosten- und Ressourceneffizienz berücksichtigen müssen.

Implikationen für B2B-Anwendungen

Für Unternehmen im B2B-Bereich, die auf fortschrittliche Sprachverarbeitungslösungen angewiesen sind, bietet Omni-AVSR mehrere wichtige Vorteile:

Kosteneffizienz: Durch die Konsolidierung von ASR, VSR und AVSR in einem einzigen Modell können Unternehmen erhebliche Einsparungen bei den Rechen- und Bereitstellungsressourcen erzielen. Dies ist besonders relevant für Anwendungen, die eine hohe Skalierbarkeit erfordern.
Verbesserte Genauigkeit in komplexen Umgebungen: Die Robustheit gegenüber akustischem Rauschen macht Omni-AVSR ideal für den Einsatz in lauten Umgebungen, wie z.B. Call Centern, Fertigungsanlagen oder Fahrzeugen. Die Integration visueller Informationen kann die Erkennungsgenauigkeit in Situationen verbessern, in denen Audiosignale beeinträchtigt sind.
Vereinfachte Systemarchitektur: Ein vereinheitlichtes Modell reduziert die Komplexität der Systemarchitektur, was zu einfacherer Wartung, schnelleren Updates und einer besseren Integration in bestehende Infrastrukturen führen kann.
Flexibilität und Anpassungsfähigkeit: Die parameter-effiziente Adaption ermöglicht es, das Modell relativ einfach an neue Anwendungsfälle oder spezifische Domänen anzupassen, ohne jedes Mal ein komplett neues Modell trainieren zu müssen.
Zukunftssicherheit: Die Nutzung von LLMs als Backbone legt den Grundstein für zukünftige Erweiterungen und die Integration weiterer multimodaler Fähigkeiten, da LLMs zunehmend omnimodale Fähigkeiten entwickeln.

Ausblick

Die Entwicklung von Omni-AVSR markiert einen wichtigen Schritt in Richtung einer effizienteren und leistungsstärkeren multimodalen Sprachverarbeitung. Die Fähigkeit, Sprachinformationen aus Audio- und visuellen Quellen in einem einzigen, ressourcenschonenden Modell zu verarbeiten, eröffnet neue Möglichkeiten für eine Vielzahl von Anwendungen, von der verbesserten Mensch-Maschine-Interaktion bis hin zu spezialisierten Branchenlösungen. Die fortlaufende Forschung in diesem Bereich wird voraussichtlich weitere Optimierungen und die Integration zusätzlicher Modalitäten mit sich bringen, um die Grenzen der KI-gestützten Sprachverarbeitung weiter zu verschieben.

Bibliography

- Cappellazzo, U., Liu, X., Ma, P., Petridis, S., & Pantic, M. (2025). Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models. arXiv preprint arXiv:2511.07253. - Cappellazzo, U., Kim, M., Chen, H., Ma, P., Petridis, S., Falavigna, D., Brutti, A., & Pantic, M. (2024). Large Language Models are Strong Audio-Visual Speech Recognition Learners. arXiv preprint arXiv:2409.12319. - Cappellazzo, U., Kim, M., Petridis, S., Falavigna, D., & Brutti, A. (2025). Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach. Interspeech 2025. - Haliassos, A., Mira, R., Chen, H., Landgraf, Z., Petridis, S., & Pantic, M. (2024). Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs. arXiv preprint arXiv:2411.02256. - Jiang, S., Liang, J., Wang, J., Dong, X., Chang, H., Yu, W., Du, J., Liu, M., & Qin, B. (2025). From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities. Findings of the Association for Computational Linguistics: ACL 2025. - Liu, Z., Dong, Y., Wang, J., Liu, Z., Hu, W., Lu, J., & Rao, Y. (2025). Ola: Pushing the Frontiers of Omni-Modal Language Model. arXiv preprint arXiv:2502.04328. - Li, Y., Sun, H., Lin, M., Li, T., Dong, G., Zhang, T., Ding, B., Song, W., Cheng, Z., Huo, Y., Chen, S., Li, X., Pan, D., Zhang, S., Wu, X., Liang, Z., Liu, J., Zhang, T., Lu, K., Zhao, Y., Shen, Y., Yang, F., Yu, K., Lin, T., Xu, J., Zhou, Z., & Chen, W. (2024). Baichuan-Omni Technical Report. arXiv preprint arXiv:2410.08565.