Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung im Bereich der Künstlichen Intelligenz (KI) schreitet kontinuierlich voran, insbesondere bei der Entwicklung von Large Language Models (LLMs). Ein aktueller Fokus liegt auf der Integration von Audio-Modalitäten, um ein umfassenderes Verständnis von gesprochener Sprache zu ermöglichen. In diesem Kontext wurde DIFFA-2 vorgestellt, ein praktisches, diffusionsbasiertes Large Audio Language Model (LALM), das auf ein breites Spektrum des Audio-Verständnisses abzielt.
Autoregressive (AR) Large Audio Language Models, wie beispielsweise Qwen-2.5-Omni, haben bereits beachtliche Leistungen im Audio-Verständnis und in der Interaktion gezeigt. Ihre Skalierung erfordert jedoch oft einen hohen Aufwand an Daten und Rechenleistung. Zudem begrenzt die streng sequentielle Dekodierung die Effizienz der Inferenz. Diffusions-Sprachmodelle (dLLMs) haben sich als vielversprechende Alternative erwiesen, da sie auch mit begrenzten Trainingsdaten effektiv arbeiten können. Frühere Arbeiten an DIFFA deuteten bereits darauf hin, dass der Ersatz eines AR-Backbones durch ein Diffusions-Pendant das Audio-Verständnis unter vergleichbaren Bedingungen erheblich verbessern kann, wenngleich dies zunächst auf Proof-of-Concept-Ebene erfolgte.
DIFFA-2 stellt eine Weiterentwicklung dar. Es handelt sich um ein praktisches, diffusionsbasiertes LALM, das für das allgemeine Audio-Verständnis konzipiert wurde. Die Verbesserungen umfassen:
Ein wesentlicher Aspekt von DIFFA-2 ist, dass es ausschließlich mit vollständig quelloffenen Korpora trainiert wurde. Dies fördert Transparenz und Zugänglichkeit in der Forschung.
Die Architektur von DIFFA-2 basiert auf einem gefrorenen Whisper-Small-Encoder zur Extraktion akustischer Merkmale und integriert diese in ein LLaDA-8B-Instruct-Backbone mittels zweier Adapter:
Der Trainingsprozess ist in zwei Stufen unterteilt. In Stufe 1 wird der semantische Adapter mit dem LibriSpeech-Datensatz trainiert, um den Sprach-Encoder mit dem Sprachmodell abzugleichen. In Stufe 2 werden beide Adapter auf einem synthetischen Datensatz mittels eines Audio-Captioning-Ziels feinabgestimmt. Dabei bleiben das LLaDA-Modell und der Whisper-Encoder während des gesamten Trainings eingefroren, um "katastrophales Vergessen" zu vermeiden.
Experimente auf den Benchmarks MMSU, MMAU und MMAR zeigen, dass DIFFA-2 durchweg bessere Ergebnisse als das Vorgängermodell DIFFA erzielt und mit starken AR-LALMs unter praktischen Trainingsbudgets konkurrieren kann. Dies deutet darauf hin, dass diffusionsbasierte Modellierung eine praktikable Grundlage für das großflächige Audio-Verständnis darstellt.
Insbesondere auf dem MMSU-Benchmark erreichte DIFFA-2 eine durchschnittliche Genauigkeit von 56,04 %, was es über viele starke autoregressive Baselines wie Qwen2-Audio-Instruct (53,27 %) und Gemini-2.0-Flash (51,03 %) positioniert. Trotz der Nutzung nur synthetischer Daten und leichter Adapter zeigt DIFFA-2 eine starke Leistung bei semantischen Denkaufgaben (81,53 %), während es in phonologischen und paralinguistischen Aufgaben noch Verbesserungspotenzial aufweist.
Auf dem MMAU-Benchmark, der 27 Fähigkeiten in den Domänen Sound, Musik und Sprache testet, erreichte DIFFA-2 eine durchschnittliche Genauigkeit von 49,71 % und übertraf damit mehrere verbreitete autoregressive LALMs. Die besten Ergebnisse wurden bei sprachbezogenen Aufgaben erzielt (59,46 %), was auf das ASR-fokussierte Vortraining zurückzuführen sein dürfte.
Die Evaluation auf VoiceBench, einem umfassenden Benchmark für Sprachassistenten, unterstreicht die Fähigkeit von DIFFA-2, gesprochene Wissensanfragen zu verstehen, auch wenn es in diesem Bereich noch hinter führenden Modellen zurückbleibt. Die Leistung in der Befolgung von Anweisungen und in der Sicherheit (AdvBench) ist jedoch vielversprechend und zeigt das Potenzial von diffusionsbasierten LLMs in diesen Anwendungsbereichen.
Ablationsstudien haben die Bedeutung der diffusionsbasierten Sprachmodellierung und des Dual-Adapter-Designs für die Leistungsfähigkeit von DIFFA-2 bestätigt. Der Wechsel von einem autoregressiven LLaMA 3.1-Backbone zu einer diffusionsbasierten LLaDA-Architektur führte zu einer erheblichen Leistungssteigerung. Das Dual-Adapter-Setup, das semantische und akustische Adapter kombiniert, übertraf ebenfalls die Single-Adapter-Konfigurationen, was den Vorteil der gemeinsamen Modellierung von linguistischen und akustischen Merkmalen aufzeigt.
Trotz der vielversprechenden Ergebnisse besteht eine Limitation in der begrenzten Menge an Trainingsdaten (960 Stunden ASR-Daten und 127 Stunden synthetische Anweisungsdaten). Zukünftige Arbeiten werden sich auf die Skalierung der Trainingsdaten konzentrieren, um die Robustheit und die Abdeckung komplexer Audio-Szenarien zu verbessern. Die Veröffentlichung des Codes und der Trainingspipelines soll die Forschung in diesem Bereich weiter fördern.
DIFFA-2 markiert einen wichtigen Schritt in der Entwicklung von KI-Modellen, die Audio nicht nur transkribieren, sondern tiefgreifend verstehen können. Dies eröffnet neue Möglichkeiten für Anwendungen im Bereich der Sprachassistenz, der Inhaltsanalyse und darüber hinaus.
Bibliography: - Zhou, Jiaming et al. "DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding." Hugging Face Papers, 2026. - Zhou, Jiaming et al. "DIFFA: Large Language Diffusion Models Can Listen and Understand." arXiv preprint arXiv:2507.18452, 2025. - "DIFFA: New AI Model Blends Language and Audio Understanding for Future Content Creation." Kukarella News, 22. August 2025.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen