Fortschritte in der Integration von 3D-Gesichtsanimationen in omnimodale Sprachmodelle

Kategorien:

No items found.

Freigegeben:

February 12, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Ex-Omni ist ein Open-Source-Framework, das omnimodale große Sprachmodelle (OLLMs) um sprachbegleitende 3D-Gesichtsanimationen erweitert.
Es adressiert die Herausforderung der Repräsentationsinkongruenz zwischen diskreter, token-basierter semantischer Argumentation in LLMs und der dichten, feinkörnigen zeitlichen Dynamik, die für 3D-Gesichtsbewegungen erforderlich ist.
Ex-Omni entkoppelt semantische Argumentation von zeitlicher Generierung und nutzt Spracheinheiten als zeitliches Gerüst.
Ein Mechanismus namens "Token-as-Query Gated Fusion" (TQGF) ermöglicht eine kontrollierte semantische Injektion.
Das Framework wird durch das neue Datenset InstructEx unterstützt, das speziell für die Generierung von 3D-Gesichtsanimationen für OLLMs entwickelt wurde.
Experimente zeigen, dass Ex-Omni im Vergleich zu bestehenden Open-Source-OLLMs eine wettbewerbsfähige Leistung erbringt und eine stabile, synchronisierte Sprach- und Gesichtsanimation ermöglicht.

Einführung in die 3D-Gesichtsanimation mittels Omni-Modaler Large Language Models

Die fortschreitende Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren zu bemerkenswerten Fortschritten in verschiedenen Anwendungsbereichen geführt. Insbesondere große Sprachmodelle (Large Language Models, LLMs) zeigen beeindruckende Fähigkeiten im Verständnis und in der Generierung von Texten. Eine vielversprechende Weiterentwicklung sind omnimodale große Sprachmodelle (Omni-modal Large Language Models, OLLMs), die darauf abzielen, multimodales Verstehen und Generieren in einem einzigen Framework zu vereinen. Während bestehende OLLMs oft auf linguistische, akustische oder pixelbasierte visuelle Ausgaben fokussieren, bleibt die Integration von Sprache mit 3D-Gesichtsanimationen ein Bereich mit erheblichem, aber noch unerschlossenem Potenzial für natürlichere Interaktionen.

Die menschliche Kommunikation ist von Natur aus multimodal und geht über rein verbale Inhalte hinaus. In der direkten Kommunikation spielt eine zeitlich kohärente 3D-Gesichtsanimation, die mit der Sprache synchronisiert ist, eine entscheidende Rolle bei der Vermittlung nonverbaler Hinweise und der Verbesserung der Natürlichkeit der Interaktion. Dies ist besonders relevant für Anwendungen wie virtuelle Charaktere, digitale Avatare und verkörperte KI-Agenten.

Die Herausforderung der Repräsentationsinkongruenz

Ein zentrales Problem bei der Integration von 3D-Gesichtsanimation in OLLMs ist die Repräsentationsinkongruenz. LLM-interne Zustände sind für die Verarbeitung diskreter, token-basierter semantischer Informationen optimiert, die eine schwach eingeschränkte zeitliche Struktur aufweisen. Im Gegensatz dazu erfordert 3D-Gesichtsanimation eine dichte und zeitlich flüssige Bewegung auf einer wesentlich feineren Zeitskala. Ein direktes Modellieren dieser beiden unterschiedlichen Repräsentationen erweist sich als schwierig zu optimieren, insbesondere bei begrenzten Datenmengen. Dies führt dazu, dass ein Decoder die feinkörnige Dynamik aus groben semantischen Merkmalen ableiten müsste, was eine schlecht konditionierte Abbildung zur Folge hätte und eine erheblich größere Modellkapazität sowie mehr gepaarte Sprach-Gesichts-Supervision für eine stabile Generierung erfordern würde.

Ex-Omni: Ein neuer Ansatz für 3D-Gesichtsanimation

Um diese Herausforderungen zu adressieren, wurde Expressive Omni (Ex-Omni) vorgeschlagen. Ex-Omni ist ein Open-Source-Framework, das OLLMs um sprachbegleitende 3D-Gesichtsanimationen erweitert. Die Gesichtsbewegungen werden dabei mithilfe von ARKit-52 Blendshape-Koeffizienten dargestellt und nicht-autoregressiv generiert. Ex-Omni ist in der Lage, Text- oder Sprachanweisungen zu folgen, um synchronisierte Sprache und Gesichtsanimationen End-to-End zu erzeugen.

Architektonische Innovationen von Ex-Omni

Ex-Omni implementiert zwei komplementäre Designentscheidungen, um das Lernen zeitlich kohärenter Gesichtsanimationen aus LLM-Semantik zu erleichtern:

Entkopplung der semantischen Argumentation von der zeitlichen Generierung: Anstatt Gesichtsbewegungen direkt aus den verborgenen Zuständen des LLM vorherzusagen, nutzt Ex-Omni diskrete Spracheinheiten als strukturierte Zwischenrepräsentation. Diese Spracheinheiten dienen als explizites zeitliches Gerüst für die Gesichtsgenerierung und reduzieren die Lernschwierigkeiten.
Token-as-Query Gated Fusion (TQGF): Ein vereinheitlichter TQGF-Mechanismus wird eingeführt, um selektiv zu regulieren, wie und wann semantische Informationen vom LLM in die Sprach- und Gesichtsgenerierungsprozesse eingebracht werden. Dies vereinfacht die Optimierung und verbessert die zeitliche Ausrichtung. Die TQGF wendet eine asymmetrische Fusionsregel an, bei der die Token-Sequenz stets als Abfrage dient, während vorgelagerte semantische Repräsentationen als kontextuelle Schlüssel/Werte fungieren.

Das InstructEx-Datenset

Zusätzlich zu diesen architektonischen Neuerungen wurde das InstructEx-Datenset entwickelt. InstructEx zielt darauf ab, die Augmentierung von OLLMs mit sprachbegleitenden 3D-Gesichtsanimationen zu erleichtern. Es umfasst eine vielfältige Datentypologie, darunter:

Automatische Spracherkennung (ASR)
Text-zu-Sprache (TTS)
Text-zu-Text (T2T)
Sprache-zu-Sprache (S2S) für Frage-Antwort-Systeme
Ein großangelegtes synthetisches Sprache-zu-Gesicht (S2F)-Korpus, das speziell darauf ausgelegt ist, die Lücke zwischen begrenzten realen Aufnahmen und der Verallgemeinerung im offenen Bereich zu schließen.

Dieses Design ermöglicht ein gemeinsames Lernen von Sprachverständnis, Spracherzeugung und 3D-Gesichtsgenerierung innerhalb eines vereinheitlichten Frameworks.

Experimentelle Ergebnisse und Analyse

Umfassende Experimente demonstrieren, dass Ex-Omni im Vergleich zu bestehenden Open-Source-OLLMs eine wettbewerbsfähige Leistung erbringt. Das Framework ermöglicht eine stabile und synchronisierte Sprach- und Gesichtsanimation. Im Detail zeigen die Ergebnisse Folgendes:

3D-Gesichtsanimation

Im Vergleich zu kaskadierten Baselines, die Omni-Backbones mit externen Gesichtsdecodern kombinieren (z.B. EmoTalk und UniTalker), erzeugt Ex-Omni Gesichtsanimationen, die enger an der Audio2Face-3D-Referenz ausgerichtet sind. Dies deutet auf die Effektivität der direkten Generierung von Gesichtsanimationen innerhalb eines vereinheitlichten Frameworks hin. Die nativ in Ex-Omni integrierte S2F-Generierung, bei der Gesichtsanimation und Sprache gemeinsam erzeugt werden, vermeidet potenzielle Informationsverluste, die durch die Zwischensprachgenerierung entstehen könnten, und führt zu natürlicheren Gesichtsanimationen. Eine höhere Fehlerrate auf dem Ex-A2F-EN-Benchmark könnte darauf zurückzuführen sein, dass Ex-Omni dazu neigt, längere Sprachantworten zu generieren, was die zeitliche Länge und Komplexität der entsprechenden Gesichtsanimationssequenzen erhöht. Die Verwendung von Audio2Face-3D für die Generierung von Blendshape-Annotationen und als Referenz für die Bewertung ist anerkannt, da es auf professionell erfassten Motion-Capture-Daten trainiert wurde und als starker Stellvertreter für hochwertige 3D-Gesichtsbewegungen gilt.

Menschliche Bewertung

Menschliche A/B-Präferenzstudien ergänzen die automatische Bewertung. Ex-Omni erzielt konsistent starke menschliche Präferenzen, insbesondere bei der Mund-Sprach-Synchronisation. In 55 % bis 80 % der Fälle wird Ex-Omni bevorzugt, mit nur 5 % bis 10 % Gleichstand. Die Inter-Rater-Konsistenz ist hoch (70,0 % bis 73,8 %), was auf eine klare Mehrheitspräferenz hindeutet und die Reproduzierbarkeit der Vorteile von Ex-Omni unterstreicht. Dies belegt direkt, dass Ex-Omni genauere und stabilere Gesichtsbewegungen erzeugt, insbesondere bei längeren Sprachausgaben, wo es ausdrucksstärkere Mundöffnungsdynamiken in semantisch betonten Regionen beibehält.

Sprache-zu-Text (S2T) Ergebnisse

Proprietäre Modelle übertreffen Open-Source-Modelle in den meisten Benchmarks, was hauptsächlich auf ihre größeren Trainingsdatensätze zurückzuführen ist. Trotz begrenzter Trainingsdaten (713,03 Stunden S2S-QA-Daten) erzielt Ex-Omni eine wettbewerbsfähige Leistung unter Open-Source-Modellen. Es belegt den zweiten Platz bei SD-QA (40,14 %) und zeigt eine starke Robustheit bei referenzbasierten Sprach-QA-Aufgaben sowie eine wettbewerbsfähige Leistung bei AdvBench. Bei MMSU, OBQA, BBH und IFEval bleibt die Leistung der meisten Modelle niedrig, was darauf hindeutet, dass sprachbasierte Multiple-Choice-Argumentation und Anweisungsbefolgung weiterhin herausfordernd sind. Diese Ergebnisse verdeutlichen die Effektivität von Ex-Omni im Hinblick auf ein ausgewogenes Verhältnis von Leistung und Dateneffizienz.

Text-zu-Sprache (TTS) Ergebnisse

Ex-Omni erreicht bei der TTS-Generierung eine angemessene Leistung über alle Test-Splits hinweg. Obwohl Ex-Omni als OLLM nicht darauf ausgelegt ist, mit spezialisierten TTS-Modellen in Bezug auf die absolute Synthesequalität zu konkurrieren, demonstriert es seine Effektivität im vereinheitlichten Framework. Viele Open-Source-OLLMs können expliziten TTS-Anweisungen nicht folgen, was auf eine Einschränkung bei der kontrollierbaren Spracherzeugung für allgemeine OLLMs hindeutet.

Ablationsstudie zur Gesichtsanimation

Die Analyse der Auswirkungen von Regularisierungstermen und Komponenten auf die 3D-Gesichtsanimation zeigt, dass die Geschwindigkeitsregularisierung (ℒvel) wichtig ist, um abrupte Lippenbewegungen zu begrenzen und die zeitliche Stabilität zu verbessern. Das Ersetzen der kontextuellen Repräsentationen des Sprachgenerators durch LLM-Funktionen führt zu einem Leistungsabfall, was darauf hindeutet, dass generatorebene Repräsentationen eine geeignetere semantisch-zeitliche Schnittstelle für feinkörnige Vorhersagen bieten. Das Entfernen jeglicher kontextueller Konditionierung unterstreicht die Bedeutung von Kontextinformationen. Überraschenderweise kann die direkte Injektion hochrangiger LLM-Semantik zu zusätzlicher Instabilität führen. Die TQGF-Methode (Token-as-Query Gated Fusion) hilft, die Leistung über verschiedene Sprachen hinweg auszugleichen, indem sie die semantische Konditionierung moduliert, und demonstriert dabei eine höhere Trainingseffizienz im Vergleich zu alternativen Fusionsmethoden.

Schlussfolgerung

Ex-Omni stellt einen bedeutenden Fortschritt im Bereich der omnimodalen Large Language Models dar, indem es die Generierung von sprachbegleitenden 3D-Gesichtsanimationen ermöglicht. Durch die Entkopplung von hochrangigem semantischem Verständnis und modalitätsspezifischer zeitlicher Synthese, die Nutzung diskreter Spracheinheiten als zeitliches Gerüst und den Einsatz eines vereinheitlichten Token-Query-Guided-Fusion-Mechanismus, werden die Herausforderungen der Repräsentationsinkongruenz erfolgreich bewältigt. Die umfassenden Experimente belegen die wettbewerbsfähige Leistung von Ex-Omni in Sprachverständnis- und Generierungs-Benchmarks sowie die Fähigkeit, stabile und synchronisierte Sprach- und 3D-Gesichtsanimationen zu erzeugen.

Ausblick

Trotz der gezeigten Effektivität weist Ex-Omni noch einige Einschränkungen auf. Der aktuelle Fokus liegt hauptsächlich auf der Mundartikulation und der Lippen-Sprach-Synchronisation, ohne explizite Modellierung höherer Gesichtsausdrücke oder emotionaler Zustände, was die Ausdruckskraft der generierten Animationen begrenzt. Zudem erhöht die Integration von 3D-Gesichtsanimationen zwangsläufig die Generierungslatenz im Vergleich zu reinen Sprach-OLLMs, was interaktive Echtzeitszenarien potenziell beeinflussen kann.

Zukünftige Arbeiten könnten darauf abzielen, Ex-Omni um emotionsbewusste und ausdrucksstärkere Gesichtsanimationen zu erweitern und die Realismus und Kontrollierbarkeit der Spracherzeugung, insbesondere im Hinblick auf Sprecheridentität und Stimmfarbe, zu verbessern. Effizientere Modellierungs- und Inferenzstrategien zur Reduzierung der Latenz und zur Ermöglichung einer reaktionsschnelleren gemeinsamen Sprach-Gesichts-Generierung für interaktive Anwendungen stellen vielversprechende Forschungsrichtungen dar.

Bibliografie

- Zhang, H., Li, Z., Guo, Y., & Yu, T. (2026). Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models. arXiv preprint arXiv:2602.07106. - Hugging Face. (2026, February 12). Paper page - Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models. Retrieved from https://huggingface.co/papers/2602.07106 - arXiv. (2026, February 6). [PDF] Enabling 3D Facial Animation Generation for Omni-modal ... - arXiv. Retrieved from https://www.arxiv.org/pdf/2602.07106 - ResearchGate. (2026, February). (PDF) Omni-Video 2: Scaling MLLM-Conditioned Diffusion for .... Retrieved from https://www.researchgate.net/publication/400622102_Omni-Video_2_Scaling_MLLM-Conditioned_Diffusion_for_Unified_Video_Generation_and_Editing - Hugging Face. (2026, February 10). Daily Papers - Hugging Face. Retrieved from https://huggingface.co/papers?q=omnimodal+model - arXiv. (n.d.). Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing. Retrieved from https://arxiv.org/html/2602.09609v1 - paperreading.club. (n.d.). Qwen3-Omni Technical Report. Retrieved from http://paperreading.club/page?id=339780 - arXiv. (2025, January 8). OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis. Retrieved from https://arxiv.org/abs/2501.04561 - GitHub. (n.d.). liutaocode/talking-face-arxiv-daily. Retrieved from https://github.com/liutaocode/talking-face-arxiv-daily