Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung von Bewegungen für 3D-Humanoide hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch sehen sich bestehende Modelle mit einer grundlegenden Einschränkung konfrontiert: ihrer Generalisierungsfähigkeit. Während sie auf spezifischen Benchmarks oft beeindruckende Ergebnisse liefern, fällt es ihnen schwer, menschliches Verhalten in vielfältigen, ungesehenen Szenarien realistisch und kohärent zu reproduzieren. Dies steht im Kontrast zu angrenzenden generativen Feldern, wie der Videogenerierung (ViGen), die bereits eine bemerkenswerte Generalisierung bei der Modellierung menschlicher Verhaltensweisen gezeigt haben. Diese Beobachtung legt nahe, dass wertvolle Erkenntnisse und Techniken von ViGen auf die Bewegungserzeugung (MoGen) übertragen werden könnten, um deren Generalisierungsfähigkeit zu verbessern.
Angesichts dieser Herausforderungen wurde ein umfassendes Framework entwickelt, das systematisch Wissen von ViGen auf MoGen überträgt. Dieses Framework konzentriert sich auf drei Kernbereiche: Daten, Modellierung und Evaluierung. Ziel ist es, die derzeitigen Grenzen der Generalisierung zu überwinden und Modelle zu schaffen, die menschliche Bewegungen in einer breiteren Palette von Kontexten realistisch und flexibel generieren können.
Ein zentraler Baustein des Frameworks ist die Einführung von ViMoGen-228K, einem umfangreichen Datensatz, der 228.000 hochwertige Bewegungsproben umfasst. Dieser Datensatz ist eine innovative Kombination aus verschiedenen Quellen, um die semantische Vielfalt und Qualität der Trainingsdaten erheblich zu erweitern:
Dieser hybride Ansatz, der sowohl Text-Bewegungs-Paare als auch Text-Video-Bewegungs-Tripletts einschließt, zielt darauf ab, die semantische Vielfalt zu maximieren und den Modellen ein tieferes Verständnis für die Beziehung zwischen Textbeschreibungen, visuellen Kontexten und den daraus resultierenden Bewegungen zu vermitteln.
Aufbauend auf der erweiterten Datenbasis wird das Modell ViMoGen vorgeschlagen. Hierbei handelt es sich um einen auf Flussanpassung basierenden Diffusionstransformer, der darauf ausgelegt ist, die Priors aus MoCap-Daten und ViGen-Modellen durch eine "gated multimodal conditioning" zu vereinen. Diese Konditionierung ermöglicht es dem Modell, relevante Informationen aus verschiedenen Modalitäten (Text, Video, Bewegung) selektiv zu nutzen, um kohärente und realistische Bewegungen zu generieren.
Um die Effizienz zu steigern, wurde zusätzlich ViMoGen-light entwickelt. Diese destillierte Variante eliminiert Abhängigkeiten von der Video-Generierung, während sie gleichzeitig eine starke Generalisierungsfähigkeit beibehält. Dies ist besonders relevant für Anwendungen, bei denen Rechenressourcen begrenzt sind oder eine schnelle Inferenz erforderlich ist.
Um die Leistungsfähigkeit des Frameworks umfassend zu bewerten, wurde der hierarchische Benchmark MBench entwickelt. Dieser Benchmark ermöglicht eine feingranulare Evaluierung in drei Schlüsselbereichen:
Umfangreiche Experimente unter Verwendung dieses Benchmarks haben gezeigt, dass das entwickelte Framework bestehende Ansätze sowohl in automatischen als auch in menschlichen Bewertungen signifikant übertrifft. Dies deutet auf einen substanziellen Fortschritt in der genauerer und allgemeingültigerer Bewegungserzeugung hin.
Für Unternehmen im B2B-Bereich, insbesondere im Kontext von KI-gestützten Content-Tools wie Mindverse, sind die Ergebnisse dieser Forschung von grosser Bedeutung. Die verbesserte Generalisierungsfähigkeit und Realitätstreue bei der Bewegungserzeugung eröffnen neue Möglichkeiten in verschiedenen Anwendungsbereichen:
Die Verfügbarkeit von Code, Daten und Benchmarks unterstreicht das Engagement der Forschergemeinschaft für Transparenz und Reproduzierbarkeit, was die Adaption und Weiterentwicklung dieser Technologien in industriellen Kontexten erleichtert.
Die Forschung zur generalisierbaren Bewegungserzeugung markiert einen wichtigen Schritt in Richtung künstlicher Intelligenz, die menschliches Verhalten nicht nur nachahmen, sondern auch in neuen Kontexten flexibel und überzeugend generieren kann. Die Kombination aus vielfältigen Datenquellen, fortschrittlichen Modellierungsansätzen und umfassenden Evaluierungsmethoden schafft eine solide Basis für zukünftige Innovationen in diesem dynamischen Feld.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen