Fortschritte in der 3D-Generierung durch textbasierte Steuerung unsichtbarer Objektseiten mit Know3D

Kategorien:

No items found.

Freigegeben:

April 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Know3D ermöglicht die textbasierte Steuerung der Rückseite von 3D-Objekten, die aus einzelnen Bildern generiert werden.
Die Methode adressiert das Problem der unkontrollierbaren und oft unplausiblen Generierung verdeckter Bereiche bei der 3D-Modellierung aus einer einzigen Ansicht.
Ein multimodales Sprachmodell (VLM) und ein Diffusionsmodell werden als Brücke genutzt, um semantisches Wissen in räumlich-strukturelle Informationen für die 3D-Generierung zu übersetzen.
Die Injektion latenter, versteckter Zustände aus den Zwischenschichten des Diffusionsmodells erweist sich als effektiver als die direkte Verwendung generierter Bilder oder abstrakter VLM-Repräsentationen.
Know3D zeigt in Benchmarks eine verbesserte semantische Konsistenz und geometrische Qualität im Vergleich zu bestehenden Methoden.
Die Technologie hat Potenzial für Anwendungen in Gaming, Filmproduktion und der Entwicklung von verkörperter KI, indem sie eine präzisere und benutzerfreundlichere 3D-Asset-Erstellung ermöglicht.

Revolution in der 3D-Generierung: Wie Know3D die Kontrolle über verborgene Objektseiten ermöglicht

Die Generierung von 3D-Objekten aus einzelnen 2D-Bildern stellt eine zentrale Herausforderung in der Computer Vision und Computergrafik dar. Insbesondere die Modellierung von Bereichen, die auf dem ursprünglichen Bild nicht sichtbar sind – wie die Rückseite eines Objekts – ist komplex. Bisherige Ansätze führten hier oft zu zufälligen, unkontrollierbaren oder gar physikalisch unplausiblen Ergebnissen. Ein Forschungsteam hat nun mit Know3D ein Framework vorgestellt, das diese Problematik durch die Integration von Wissen aus multimodalen Sprachmodellen (MLLMs) adressiert und die textbasierte Steuerung dieser bisher „blinden Flecken“ ermöglicht.

Die Herausforderung der unsichtbaren Seiten

Wenn ein KI-Modell ein vollständiges 3D-Objekt aus einem einzelnen Foto erstellen soll, arbeitet es mit einer inhärenten Einschränkung: Das Bild zeigt lediglich eine Ansicht, wodurch das Modell die Struktur hinter dem Objekt extrapolieren muss. Dies führt laut den Forschenden regelmäßig zu Ergebnissen, die entweder geometrisch unrealistisch sind oder nicht den Vorstellungen der Anwender entsprechen. Der Mangel an umfassenden 3D-Trainingsdaten im Vergleich zu den riesigen Bild- und Textdatensätzen im Internet trägt dazu bei, dass 3D-Modelle nicht über ausreichend „Weltwissen“ verfügen, um verborgene Bereiche zuverlässig zu ergänzen.

Know3D: Eine Brücke zwischen Text und 3D-Geometrie

Know3D begegnet dieser Herausforderung, indem es das umfangreiche Weltwissen von multimodalen Sprachmodellen (VLMs) nutzt. Anwender können über Textbeschreibungen festlegen, wie die unsichtbare Seite eines Objekts aussehen soll. Die direkte Einspeisung der Ausgabe eines Sprachmodells in ein 3D-Netzwerk erweist sich jedoch als ineffektiv, da die Repräsentationen zu abstrakt sind und nicht genügend räumliche Informationen für die Generierung brauchbarer Geometrie liefern.

Know3D wählt daher einen indirekten Weg: Ein Bildgenerierungsmodell fungiert als Übersetzer zwischen dem Sprachmodell und dem 3D-Generator. Das Setup verwendet Qwen2.5-VL als Sprachmodell, Qwen-Image-Edit für die Bildgenerierung und Microsofts Trellis.2 als 3D-Generator. Das Sprachmodell analysiert die Texteingabe und das Ausgangsbild. Anschließend wandelt der Bildgenerator dieses Verständnis in räumlich-strukturelle Informationen um, die den 3D-Generator steuern.

Die Rolle der internen Modellzustände

Entscheidend ist die Art der Informationen, die vom Bildgenerator extrahiert werden. Das Team testete drei Optionen:

Eine interne Bildrepräsentation kurz vor der endgültigen Ausgabe.
Bildmerkmale, die mittels Meta's DINOv3 daraus extrahiert wurden.
Die internen Zwischenzustände des Modells während des Generierungsprozesses.

Die letzte Option, die Verwendung der internen Zwischenzustände, erwies sich als die effektivste. Diese Zustände tragen sowohl semantische als auch räumliche Informationen, ohne auf pixelgenaue Genauigkeit oder potenzielle Fehler im Endbild angewiesen zu sein. Dies ist von praktischer Bedeutung, da Fehler des Bildgenerators, wie beispielsweise die Generierung einer Tasche mit zwei Trägern anstelle einer Ein-Schulter-Tasche, bei bildbasierten Methoden direkt an die 3D-Ausgabe weitergegeben würden. Die internen Zwischenzustände des Modells sind hier fehlerverzeihender, da sie offenbar genügend räumliche und semantische Informationen enthalten, um dennoch ein konsistentes 3D-Objekt zu erzeugen.

Auch der Zeitpunkt der Extraktion dieser Zustände ist relevant. Eine zu frühe Extraktion konzentriert sich zu stark auf Pixeldetails, während eine zu späte Extraktion durch Rauschen beeinträchtigt wird. Ablationsstudien zeigten, dass die Extraktion der Zustände etwa bei einem Viertel des Prozesses den optimalen Punkt darstellt.

Kontrolle und Qualität: Benchmark-Ergebnisse

Der Hauptvorteil von Know3D gegenüber bestehenden Methoden liegt im Grad der Kontrolle, den es bietet. Die Forscher demonstrieren dies an einem Beispiel einer Kaffeetasse: Dasselbe Eingabefoto führt je nach Textanweisung zu unterschiedlichen, aber geometrisch konsistenten Rückseiten. Das gleiche Prinzip gilt für Stühle, Roboter und Häuser: Die Rückseite passt sich der Beschreibung an, während die sichtbare Vorderseite unverändert bleibt.

Know3D erzielt laut den Forschern die besten Werte für die semantische Übereinstimmung zwischen Eingabebild und generiertem 3D-Objekt auf dem HY3D-Bench-Benchmark. Dies gilt sowohl im Vergleich zu aktuellen Single-Image-Methoden als auch zu einem Ansatz, der die generierte Rückansicht als zweites Eingabebild verwendet. Know3D übertrifft die Konkurrenz auch bei der geometrischen Qualität der Rückseiten.

Die Qualität der Ergebnisse hängt letztlich davon ab, ob das zugrunde liegende Sprachmodell die Textanweisungen korrekt interpretiert. Eine Fehlinterpretation der Aufforderung führt auch zu einer fehlerhaften 3D-Ausgabe. Stärkere multimodale Modelle könnten dieses Problem in Zukunft mindern.

Ausblick und Anwendungsbereiche

Know3D stellt einen Fortschritt in der 3D-Generierung dar, indem es die Kontrolle über komplexe, unsichtbare Bereiche von 3D-Objekten durch Textprompts ermöglicht. Diese Fähigkeit, semantische Anweisungen in präzise geometrische Rekonstruktionen umzusetzen, könnte weitreichende Auswirkungen auf verschiedene Branchen haben:

Gaming und Filmproduktion: Die Erstellung von 3D-Assets könnte effizienter und flexibler gestaltet werden, da Designer verborgene Details von Charakteren oder Objekten gezielt beschreiben können, ohne manuelle Modellierung oder aufwendige mehransichtige Eingabedaten.
Architektur und Design: Für die Visualisierung von Entwürfen könnten schnell und präzise Modelle erstellt werden, selbst wenn nur eine Ansicht als Ausgangspunkt dient.
Erweiterte und Virtuelle Realität (AR/VR): Realistischere und detailliertere 3D-Umgebungen und Objekte könnten mit geringerem Aufwand generiert werden.
Verkörperte KI und Robotik: Für die Entwicklung von Robotern, die mit der physischen Welt interagieren, ist eine genaue 3D-Repräsentation von Objekten essenziell. Know3D könnte hier die Erstellung von Trainingsdaten und Modellen vereinfachen.

Obwohl Know3D eine signifikante Verbesserung der semantischen Kontrolle in der 3D-Generierung bietet, bleibt die strukturelle Robustheit der generierten Assets weiterhin von den zugrunde liegenden multimodalen Basismodellen abhängig. Eine Fehlinterpretation der Anweisungen durch das Basismodell kann zu inkorrekten 3D-Formen führen. Zukünftige Entwicklungen könnten durch den Einsatz noch leistungsfähigerer MLLMs oder durch die Erforschung effektiverer Methoden zur Integration multimodaler Führung und Informationsinjektion in den 3D-Generierungsprozess weitere Verbesserungen erzielen.

Fazit

Know3D transformiert die bisher stochastische Generierung von unsichtbaren 3D-Objektbereichen in einen semantisch steuerbaren Prozess. Durch die Nutzung von multimodalen Sprachmodellen als „semantisches Gehirn“ und die geschickte Übersetzung von Textanweisungen in räumlich-strukturelle Informationen gelingt es, die Lücke zwischen abstrakten Textbefehlen und der geometrischen Rekonstruktion zu schließen. Diese Entwicklung hat das Potenzial, die Erstellung von 3D-Inhalten in vielen Bereichen zu revolutionieren und die Effizienz sowie die Qualität der 3D-Asset-Produktion maßgeblich zu steigern.

Bibliography

- Chen, Wenyue et al. „Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models“. arXiv preprint arXiv:2603.22782 (2026). - Kemper, Jonathan. „Know3D lets users control the hidden back side of 3D objects with text prompts“. The Decoder, 4. April 2026. - AI Research Roundup. „Know3D: MLLM-Guided Back-View 3D Generation“. YouTube, 31. März 2026. - xishuxishu.github.io/Know3D.github.io/. „Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models“. - Liner.com. „Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models [Quick Review]“. 24. März 2026. - Huggingface.co. „Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models“. 30. März 2026. - alphaxiv.org. „SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation“. 26. Februar 2026.