Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung von 3D-Objekten aus einzelnen 2D-Bildern stellt eine zentrale Herausforderung in der Computer Vision und Computergrafik dar. Insbesondere die Modellierung von Bereichen, die auf dem ursprünglichen Bild nicht sichtbar sind – wie die Rückseite eines Objekts – ist komplex. Bisherige Ansätze führten hier oft zu zufälligen, unkontrollierbaren oder gar physikalisch unplausiblen Ergebnissen. Ein Forschungsteam hat nun mit Know3D ein Framework vorgestellt, das diese Problematik durch die Integration von Wissen aus multimodalen Sprachmodellen (MLLMs) adressiert und die textbasierte Steuerung dieser bisher „blinden Flecken“ ermöglicht.
Wenn ein KI-Modell ein vollständiges 3D-Objekt aus einem einzelnen Foto erstellen soll, arbeitet es mit einer inhärenten Einschränkung: Das Bild zeigt lediglich eine Ansicht, wodurch das Modell die Struktur hinter dem Objekt extrapolieren muss. Dies führt laut den Forschenden regelmäßig zu Ergebnissen, die entweder geometrisch unrealistisch sind oder nicht den Vorstellungen der Anwender entsprechen. Der Mangel an umfassenden 3D-Trainingsdaten im Vergleich zu den riesigen Bild- und Textdatensätzen im Internet trägt dazu bei, dass 3D-Modelle nicht über ausreichend „Weltwissen“ verfügen, um verborgene Bereiche zuverlässig zu ergänzen.
Know3D begegnet dieser Herausforderung, indem es das umfangreiche Weltwissen von multimodalen Sprachmodellen (VLMs) nutzt. Anwender können über Textbeschreibungen festlegen, wie die unsichtbare Seite eines Objekts aussehen soll. Die direkte Einspeisung der Ausgabe eines Sprachmodells in ein 3D-Netzwerk erweist sich jedoch als ineffektiv, da die Repräsentationen zu abstrakt sind und nicht genügend räumliche Informationen für die Generierung brauchbarer Geometrie liefern.
Know3D wählt daher einen indirekten Weg: Ein Bildgenerierungsmodell fungiert als Übersetzer zwischen dem Sprachmodell und dem 3D-Generator. Das Setup verwendet Qwen2.5-VL als Sprachmodell, Qwen-Image-Edit für die Bildgenerierung und Microsofts Trellis.2 als 3D-Generator. Das Sprachmodell analysiert die Texteingabe und das Ausgangsbild. Anschließend wandelt der Bildgenerator dieses Verständnis in räumlich-strukturelle Informationen um, die den 3D-Generator steuern.
Entscheidend ist die Art der Informationen, die vom Bildgenerator extrahiert werden. Das Team testete drei Optionen:
Die letzte Option, die Verwendung der internen Zwischenzustände, erwies sich als die effektivste. Diese Zustände tragen sowohl semantische als auch räumliche Informationen, ohne auf pixelgenaue Genauigkeit oder potenzielle Fehler im Endbild angewiesen zu sein. Dies ist von praktischer Bedeutung, da Fehler des Bildgenerators, wie beispielsweise die Generierung einer Tasche mit zwei Trägern anstelle einer Ein-Schulter-Tasche, bei bildbasierten Methoden direkt an die 3D-Ausgabe weitergegeben würden. Die internen Zwischenzustände des Modells sind hier fehlerverzeihender, da sie offenbar genügend räumliche und semantische Informationen enthalten, um dennoch ein konsistentes 3D-Objekt zu erzeugen.
Auch der Zeitpunkt der Extraktion dieser Zustände ist relevant. Eine zu frühe Extraktion konzentriert sich zu stark auf Pixeldetails, während eine zu späte Extraktion durch Rauschen beeinträchtigt wird. Ablationsstudien zeigten, dass die Extraktion der Zustände etwa bei einem Viertel des Prozesses den optimalen Punkt darstellt.
Der Hauptvorteil von Know3D gegenüber bestehenden Methoden liegt im Grad der Kontrolle, den es bietet. Die Forscher demonstrieren dies an einem Beispiel einer Kaffeetasse: Dasselbe Eingabefoto führt je nach Textanweisung zu unterschiedlichen, aber geometrisch konsistenten Rückseiten. Das gleiche Prinzip gilt für Stühle, Roboter und Häuser: Die Rückseite passt sich der Beschreibung an, während die sichtbare Vorderseite unverändert bleibt.
Know3D erzielt laut den Forschern die besten Werte für die semantische Übereinstimmung zwischen Eingabebild und generiertem 3D-Objekt auf dem HY3D-Bench-Benchmark. Dies gilt sowohl im Vergleich zu aktuellen Single-Image-Methoden als auch zu einem Ansatz, der die generierte Rückansicht als zweites Eingabebild verwendet. Know3D übertrifft die Konkurrenz auch bei der geometrischen Qualität der Rückseiten.
Die Qualität der Ergebnisse hängt letztlich davon ab, ob das zugrunde liegende Sprachmodell die Textanweisungen korrekt interpretiert. Eine Fehlinterpretation der Aufforderung führt auch zu einer fehlerhaften 3D-Ausgabe. Stärkere multimodale Modelle könnten dieses Problem in Zukunft mindern.
Know3D stellt einen Fortschritt in der 3D-Generierung dar, indem es die Kontrolle über komplexe, unsichtbare Bereiche von 3D-Objekten durch Textprompts ermöglicht. Diese Fähigkeit, semantische Anweisungen in präzise geometrische Rekonstruktionen umzusetzen, könnte weitreichende Auswirkungen auf verschiedene Branchen haben:
Obwohl Know3D eine signifikante Verbesserung der semantischen Kontrolle in der 3D-Generierung bietet, bleibt die strukturelle Robustheit der generierten Assets weiterhin von den zugrunde liegenden multimodalen Basismodellen abhängig. Eine Fehlinterpretation der Anweisungen durch das Basismodell kann zu inkorrekten 3D-Formen führen. Zukünftige Entwicklungen könnten durch den Einsatz noch leistungsfähigerer MLLMs oder durch die Erforschung effektiverer Methoden zur Integration multimodaler Führung und Informationsinjektion in den 3D-Generierungsprozess weitere Verbesserungen erzielen.
Know3D transformiert die bisher stochastische Generierung von unsichtbaren 3D-Objektbereichen in einen semantisch steuerbaren Prozess. Durch die Nutzung von multimodalen Sprachmodellen als „semantisches Gehirn“ und die geschickte Übersetzung von Textanweisungen in räumlich-strukturelle Informationen gelingt es, die Lücke zwischen abstrakten Textbefehlen und der geometrischen Rekonstruktion zu schließen. Diese Entwicklung hat das Potenzial, die Erstellung von 3D-Inhalten in vielen Bereichen zu revolutionieren und die Effizienz sowie die Qualität der 3D-Asset-Produktion maßgeblich zu steigern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen