Vista3D: Neue Perspektiven durch 3D-Rekonstruktion aus Einzelbildern

Kategorien:
No items found.
Freigegeben:
September 19, 2024
Vista3D: Die verborgene 3D-Seite eines einzelnen Bildes enthüllen

Vista3D: Die verborgene 3D-Seite eines einzelnen Bildes enthüllen

Einleitung

Seit den frühesten Zeiten haben unsere Vorfahren auf den leuchtenden Mond geblickt, ein Symbol für Mysterium und Wunder. Seine helle Fassade, eine elegante Kugel im Kosmos, hat uns immer wieder dazu veranlasst, über das nachzudenken, was verborgen bleibt: die dunkle und schwer fassbare Rückseite des Mondes. Diese Neugier, so alt wie die Menschheitsgeschichte selbst, repräsentiert unseren angeborenen Wunsch, die verborgenen Dimensionen zu enthüllen, die über das Sichtbare hinaus existieren.

Herausforderungen und Fortschritte in 3D-Generationsmodellen

Diese einst rein philosophische Suche ist nun in das Reich der Praktikabilität vorgedrungen, angetrieben durch die Fortschritte in 3D-Generationsmodellen. Diese Technologien ermöglichen eine breite Palette von Anwendungen, insbesondere in den Bereichen Gaming und virtuelle Realität, und erlauben die Erstellung von reichhaltigen, detaillierten Umgebungen und Objekten ohne umfangreiches Modellieren.

Die Entwicklung robuster großskaliger 3D-Generationsmodelle bleibt jedoch eine formidable Herausforderung, hauptsächlich aufgrund der begrenzten Verfügbarkeit von 3D-Daten. Zahlreiche Versuche wurden unternommen, 3D-Diffusionsmodelle auf relativ kleinen 3D-Datensätzen zu trainieren, die auf textuellen oder visuellen Eingaben beruhen. Diese Bemühungen scheitern jedoch oft daran, 3D-Objekte mit struktureller Integrität und texturaler Konsistenz zu erstellen.

Vista3D: Ein neuer Ansatz zur 3D-Generierung

Vor diesem Hintergrund präsentieren wir Vista3D, ein Framework zur Rekonstruktion der unsichtbaren Ansichten (oder „dunklen Seite“) eines einzelnen Bildes. Das Herzstück von Vista3D bildet eine zweiphasige Strategie: eine grobe Phase, gefolgt von einer feinen Phase.

In der groben Phase nutzen wir 3D-Gaussian Splatting, um schnell grundlegende Geometrien und Texturen zu erstellen. Zur Stabilisierung der Gaussian-Splatting-Optimierung setzen wir eine gradientenbasierte Top-K-Verdichtung ein, die sich auf die Gauss-Punkte mit den höchsten Gradienten konzentriert. Zudem führen wir zwei neuartige Regularisierungsterme ein, die auf die Gauss-Skala und die Durchlässigkeitswerte abzielen, was die Konvergenzgeschwindigkeit erheblich verbessert.

Die feine Phase transformiert diese anfängliche Geometrie dann in Signierte Distanzfelder (SDFs) zur weiteren Optimierung. Hier verwenden wir FlexiCubes, eine fortschrittliche differenzierbare Isosurfacetechnik, um die Geometrie zu verfeinern. Diese Verfeinerung unterstützt das Lernen der SDFs, Deformationen und Interpolationsgewichte. Die Parameter werden optimiert, indem die Treue zum ursprünglichen Bild sichergestellt und durch eine Score-Funktion, die aus Diffusionsprioren abgeleitet wird, geleitet wird.

Erweiterungen und Verbesserungen

Trotz dieser Fortschritte erweist sich eine einheitliche Repräsentation und Überwachung über alle Ansichten, sowohl gesehen als auch ungesehen, als unzureichend, um die einzigartigen Merkmale unterschiedlicher Blickwinkel zu erfassen und vielfältige, konsistente 3D-Objekte zu generieren. Um dies zu adressieren, erweitern wir die Repräsentation durch die Implementierung einer Entkoppelten Textur Repräsentation, die zwei winkelmäßig entkoppelte Netzwerke zur genauen Texturvorhersage verwendet. Darüber hinaus kombiniert unsere Winkelbasierte Kompositionsmethode verschiedene Diffusionspriors, indem deren Gradienten innerhalb spezifischer Winkelgrenzen entsprechend ihrer Gradientenmagnitude angepasst werden. Diese strategische Anpassung stellt die 3D-Konsistenz sicher und fördert gleichzeitig die Vielfalt in den ungesehenen Ansichten.

Zusammenfassung und Ausblick

Vista3D zeichnet sich durch die effiziente Generierung vielfältiger und konsistenter 3D-Objekte aus einem einzigen Bild innerhalb von fünf Minuten aus. Unsere umfangreichen Bewertungen zeigen, dass Vista3D in der Lage ist, ein flexibles Gleichgewicht zwischen der Konsistenz und Vielfalt der generierten 3D-Objekte zu wahren.

Unsere Beiträge lassen sich wie folgt zusammenfassen:

- Wir präsentieren Vista3D, ein Framework zur Enthüllung der 3D-Dunkelseite von Einzelbildern, das effizient vielfältige 3D-Objekte unter Verwendung von 2D-Präsenzen generiert. - Wir entwickeln einen Übergang von Gaussian Splatting zu Isosurface-3D-Repräsentationen, verfeinern grobe Geometrie mit einer differenzierbaren Isosurface-Methode und entkoppelten Texturen für die Erstellung texturierter Meshes. - Wir schlagen einen Winkelkompositionsansatz für Diffusionspriors vor, der deren Gradientenmagnitude einschränkt, um Vielfalt auf der 3D-Dunkelseite zu erreichen, ohne die 3D-Konsistenz zu opfern.

Verwandte Arbeiten

3D-Generierung basierend auf einem einzelnen Bild

Das Ziel der Bild-zu-3D-Generierung ist es, 3D-Objekte aus einem einzigen Referenzbild zu erstellen. Anfangsmethoden betrachteten diese Herausforderung als eine Variante der spärlichen Sicht-3D-Rekonstruktion. Diese Methoden führten jedoch oft zu verschwommenen Objektausgaben aufgrund unzureichender Präsenzen. Kürzlich, inspiriert durch Text-zu-3D-Initiativen, die Score Distillation Sampling (SDS) nutzen, um 2D-Diffusionspriors in 3D-Generationsmodelle zu überführen, haben Bild-zu-3D-Arbeiten einen ähnlichen Ansatz für die 3D-Objektgenerierung basierend auf einem einzelnen Bild übernommen. 2D-Diffusionspriors allein können jedoch keine 3D-Konsistenz gewährleisten, da sie typischerweise ausschließlich auf Bilddatensätzen trainiert werden. Um dies zu adressieren, haben mehrere Studien versucht, 2D-Diffusionspriors mit 3D-Daten zu verfeinern, um deren Fähigkeit zur Modellierung von 3D-Konsistenz zu verbessern. Ein bemerkenswertes Beispiel ist Zero-1-to-3, das neue Ansichten bedingt durch ein einzelnes Bild und Kameraposition generieren kann. Durch die Integration dieses verfeinerten Modells mit SDS wird die Rekonstruktion kohärenter 3D-Objekte ermöglicht. Darüber hinaus zielen andere Arbeiten, die auf großskaligen 3D-Datensätzen vortrainiert sind, darauf ab, die Repräsentation eines 3D-Objekts direkt aus einem einzelnen Bild vorherzusagen. Im Gegensatz zu früheren Arbeiten betrachten wir dies nicht ausschließlich als ein 3D-Rekonstruktionsproblem. Wir definieren es neu als eine 3D-Generierungsaufgabe, die darauf abzielt, die ungesehenen 3D-Aspekte hinter einem einzelnen Bild zu enthüllen. Durch ein sorgfältig gestaltetes Framework generiert unsere Methode effizient vielfältige und konsistente 3D-Objekte.

3D-Repräsentationen für die Generierung

Derzeit nutzen die meisten zero-shot Text-zu-3D- und Bild-zu-3D-Modelle eine optimierungsbasierte Pipeline, die das 3D-Objekt als differenzierbare Repräsentation parametriert, die sich je nach Methode unterscheidet. Die häufigste Repräsentation in bahnbrechenden Arbeiten wie Dreamfields, Dreamfusion und SJC sind Neurale Radiance Fields (NeRF). Das Training eines NeRF ist jedoch rechenintensiv und benötigt lange Zeit zur Konvergenz. Magic3D führte eine zweistufige Repräsentation ein, die zunächst ein grobes NeRF erlernt und anschließend das Polygonnetz unter Verwendung einer differenzierbaren Isosurface-Methode, DMTet, verfeinert. Fantasia3D schlug vor, DMTet direkt in separaten Phasen für Geometrie und Textur zu optimieren, was jedoch oft zu einem Modus-Kollaps in der Geometriephase führt und die Trainingszeit über NeRF hinaus verlängert. Gaussian Splatting ermöglicht eine schnelle und effiziente Generierung von 3D-Objekten mit konsistenter Textur und Geometrie.

Fazit

Vista3D stellt einen bedeutenden Fortschritt in der 3D-Objektgenerierung aus einem einzigen Bild dar. Durch eine zweiphasige Strategie, die Gaussian Splatting und differenzierbare Isosurface-Techniken kombiniert, erreicht Vista3D eine beeindruckende Balance zwischen Vielfalt und Konsistenz. Zukünftige Arbeiten könnten darauf abzielen, die Trainingszeit weiter zu verkürzen und die Qualität der generierten 3D-Objekte weiter zu verbessern.

Bibliographie

- https://arxiv.org/html/2409.12193v1 - https://eccv.ecva.net/virtual/2024/poster/1684 - https://paperreading.club/page?id=252434 - https://arxiv.org/abs/2306.16928
Was bedeutet das?