Die jüngsten Fortschritte im Bereich des Volume Rendering, z. B. NeRF und 3D Gaussian Splatting (3DGS), haben die Rendering-Qualität und -Effizienz mit Hilfe des gelernten impliziten neuronalen Strahlungsfeldes oder 3D-Gaußschen deutlich verbessert. Das Vanilla 3DGS und seine Varianten, die auf einem expliziten Rendering basieren, bieten Echtzeit-Effizienz, indem das parametrische Modell während des Trainings mit Single-View-Supervision pro Iteration optimiert wird, was von NeRF übernommen wurde. Infolgedessen werden bestimmte Ansichten überangepasst, was zu einem unbefriedigenden Erscheinungsbild bei der Synthese neuer Ansichten und ungenauen 3D-Geometrien führt. Um die genannten Probleme zu lösen, wird eine neue 3DGS-Optimierungsmethode vorgestellt, die vier wesentliche neue Beiträge enthält: 1) Das herkömmliche Single-View-Trainingsparadigma wird in eine Multi-View-Trainingsstrategie umgewandelt. Mit der vorgeschlagenen Multi-View-Regulierung werden 3D-Gauß-Attribute weiter optimiert, ohne bestimmte Trainingsansichten zu überlasten. Als allgemeine Lösung wird die Gesamtgenauigkeit in einer Vielzahl von Szenarien und verschiedenen Gauß-Varianten verbessert. 2) Inspiriert von dem Vorteil, den zusätzliche Ansichten bieten, wird ein Cross-Intrinsic-Guidance-Schema vorgeschlagen, das zu einem Coarse-to-Fine-Trainingsprozess mit unterschiedlichen Auflösungen führt. 3) Aufbauend auf dem Multi-View-regulierten Training wird eine Cross-Ray-Verdichtungsstrategie vorgeschlagen, die mehr Gauß-Kernel in den Ray-Intersect-Regionen aus einer Auswahl von Ansichten verdichtet. 4) Bei der weiteren Untersuchung der Verdichtungsstrategie wurde festgestellt, dass der Effekt der Verdichtung verstärkt werden sollte, wenn sich bestimmte Ansichten dramatisch unterscheiden. Als Lösung wird eine neuartige Multi-View-erweiterte Verdichtungsstrategie vorgeschlagen, bei der 3D-Gaußsche angeregt werden, sich entsprechend auf eine ausreichende Anzahl zu verdichten, was zu einer verbesserten Rekonstruktionsgenauigkeit führt.
3D Gaussian Splatting (3DGS) hat sich als vielversprechende Technik für die schnelle und effiziente Synthese neuartiger Ansichten erwiesen. Die Methode basiert auf der Darstellung einer Szene als eine Menge von 3D-Gaußschen, die aus Multi-View-Bildern optimiert werden. Im Gegensatz zu herkömmlichen volumetrischen Rendering-Techniken, die auf dichten Voxelgittern oder neuronalen Netzen basieren, bietet 3DGS eine kompakte und explizite Darstellung der Szene, die eine Echtzeit-Rendering-Leistung ermöglicht.
Ein wesentlicher Vorteil von 3DGS ist seine Fähigkeit, hochdetaillierte und realistische Szenen aus spärlichen Eingangsansichten zu rekonstruieren. Dies wird durch die Verwendung von Gaußschen erreicht, die glatte und kontinuierliche Oberflächen repräsentieren können, die komplexe Geometrien und Texturen effektiv erfassen. Die Gauß-Parameter, wie z. B. Position, Orientierung, Größe und Farbe, werden während des Optimierungsprozesses iterativ verfeinert, um die Eingangsansichten bestmöglich zu rekonstruieren.
Die Fähigkeit von 3DGS, neuartige Ansichten aus spärlichen Eingangsdaten zu synthetisieren, macht es zu einer attraktiven Lösung für verschiedene Anwendungen, darunter virtuelle und erweiterte Realität, 3D-Modellierung und Robotik. In virtuellen und erweiterten Umgebungen kann 3DGS immersive Erlebnisse ermöglichen, indem es Benutzern ermöglicht, aus beliebigen Blickwinkeln mit virtuellen Objekten und Szenen zu interagieren. Im Bereich der 3D-Modellierung kann 3DGS verwendet werden, um detaillierte 3D-Modelle von Objekten oder Umgebungen aus einer begrenzten Anzahl von Bildern oder Scans zu erstellen. In der Robotik kann 3DGS bei der Szenenrekonstruktion und Navigation helfen, indem es Robotern eine genaue 3D-Darstellung ihrer Umgebung liefert.
Trotz seiner Vorteile weist 3DGS auch einige Einschränkungen auf. Eine der Herausforderungen ist die Tendenz zur Überanpassung an die Trainingsansichten, insbesondere wenn die Anzahl der Eingangsansichten begrenzt ist. Eine Überanpassung tritt auf, wenn das Modell die Trainingsdaten zu gut lernt und nicht in der Lage ist, auf unsichtbare Ansichten zu generalisieren. Dies kann zu Artefakten und Verzerrungen in den gerenderten Bildern führen.
Um die Überanpassung in 3DGS zu beheben, wurde eine neue Methode namens Multi-View-regulated Gaussian Splatting (MVGS) vorgeschlagen. MVGS führt eine Multi-View-Regulierungstechnik ein, die die Gauß-Parameter während des Optimierungsprozesses weiter einschränkt. Durch die Berücksichtigung von Informationen aus mehreren Ansichten zielt MVGS darauf ab, die Konsistenz und Genauigkeit der 3D-Szenenrekonstruktion zu verbessern.
MVGS verwendet eine Multi-View-Trainingsstrategie, bei der mehrere Eingangsansichten gleichzeitig verwendet werden, um die Gauß-Parameter zu optimieren. Dies steht im Gegensatz zum herkömmlichen 3DGS, das eine Single-View-Supervision pro Iteration während des Trainings verwendet. Durch die Einbeziehung mehrerer Ansichten kann MVGS die Überanpassung bestimmter Trainingsansichten verhindern und eine robustere Szenenrekonstruktion fördern.
Zusätzlich zur Multi-View-Regulierung führt MVGS drei weitere wichtige Beiträge ein: ein Cross-Intrinsic-Guidance-Schema, eine Cross-Ray-Verdichtungsstrategie und eine Multi-View-erweiterte Verdichtungsstrategie. Diese Strategien zielen darauf ab, die Rendering-Qualität und -Effizienz von 3DGS weiter zu verbessern.
Das Cross-Intrinsic-Guidance-Schema nutzt die Vorteile der zusätzlichen Ansichten, um einen Coarse-to-Fine-Trainingsprozess zu ermöglichen. Das Modell wird zunächst mit einer niedrigen Auflösung trainiert, wobei Informationen aus allen Ansichten genutzt werden, um grobe Gauß-Parameter zu erhalten. Dann wird die Auflösung schrittweise erhöht, und die Gauß-Parameter werden weiter verfeinert, wobei der Schwerpunkt auf den Regionen liegt, in denen die Ansichten deutlich unterschiedlich sind. Dieser hierarchische Ansatz hilft, die Gesamtgenauigkeit der Szenenrekonstruktion zu verbessern.
Die Cross-Ray-Verdichtungsstrategie zielt darauf ab, die Darstellung der Szene zu verdichten, indem mehr Gauß-Kernel in den Regionen hinzugefügt werden, in denen sich Strahlen aus verschiedenen Ansichten schneiden. Diese Regionen entsprechen typischerweise komplexen Geometrien oder Texturen, bei denen eine höhere Dichte an Gaußschen erforderlich ist, um die Szene genau darzustellen. Durch die selektive Verdichtung von Gauß-Kernel in diesen Regionen kann MVGS die Rendering-Qualität verbessern, ohne die Rechenkosten wesentlich zu erhöhen.
Die Multi-View-erweiterte Verdichtungsstrategie baut auf der Cross-Ray-Verdichtungsstrategie auf, indem sie die Anzahl der in jeder Region hinzugefügten Gauß-Kernel weiter verfeinert. Die Anzahl der hinzugefügten Kernel hängt vom Grad der Unterscheidbarkeit zwischen den Ansichten in dieser Region ab. Wenn die Ansichten in einer Region sehr unterschiedlich sind, werden mehr Gauß-Kernel hinzugefügt, um die zusätzlichen geometrischen Details und Texturvariationen zu erfassen. Dieser adaptive Ansatz stellt sicher, dass die Szene mit ausreichenden Details rekonstruiert wird, selbst in komplexen Bereichen.
MVGS wurde in einer Vielzahl von Szenarien und verschiedenen Gauß-Varianten getestet. Experimentelle Ergebnisse zeigen, dass MVGS die Gesamtgenauigkeit der Szenenrekonstruktion im Vergleich zu herkömmlichem 3DGS verbessert. Die Multi-View-Regulierungstechnik hilft effektiv, die Überanpassung zu verhindern und die Konsistenz zwischen verschiedenen Ansichten zu verbessern. Das Cross-Intrinsic-Guidance-Schema, die Cross-Ray-Verdichtungsstrategie und die Multi-View-erweiterte Verdichtungsstrategie tragen weiter zur Verbesserung der Rendering-Qualität und -Effizienz bei.
Zusammenfassend lässt sich sagen, dass MVGS eine vielversprechende Methode zur Synthese neuartiger Ansichten ist, die die Einschränkungen von herkömmlichem 3DGS durch die Einführung einer Multi-View-Regulierungstechnik und anderer neuartiger Strategien angeht. Durch die Berücksichtigung von Informationen aus mehreren Ansichten kann MVGS die Überanpassung verhindern, die Rendering-Qualität verbessern und eine robustere Szenenrekonstruktion ermöglichen. MVGS hat das Potenzial, die Art und Weise, wie wir mit 3D-Inhalten interagieren und diese erleben, in verschiedenen Anwendungen zu revolutionieren.
https://huggingface.co/papers/2410.02103
https://arxiv.org/abs/2407.11840
https://arxiv.org/abs/2409.14316
https://github.com/Lee-JaeWon/2024-Arxiv-Paper-List-Gaussian-Splatting/blob/main/README.md
https://www.cs.cit.tum.de/en/cg/research/publications/2024/translate-to-en-compressed-3d-gaussian-splatting-for-accelerated-novel-view-synthesis/
https://github.com/MrNeRF/awesome-3D-gaussian-splatting
https://mvsgaussian.github.io/
https://www.semanticscholar.org/paper/fa0c7c850b6298fa49518e42e9f9e492dd4c5541
https://www.cvlibs.net/publications/Chen2024ECCVb.pdf
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/