NVIDIA enthüllt Innovationen in der visuellen Künstlichen Intelligenz auf der CVPR

Kategorien:

No items found.

Freigegeben:

June 17, 2024

NVIDIA präsentiert neueste Fortschritte in der visuellen KI

NVIDIA, ein global führendes Technologieunternehmen, hat auf der diesjährigen Computer Vision and Pattern Recognition (CVPR) Konferenz in Seattle eine Reihe bahnbrechender Fortschritte im Bereich der visuellen generativen KI vorgestellt. Diese Entwicklungen umfassen maßgeschneiderte Bildgenerierung, 3D-Szenenbearbeitung, visuelles Sprachverständnis und autonome Fahrzeugwahrnehmung.

Forschung und Innovation auf der CVPR

Die CVPR ist eine der renommiertesten Konferenzen im Bereich der Computer Vision. NVIDIA präsentierte dort über 50 Forschungsprojekte, darunter zwei Arbeiten, die als Finalisten für die "Best Paper Awards" ausgewählt wurden. Diese Arbeiten beschäftigen sich mit den Trainingsdynamiken von Diffusionsmodellen und hochauflösenden Karten für selbstfahrende Autos.

Darüber hinaus hat NVIDIA den "Autonomous Grand Challenge" der CVPR in der Kategorie "End-to-End Driving at Scale" gewonnen und sich damit gegen über 450 Einreichungen weltweit durchgesetzt. Diese Auszeichnung unterstreicht die führende Rolle von NVIDIA in der Nutzung generativer KI für umfassende Modelle selbstfahrender Fahrzeuge.

JeDi: Eine neue Technik für maßgeschneiderte Bildgenerierung

Eines der herausragenden Forschungsprojekte ist JeDi, eine neue Technik, die es Kreativen ermöglicht, Diffusionsmodelle – die führende Methode zur Text-zu-Bild-Generierung – schnell anzupassen. Anstatt zeitaufwändig benutzerdefinierte Datensätze zu trainieren, können Nutzer mit JeDi spezifische Objekte oder Charaktere anhand weniger Referenzbilder darstellen.

FoundationPose: Ein neuer Ansatz zur 3D-Objektverfolgung

Ein weiterer Durchbruch ist FoundationPose, ein neues Basis-Modell, das sofort den 3D-Standpunkt von Objekten in Videos verstehen und verfolgen kann, ohne dass ein training pro Objekt erforderlich ist. Dieses Modell könnte neue Anwendungen in den Bereichen erweiterte Realität (AR) und Robotik ermöglichen.

NeRFDeformer: 3D-Szenenbearbeitung mit einem einzigen Schnappschuss

NVIDIA-Forscher haben auch NeRFDeformer vorgestellt, eine Methode zur Bearbeitung von 3D-Szenen, die von einem Neural Radiance Field (NeRF) erfasst wurden. Diese Methode ermöglicht es, eine vorhandene Szene mit nur einem 2D-Schnappschuss zu transformieren, anstatt die Szene manuell neu zu erstellen.

VILA: Fortschritte im visuellen Sprachverständnis

Auf dem Gebiet des visuellen Sprachverständnisses hat NVIDIA in Zusammenarbeit mit dem MIT das VILA-Modell entwickelt. Diese neue Familie von Vision-Language-Modellen erreicht Spitzenleistungen im Verständnis von Bildern, Videos und Texten und kann sogar Internet-Memes durch die Kombination von visuellem und linguistischem Verständnis erfassen.

Anwendungen in verschiedenen Branchen

NVIDIA's visuelle KI-Forschung erstreckt sich über zahlreiche Branchen. Mehr als ein Dutzend Arbeiten erkunden neuartige Ansätze für die Wahrnehmung, Kartierung und Planung autonomer Fahrzeuge. Sanja Fidler, Vizepräsidentin des AI-Research-Teams bei NVIDIA, präsentierte das Potenzial von Vision-Language-Modellen für selbstfahrende Autos.

Die Bandbreite der Forschung von NVIDIA auf der CVPR zeigt, wie generative KI Kreative unterstützen, die Automatisierung in der Fertigung und im Gesundheitswesen beschleunigen und die Autonomie und Robotik vorantreiben könnte.

Fazit

Die neuesten Fortschritte von NVIDIA in der visuellen generativen KI sind ein bedeutender Schritt nach vorne in der Technologie. Mit Innovationen wie JeDi, FoundationPose, NeRFDeformer und VILA setzt NVIDIA neue Maßstäbe in der KI-Forschung und -Anwendung. Diese Entwicklungen haben das Potenzial, die Art und Weise, wie wir visuelle Daten erzeugen und interpretieren, grundlegend zu verändern.

Die CVPR 2024 war ein beeindruckender Schauplatz für diese technologischen Durchbrüche und hebt die führende Rolle von NVIDIA im Bereich der visuellen generativen KI hervor.

Bibliografie:

- https://blogs.nvidia.com/blog/visual-generative-ai-cvpr-research/ - https://blogs.nvidia.com/blog/ai-city-challenge-omniverse-cvpr/ - https://blogs.nvidia.com/blog/graphics-research-advances-generative-ai-next-frontier/ - https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing - https://blogs.nvidia.com/blog/neurips-ai-research/ - https://blogs.nvidia.com/blog/rtx-advanced-ai-windows-pc-build/ - https://techwireasia.com/03/2024/nvidia-introduces-a-new-ai-chip-and-more/ - https://www.ddn.com/resources/success-stories/nvidia-success-story/ - https://www.artificialintelligence-news.com/

Was bedeutet das?