Neues Videoweltmodell von Naver revolutioniert städtische Simulationen durch reale Geometriedaten

Kategorien:

No items found.

Freigegeben:

March 30, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Naver hat das „Seoul World Model“ (SWM) vorgestellt, ein Videoweltmodell, das auf über 1,2 Millionen Street View-Bildern basiert, um realistische, ortsbezogene Videos zu generieren.
SWM unterscheidet zwischen permanenten Strukturen und temporären Objekten durch einen "Cross-Temporal Pairing"-Mechanismus, um Halluzinationen zu vermeiden.
Ein "Virtual Lookahead Sink" wird verwendet, um die Konsistenz über längere Distanzen hinweg zu gewährleisten und Fehlerakkumulation zu verhindern.
Das Modell kann Videos für unbekannte Städte wie Busan oder Ann Arbor ohne zusätzliches Training erstellen und übertrifft dabei bestehende Videoweltmodelle in Qualität und Konsistenz.
SWM ermöglicht textgesteuerte Szenarien, bei denen Benutzer in der realen Stadtumgebung Änderungen wie Wetter oder das Hinzufügen von Objekten simulieren können.
Die Technologie ist relevant für Anwendungen in der Stadtplanung, im autonomen Fahren und in der standortbasierten Erkundung.

Navers "Seoul World Model": Eine neue Ära der KI-gestützten Stadtsimulation

Das südkoreanische Internetunternehmen Naver hat mit der Einführung seines "Seoul World Model" (SWM) einen bedeutsamen Fortschritt im Bereich der generativen KI erzielt. Dieses Videoweltmodell, entwickelt in Zusammenarbeit mit Forschern des KAIST AI Lab und der Seoul National University, nutzt reale Geometriedaten aus über 1,2 Millionen eigenen Street View-Bildern, um hyperrealistische und geografisch präzise Videos von Stadtlandschaften zu generieren. Im Gegensatz zu früheren Modellen, die oft dazu neigten, ganze Stadträume zu "halluzinieren", setzt SWM auf eine Verankerung in der physischen Realität, um die Konsistenz und Genauigkeit der generierten Inhalte zu gewährleisten.

Überwindung der "Halluzinationsproblematik" in generativer KI

Ein zentrales Problem vieler generativer Videomodelle war bisher die sogenannte "Halluzinationsproblematik": Während sie visuell überzeugende Szenen erzeugen konnten, fehlte es ihnen oft an räumlicher und zeitlicher Konsistenz. Gebäude konnten ihre Form ändern, Straßen unrealistische Wendungen nehmen oder Objekte spontan erscheinen und verschwinden. Das SWM begegnet dieser Herausforderung durch einen fundamental anderen Ansatz.

Die Grundlage des SWM bildet eine umfangreiche Datenbank von Street View-Bildern Seouls. Wenn Nutzer geografische Koordinaten, eine gewünschte Kamerabewegung und einen Text-Prompt eingeben, greift das Modell auf diese Bilder zu und nutzt sie als Referenzpunkte für die schrittweise Videogenerierung. Dies stellt sicher, dass die generierten Videos die tatsächliche Geometrie und das Erscheinungsbild der Stadt widerspiegeln.

Innovative Mechanismen für Realismus und Konsistenz

Die Arbeit mit realen Bilddaten bringt spezifische Herausforderungen mit sich. Street View-Bilder sind Momentaufnahmen, die temporäre Objekte wie Autos oder Fußgänger enthalten, die in einem dynamisch generierten Video nicht statisch sein sollten. Naver hat hierfür zwei Schlüssellösungen entwickelt:

Cross-Temporal Pairing: Während des Trainings werden Referenzbilder und Zielsequenzen aus verschiedenen Aufnahmezeiten kombiniert. Dies lehrt das Modell, zwischen permanenten Strukturen wie Gebäudefassaden und transienten Objekten zu unterscheiden und diese nicht fälschlicherweise in das generierte Video zu kopieren.
Virtual Lookahead Sink: Um die Akkumulation kleiner Fehler über längere Distanzen zu verhindern, die bei der abschnittsweisen Videogenerierung auftreten kann, ersetzt SWM statische Anker durch einen "virtuellen Vorausschau-Sink". Für jeden neuen Abschnitt ruft das Modell ein Street View-Bild ab, das etwas weiter auf der Route liegt, und fügt es als virtuelles Ziel ein. Dies bietet dem Modell einen fehlerfreien Orientierungspunkt, der sich mit der Kamera bewegt und die Konsistenz über Hunderte von Metern aufrechterhält.

Darüber hinaus wurden 12.700 synthetische Videos im Unreal Engine-Simulator CARLA generiert, um fehlende Kamerawinkel und Perspektiven (z.B. Fußgänger- oder Flugperspektiven) zu ergänzen, da Street View-Kameras nur in bestimmten Intervallen Bilder aufnehmen.

Leistungsfähigkeit und Generalisierbarkeit

Das SWM wurde nicht nur in Seoul, sondern auch in Busan und der US-amerikanischen Stadt Ann Arbor getestet – beides Städte, die nicht im Trainingsdatensatz enthalten waren. Die Ergebnisse zeigen, dass SWM sechs aktuelle Videoweltmodelle in visueller Qualität, Kamera-Fidelity, zeitlicher Konsistenz und Übereinstimmung mit realen Orten übertrifft. Die Fähigkeit des Modells, sich auf unbekannte Städte zu generalisieren, ohne zusätzliches Fine-Tuning, unterstreicht ein tiefgreifendes Verständnis urbaner Umgebungen.

Trotz der strengen räumlichen Verankerung reagiert das Modell weiterhin auf Text-Prompts, wodurch Benutzer Wetterbedingungen, Tageszeiten ändern oder hypothetische Szenarien (z.B. brennende Autos oder Godzilla zwischen Wolkenkratzern) simulieren können, während das zugrunde liegende Stadtlayout intakt bleibt.

Anwendungen und zukünftige Potenziale

Die Technologie des Seoul World Model eröffnet vielfältige Möglichkeiten für B2B-Anwendungen:

Stadtplanung und -entwicklung: Visualisierung von Bauprojekten, Simulation von Verkehrsflüssen oder Auswirkungen von Naturkatastrophen in einer realistischen Umgebung.
Autonomes Fahren und Robotik: Erstellung hochpräziser Simulationsumgebungen für das Training und Testen autonomer Systeme, die ein tiefes Verständnis der physischen Welt erfordern.
Standortbasierte Erkundung und Navigation: Entwicklung immersiver virtueller Touren oder interaktiver Navigationshilfen, die über statische Karten hinausgehen.
Szenarioplanung und Notfallmanagement: Simulation komplexer Szenarien zur Vorbereitung auf Notfälle oder zur Optimierung von Einsatzstrategien.

Die Forscher betonen, dass alle verwendeten Street View-Daten datenschutzkonform verarbeitet wurden, indem Gesichter und Nummernschilder vor dem Training anonymisiert wurden.

Herausforderungen und Ausblick

Trotz der beeindruckenden Fortschritte bestehen weiterhin Herausforderungen. Die Qualität der Vorhersagen wird durch die Verfügbarkeit kontinuierlicher Videoaufnahmen ganzer Städte begrenzt. Da diese nicht frei zugänglich sind, basiert das Training auf interpolierten Sequenzen aus Einzelbildern, deren Qualität noch nicht an echtes Videomaterial heranreicht. Auch können in generierten Videos gelegentlich Fahrzeuge abrupt erscheinen oder verschwinden, was auf ungenaue Zeitstempel in den Metadaten zurückzuführen ist.

Das "Seoul World Model" stellt einen wichtigen Schritt in der Entwicklung von "World Models" dar, die das Potenzial haben, das Verständnis von KI für die physische Welt grundlegend zu verändern. Während andere Unternehmen wie OpenAI mit Modellen wie Sora an der Generierung visuell beeindruckender, aber oft noch "halluzinierender" Inhalte arbeiten, zeigt Naver einen Weg auf, wie generative KI durch die Verankerung in realen Geometriedaten eine bisher unerreichte Präzision und Konsistenz erreichen kann. Dies könnte die Grundlage für eine neue Generation von KI-Systemen bilden, die nicht nur Bilder erzeugen, sondern die Welt um uns herum auf einer fundamentaleren Ebene verstehen und simulieren können.

Fazit

Navers "Seoul World Model" demonstriert eindrucksvoll, wie die Integration realer Geometriedaten in generative KI-Modelle die Qualität und Verlässlichkeit von Simulationen erheblich steigern kann. Für Unternehmen im B2B-Bereich, die auf präzise und konsistente digitale Modelle der physischen Welt angewiesen sind, bietet diese Entwicklung vielversprechende Perspektiven. Es markiert einen Übergang von der rein fantasiebasierten Generierung hin zu einer "Physical AI", die die Gesetzmäßigkeiten der Realität respektiert und für praktische Anwendungen nutzbar macht.

Bibliography

Kemper, J. (2026, March 29). Naver's "Seoul World Model" uses actual Street View data to stop AI from hallucinating entire cities. The Decoder. Retrieved from https://the-decoder.com/navers-seoul-world-model-uses-actual-street-view-data-to-stop-ai-from-hallucinating-entire-cities/
AI Tech Suite. (2026, March 29). Naver unveils Seoul World Model to stop AI hallucinations by grounding video in physical reality. Retrieved from https://www.aitechsuite.com/ai-news/naver-unveils-seoul-world-model-to-stop-ai-hallucinations-by-grounding-video-in-physical-reality
Seo, J., Choi, H., Kwon, M., Choi, J., Jin, S., Lee, G., ... & Kim, J.-H. (2026). Seoul World Model: Grounding World Simulation Models in a Real-World Metropolis. arXiv preprint arXiv:2603.15583. Retrieved from https://seoul-world-model.github.io/
ABV. (2026, March 19). The Metaverse Died. World Models Took Its Job. Medium. Retrieved from https://abvcreative.medium.com/the-metaverse-died-world-models-took-its-job-a990969094f7
Kim, J.-H. (2026, March 17). NAVER AI Lab's Seoul World Model: Real-World City Simulation. LinkedIn. Retrieved from https://www.linkedin.com/posts/%EC%A7%84%ED%99%94-%EA%B9%80-6869b166_excited-to-share-naver-ai-labs-latest-work-activity-7439526574732857344-pWpf
박찬 기자. (2026, March 18). 네이버, '서울 월드 모델' 공개..."실제 장면 기반으로 텍스트 탐험 가능". AI타임스. Retrieved from https://www.aitimes.com/news/articleView.html?idxno=208020