KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz zur Videosegmentierung mit geometrischer Konsistenz durch 3D-Integration

Kategorien:
No items found.
Freigegeben:
January 15, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Die Forschung zu 3AM konzentriert sich auf die Verbesserung der Videosegmentierung durch Integration von 3D-Geometrie in 2D-Modelle.
    • 3AM verbessert die konsistente Objektverfolgung in Videos, selbst bei großen Blickwinkeländerungen und komplexen Szenen.
    • Das Modell nutzt 3D-bewusste Merkmale aus MUSt3R, die mit den visuellen Merkmalen von SAM2 fusioniert werden, um eine geometrisch konsistente Erkennung zu ermöglichen.
    • Eine neuartige Sampling-Strategie während des Trainings stellt sicher, dass überlappende physische Objektbereiche für ein robustes 3D-Korrespondenzlernen berücksichtigt werden.
    • 3AM übertrifft bestehende Methoden auf anspruchsvollen Datensätzen wie ScanNet++ und Replica signifikant.
    • Die Methode erfordert im Inferenz-Modus lediglich RGB-Eingaben, ohne die Notwendigkeit von Kameraposen oder aufwendiger Vorverarbeitung.

    Die Segmentierung von Objekten in Videos stellt eine zentrale Herausforderung in der Computer Vision dar, mit weitreichenden Anwendungen von autonomem Fahren über Robotik bis hin zur Videobearbeitung. Eine aktuelle Forschungsarbeit, bekannt als "3AM: Segment Anything with Geometric Consistency in Videos", adressiert eine der kritischsten Einschränkungen bestehender Ansätze: die Aufrechterhaltung der Objektidentität bei signifikanten Blickwinkeländerungen.

    Herausforderungen in der Videosegmentierung

    Traditionelle Methoden zur Videosegmentierung, wie beispielsweise frühere Iterationen des Segment Anything Model (SAM2), erzielen zwar gute Leistungen durch speicherbasierte Architekturen, stoßen jedoch bei großen Blickwinkeländerungen an ihre Grenzen. Dies liegt primär an ihrer Abhängigkeit von reinen Erscheinungsmerkmalen (Appearance Features). Wenn sich ein Objekt aus verschiedenen Perspektiven drastisch anders darstellt, verlieren diese Modelle häufig die Spur, was zu inkonsistenten Masken oder dem Verlust der Objektidentität führt.

    Dreidimensionale Instanzsegmentierungsansätze können zwar die Blickwinkelkonsistenz besser gewährleisten, erfordern jedoch in der Regel zusätzliche Informationen wie Kameraposen, Tiefenkarten und eine aufwendige Vorverarbeitung. Diese Anforderungen machen sie für viele Echtzeit- oder Online-Anwendungen unpraktikabel oder zu rechenintensiv.

    3AM: Ein innovativer Ansatz

    Das 3AM-Modell bietet eine Lösung, indem es 3D-bewusste Merkmale in die bestehende SAM2-Architektur integriert. Der Kern dieses Ansatzes liegt in der Nutzung von Fähigkeiten aus MUSt3R, einem Modell, das implizite geometrische Korrespondenzen durch Merkmale kodiert, die aus Mehrfachansicht-Konsistenz gelernt wurden. Dies geschieht durch einen leichtgewichtigen "Feature Merger", der Merkmale aus mehreren Ebenen von MUSt3R mit den Erscheinungsmerkmalen von SAM2 fusioniert.

    Architektur und Funktionsweise

    Das 3AM-Modell verarbeitet jeden Video-Frame, indem es zwei komplementäre Feature-Streams extrahiert:

    • 2D-Erscheinungsmerkmale: Der SAM2-Vision-Encoder verarbeitet den Frame und erstellt eine 2D-Erscheinungsmerkmalskarte.
    • 3D-bewusste Merkmale: Parallel dazu wird derselbe Frame durch MUSt3R geleitet, das durch seinen internen Cross-Attention-Mechanismus eine geometrisch bewusste Merkmalskarte erzeugt.

    Diese beiden Feature-Typen werden dann im "Feature Merger" zusammengeführt. Dieser Merger nutzt Cross-Attention und konvolutionale Verfeinerung, um die Informationen zu integrieren. Die resultierenden, geometrisch bewussten Repräsentationen durchlaufen dann eine Memory-Attention-Einheit, die auf vorherige Frames Bezug nimmt, und einen Masken-Decoder, der die finale Segmentierungsmaske generiert. Entscheidend ist, dass diese Integration während des Trainings erfolgt, der Inferenz-Modus jedoch lediglich RGB-Eingaben erfordert, ohne explizite Kameraposen oder aufwendige Vorverarbeitung.

    Die Rolle der Trainingsdaten und Sampling-Strategie

    Ein wesentlicher Aspekt von 3AM ist die "Field-of-View Aware Sampling"-Strategie. Diese Strategie wurde entwickelt, um ein robustes Objektidentifikationslernen über verschiedene Kameraperspektiven hinweg zu ermöglichen. Während herkömmliches zufälliges Sampling zwar die Modell-Exposition gegenüber vielfältigen Blickwinkeln erhöht, kann es zu Problemen führen, wenn ein Objekt große räumliche Ausdehnungen hat. In solchen Fällen könnten zwei zufällig ausgewählte Frames zwar dasselbe Objekt zeigen, aber räumlich weit voneinander entfernte Regionen (z.B. Kopf- und Fußende eines Bettes). Dies kann zu widersprüchlichen Trainingssignalen führen, da das Modell versucht, inkonsistente Geometrien abzugleichen.

    Die FOV-bewusste Sampling-Strategie stellt sicher, dass die ausgewählten Frames überlappende physische Bereiche des Objekts beobachten. Dies wird erreicht, indem die 3D-Punkte der Masken jedes Kandidaten-Frames in den Referenz-Frame zurückprojiziert und nur Frames beibehalten werden, deren maskierte 3D-Punkte zu einem ausreichenden Anteil innerhalb des Referenz-Kamerafrustums liegen. Dies fördert ein zuverlässiges 3D-Korrespondenzlernen und vermeidet degenerierte Fälle.

    Für das Training wurden Datensätze wie ScanNet++, Replica und ASE verwendet. ScanNet++ und Replica sind besonders wertvoll aufgrund ihrer realistischen 3D-Umgebungen und großen Blickwinkelvariationen, während ASE saubere geometrische Supervision bietet und MOSE die Fähigkeit zur zeitlich kohärenten Maskierung in komplexen Szenen verbessert.

    Evaluationsergebnisse

    Die Leistung von 3AM wurde auf anspruchsvollen Datensätzen wie ScanNet++ und Replica evaluiert, die Szenarien mit weitreichender Bewegung und großen Blickwinkeländerungen umfassen. Die Ergebnisse zeigen eine signifikante Verbesserung gegenüber bestehenden Video-Objektsegmentierungs (VOS)-Methoden.

    Auf dem ScanNet++-Datensatz erzielte 3AM eine IoU (Intersection over Union) von 0.8898 im Gesamtdatensatz und 0.9061 im besonders herausfordernden "Selected Subset", das Objekte mit häufigem Wiederauftauchen und großen Blickwinkeländerungen umfasst. Dies stellt eine deutliche Verbesserung gegenüber SAM2 (0.4392), SAM2Long (0.8233) und DAM4SAM (0.8205) dar. Auch die positiven IoU- und erfolgreichen IoU-Werte waren bei 3AM durchweg höher.

    Ähnliche Ergebnisse wurden auf dem Replica-Datensatz erzielt, wo 3AM ebenfalls die beste Leistung in allen Metriken zeigte, mit einer IoU von 0.8119, die SAM2Long (0.7691) und DAM4SAM (0.7744) übertraf.

    3D-Evaluierung und Klassen-Agnostische Instanzsegmentierung

    Die Forschung untersuchte auch die Leistung von 3AM bei der 3D-Instanzsegmentierung. Es wurde demonstriert, dass eine robuste 3D-Instanzsegmentierung aus geometrisch bewusster 2D-Verfolgung resultieren kann, ohne dass eine aufwendige explizite 3D-Fusion erforderlich ist. Durch die Projektion der von 3AM verfolgten 2D-Masken in den 3D-Raum konnte eine überzeugende Leistung erzielt werden. Auf dem ScanNet200-Datensatz erreichte 3AM eine AP (Average Precision) von 47.3, was den höchsten Wert unter den Online-Methoden darstellt, die keine 3D-Ground-Truth-Informationen während des Inferenz-Modus nutzen.

    Ablationsstudien

    Ablationsstudien bestätigten die Wirksamkeit der integrierten 3D-Merkmale und der Sampling-Strategie. Die Kombination von 3AM mit alternativen Speicher-Auswahlmechanismen, wie sie in DAM4SAM oder SAM2Long vorgeschlagen wurden, führte zu moderaten zusätzlichen Verbesserungen, was darauf hindeutet, dass die Kernverbesserung von 3AM bereits eine starke und stabile Leistung liefert.

    Der Vergleich verschiedener 3D-Grundlagenmodelle zeigte, dass MUSt3R aufgrund seiner Fähigkeit zur Online-Operation und starken Objekt-Ausrichtung über Blickwinkel hinweg am besten geeignet ist, um konsistente 3D-Ausrichtungen zu ermöglichen, die für eine zuverlässige Maskenpropagation entscheidend sind.

    Fazit

    3AM stellt einen signifikanten Fortschritt im Bereich der Videosegmentierung dar, indem es die geometrische Konsistenz von 3D-Modellen mit der Effizienz von 2D-Segmentierungsmodellen wie SAM2 verbindet. Die Fähigkeit, Objekte auch bei extremen Blickwinkeländerungen und komplexen Szenen konsistent zu verfolgen, eröffnet neue Möglichkeiten für Anwendungen in verschiedenen B2B-Bereichen, die eine präzise und robuste Objekterkennung in dynamischen Umgebungen erfordern. Die Notwendigkeit von lediglich RGB-Eingaben im Inferenz-Modus macht 3AM zu einer praktikablen Lösung für eine breite Palette von realen Anwendungen.

    Bibliographie

    - Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu. "3AM: Segment Anything with Geometric Consistency in Videos." Veröffentlicht auf Hugging Face Papers, Januar 2026. URL: https://huggingface.co/papers/2601.08831 - Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu. "3AM: Segment Anything with Geometric Consistency in Videos." Projektseite, Januar 2026. URL: https://jayisaking.github.io/3AM-Page/ - Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer. "SAM 2: Segment Anything in Images and Videos." arXiv preprint arXiv:2408.00714, August 2024. URL: https://arxiv.org/abs/2408.00714 - Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, Shoubhik Debnath, Ronghang Hu, Didac Suris Coll-Vinent, Chaitanya Ryali, Kalyan Vasudev Alwala, Haitham Khedr, Andrew Huang, Jie Lei, Tengyu Ma, Baishan Guo, Arpit Kalla, Markus Marks, Joseph Greer, Meng Wang, Peize Sun, Roman Rädle, Triantafyllos Afouras, Effrosyni Mavroudi, Katherine Xu, Tsung-Han Wu, Yu Zhou, Liliane Momeni, Rishi Hazra, Shuangrui Ding, Sagar Vaze, Francois Porcher, Feng Li, Siyuan Li, Aishwarya Kamath, Ho Kei Cheng, Piotr Dollar, Nikhila Ravi, Kate Saenko, Pengchuan Zhang, Christoph Feichtenhofer. "SAM 3: Segment Anything with Concepts." Meta AI Research, November 2025. URL: https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/ - Yu-Lun Liu. "3AM: Segment Anything with Geometric Consistency in Videos." arXiv:2601.08831 [cs.CV], Januar 2026. URL: https://arxiv.org/abs/2601.08831 - Hugging Face Daily Papers (Woche 03, 2026). URL: https://huggingface.co/papers/week/2026-W03

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen