Meta präsentiert Segment Anything 2: Neue Ära der Bild- und Videosegmentierung

Kategorien:

No items found.

Freigegeben:

September 17, 2024

Segment Anything 2: Meta's Neuer Meilenstein in der Bild- und Videosegmentierung

Einführung in Segment Anything 2 (SAM 2)

Das Unternehmen Meta hat kürzlich die nächste Generation seines Segment Anything Models (SAM) vorgestellt: Segment Anything 2 (SAM 2). Dieses Modell, das vollständig auf Geräten läuft, wird durch Apple CoreML unterstützt und bietet eine hochoptimierte Lösung für die Segmentierung von Bildern und Videos. Es ist in der Lage, in einem Bruchteil einer Sekunde Inferenzen auf Macs oder iPhones durchzuführen. SAM 2 wird unter einer Apache-Lizenz veröffentlicht und bietet optimierte Modell-Checkpoints in verschiedenen Größen (tiny, small, base und large) sowie eine Open-Source-Anwendung zur Annotation beliebiger Bilder in unter einer Sekunde.

Technologische Fortschritte

SAM 2 stellt eine bedeutende Weiterentwicklung gegenüber dem ursprünglichen SAM dar. Während SAM hauptsächlich für die Segmentierung von Bildern gedacht war, erweitert SAM 2 diese Funktionalität auf Videos. Es handelt sich um ein einheitliches Modell für die Echtzeit-Segmentierung von Objekten in Bildern und Videos, das eine nahtlose Nutzung über verschiedene Anwendungen hinweg ermöglicht. SAM 2 übertrifft die bisherigen Fähigkeiten in der Bildsegmentierung in Bezug auf Genauigkeit und erreicht eine bessere Leistung bei der Videosegmentierung als bestehende Modelle, während es dreimal weniger Interaktionszeit benötigt.

Praktische Anwendungen

SAM 2 kann in verschiedenen realen Anwendungen eingesetzt werden: - Tracking von Objekten zur Erstellung von Videoeffekten - Segmentierung von Zellen in Mikroskopvideos zur Unterstützung der wissenschaftlichen Forschung - Schnellere Annotationswerkzeuge für visuelle Daten zur Schulung der nächsten Generation von Computer-Vision-Systemen - Kreative Anwendungen in der Videobearbeitung - Unterstützung der Forschung in den Bereichen Wissenschaft und Medizin, beispielsweise beim Tracking von gefährdeten Tieren in Drohnenaufnahmen oder der Lokalisierung von Regionen in der Endoskopie

Die Architektur von SAM 2

Die Architektur von SAM 2 kann als Generalisierung von SAM vom Bild- zum Videobereich betrachtet werden. SAM 2 kann durch Klicks (positiv oder negativ), Begrenzungsrahmen oder Masken aufgefordert werden, den Umfang des Objekts in einem bestimmten Frame zu definieren. Ein leichter Maskendekoder nimmt ein Bild-Embedding für den aktuellen Frame und kodierte Aufforderungen, um eine Segmentierungsmaske für den Frame auszugeben. Im Videokontext propagiert SAM 2 diese Maskenvorhersage auf alle Video-Frames, um ein sogenanntes "Masklet" zu erzeugen. Aufforderungen können dann iterativ auf jedem nachfolgenden Frame hinzugefügt werden, um die Masklet-Vorhersage zu verfeinern.

Offene Wissenschaft und gemeinschaftliche Entwicklung

In Übereinstimmung mit Metas Ansatz der offenen Wissenschaft werden der SAM 2-Code und die Gewichte unter einer permissiven Apache 2.0-Lizenz veröffentlicht. Meta teilt auch den SA-V-Datensatz, der 4,5 Mal mehr Videos und 53 Mal mehr Annotationen als der bisher größte Videosegmentierungsdatensatz enthält. Diese Veröffentlichung umfasst etwa 51.000 reale Videos mit mehr als 600.000 Masklets, die unter einer CC BY 4.0-Lizenz geteilt werden. Eine Web-Demo ermöglicht die interaktive Echtzeit-Segmentierung von kurzen Videos und die Anwendung von Videoeffekten basierend auf den Modellvorhersagen.

Fazit

SAM 2 zeigt das Potenzial, eine Vielzahl von realen Anwendungen zu unterstützen, von der kreativen Videobearbeitung bis hin zur medizinischen Forschung. Es bleibt spannend zu sehen, wie die AI-Community diese Technologie nutzt und welche neuen Anwendungen und Erkenntnisse daraus entstehen. Quellen: - https://twitter.com/reach_vb/status/1834672190676996309 - https://www.linkedin.com/posts/vaibhavs10_running-segment-anything-2-sam-2-on-device-activity-7240438346169098242-xkZV - https://x.com/reach_vb?lang=de - https://ai.meta.com/blog/segment-anything-2/

Was bedeutet das?