Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung im Bereich der künstlichen Intelligenz, insbesondere im maschinellen Sehen, hat zu Modellen geführt, die komplexe Aufgaben wie die Segmentierung von Objekten in Bildern und Videos mit hoher Präzision bewältigen können. Das Segment Anything Model (SAM) und sein Nachfolger SAM 2 haben hierbei neue Maßstäbe gesetzt, indem sie eine promptgesteuerte Segmentierung ermöglichen, die sich über statische Bilder hinaus auf Videosequenzen erstreckt. Eine wesentliche Herausforderung bleibt jedoch die effiziente Ausführung solcher rechenintensiver Modelle auf ressourcenbeschränkten Geräten, den sogenannten Edge-Geräten.
In diesem Kontext stellt EdgeTAM (On-Device Track Anything Model) eine bedeutsame Innovation dar. Entwickelt, um die Leistungsfähigkeit von SAM 2 auf mobile Endgeräte zu bringen, adressiert EdgeTAM die Notwendigkeit einer erheblichen Effizienzsteigerung, ohne dabei die Genauigkeit zu kompromittieren. Das Modell wurde mit dem Ziel konzipiert, eine Echtzeit-Segmentierung und -Verfolgung von Objekten in Videos direkt auf Geräten wie dem iPhone 15 Pro Max zu ermöglichen.
Obwohl SAM 2 beeindruckende Fähigkeiten zur Videosegmentierung durch seinen Speicherbankmechanismus bietet, ist seine Ausführung auf mobilen Geräten aufgrund des hohen Rechenaufwands ineffizient. Frühere Optimierungsversuche für SAM konzentrierten sich hauptsächlich auf die Komprimierung des Bild-Encoders. Eine umfassende Analyse hat jedoch gezeigt, dass bei SAM 2 die neu eingeführten Speicheraufmerksamkeitsblöcke (memory attention blocks) einen entscheidenden Engpass hinsichtlich der Latenz darstellen. Diese Blöcke, die für die Integration von aktuellen Bildmerkmalen mit gespeicherten Gedächtnismerkmalen zuständig sind, erfordern eine erhebliche Matrixmultiplikation, die mobile Prozessoren ineffizient verarbeiten. Die Kernfrage war demnach, wie sich dieser Flaschenhals überwinden lässt, um eine praktikable On-Device-Lösung zu schaffen.
EdgeTAM begegnet den genannten Herausforderungen mit zwei zentralen Säulen: einer neuartigen Architektur und einer optimierten Destillationspipeline.
Der 2D Spatial Perceiver ist das Herzstück der Effizienzsteigerung von EdgeTAM. Er wurde entwickelt, um die dichten, auf Frame-Ebene gespeicherten Gedächtnismerkmale zu komprimieren, während ihre 2D-räumliche Struktur erhalten bleibt – ein entscheidender Aspekt für Aufgaben der dichten Vorhersage wie die Videosegmentierung. Dieser Perceiver unterteilt die lernbaren Latenten in zwei Gruppen:
Durch die Kombination dieser beiden Ansätze kann der 2D Spatial Perceiver die rechnerische Komplexität der Speicheraufmerksamkeit erheblich reduzieren – von O(TCH²W²) auf O(TCHW(Ng + Nl)), wobei T die Anzahl der Frames, C die Kanaldimension, H und W Höhe und Breite und Ng und Nl die Anzahl der globalen bzw. 2D-Latenten darstellen. Dies führt zu einer Beschleunigung der Speicheraufmerksamkeit um das Achtfache bei vergleichbarer Leistung.
Um die Genauigkeit von EdgeTAM weiter zu verbessern, ohne zusätzliche Inferenzkosten zu verursachen, wurde eine spezielle Destillationspipeline implementiert. Diese überträgt das Wissen des leistungsstärkeren "Lehrer"-Modells (SAM 2) auf das "Schüler"-Modell (EdgeTAM) in zwei Phasen:
Diese Distillation ermöglicht es EdgeTAM, die Genauigkeit von SAM 2 zu erreichen oder sogar zu übertreffen, obwohl es wesentlich kleiner und schneller ist.
Die Evaluierung von EdgeTAM erfolgte in drei Hauptbereichen: Promptable Video Segmentation (PVS), Segment Anything (SA) und Video Object Segmentation (VOS).
EdgeTAM wurde entwickelt, um promptgesteuerte Videosegmentierung mit verschiedenen Benutzereingaben auf beliebigen Frames durchzuführen. In Tests übertraf EdgeTAM bestehende Modelle wie SAM + XMem++ und SAM + Cutie in allen Einstellungen deutlich, insbesondere bei steigender Anzahl annotierter Frames. Selbst im Vergleich zum ursprünglichen SAM 2 erzielte EdgeTAM vergleichbare Ergebnisse, war jedoch erheblich kleiner und schneller.
Auch als reines Bildsegmentierungsmodell, bei dem das Speichermodul deaktiviert ist, zeigte EdgeTAM eine vergleichbare mIoU-Leistung wie SAM und SAM 2. Bei fünf Eingabepunkten übertraf EdgeTAM sogar SAM-H, ein speziell für die Bildsegmentierung entwickeltes Modell. Dies unterstreicht die Flexibilität von EdgeTAM als vereinheitlichtes On-Device-Segmentierungsmodell für Bilder und Videos.
Obwohl EdgeTAM primär auf den Datensätzen SA-V und SA-1B trainiert wurde, zeigte es auf Datensätzen wie MOSE, DAVIS und YTVOS eine Leistung, die vergleichbar oder sogar besser war als die vorheriger State-of-the-Art-VOS-Modelle, die speziell auf diese Datensätze trainiert wurden. Dies demonstriert die Robustheit von EdgeTAM im Zero-Shot-Setting. Insbesondere auf dem herausfordernden SA-V-Datensatz übertraf EdgeTAM alle Vergleichsmodelle außer SAM 2 und SAM 2.1.
Ein zentrales Ergebnis ist die beeindruckende Geschwindigkeit von EdgeTAM: Es läuft bis zu 22-mal schneller als SAM 2 und erreicht eine Bildrate von 16 FPS auf dem iPhone 15 Pro Max, ohne Quantisierung. Dies ist ein signifikanter Fortschritt für die praktikable Anwendung komplexer KI-Modelle auf mobilen Endgeräten.
Die umfassenden Ablationsstudien belegen die Wirksamkeit der einzelnen Komponenten von EdgeTAM. Der 2D Spatial Perceiver erwies sich als sowohl schneller als auch genauer als die Baseline und einfache räumliche Downsampling-Methoden. Die Destillationspipeline führte zu weiteren signifikanten Verbesserungen der J&F-Werte auf den SA-V Validierungs- und Testdatensätzen.
Qualitative Vergleiche mit SAM 2 zeigen, dass EdgeTAM eine ähnliche Maskenqualität liefert, selbst bei komplexen Szenarien wie der Verfolgung mehrerer Instanzen derselben Klasse oder schnell bewegten Objekten mit starken Verzerrungen. Es wurde jedoch beobachtet, dass EdgeTAM in einigen Fällen eine andere Granularität der Verfolgung aufweisen kann, beispielsweise wenn Vogelpfoten in früheren Frames nicht sichtbar waren und daher nicht in die Segmentierung einbezogen wurden.
Das Training von EdgeTAM folgt im Allgemeinen dem Verfahren von SAM 2. Die Eingangsauflösung wurde auf 1024x1024 Pixel festgelegt. Für das Vortraining der Bildsegmentierung wurde der SA-1B-Datensatz verwendet, während für das Videosegmentierungs-Training eine Mischung aus SA-V, SA-1B, DAVIS, MOSE und YTVOS zum Einsatz kam. Als Bild-Encoder wurde standardmäßig RepViT-M1 verwendet, vorab trainiert auf ImageNet. Die Anzahl der Speicheraufmerksamkeitsblöcke wurde auf zwei reduziert, und für den Global Perceiver sowie den 2D Spatial Perceiver wurden jeweils 256 lernbare Latenten zugewiesen. Als Lehrmodell diente SAM2-HieraB+.
EdgeTAM repräsentiert einen wichtigen Schritt in der Entwicklung von KI-Modellen für Edge-Geräte. Durch die Identifizierung des Engpasses im Speicheraufmerksamkeitsmodul von SAM 2 und die Einführung des 2D Spatial Perceiver zusammen mit einer effektiven Destillationspipeline ist es gelungen, ein Modell zu entwickeln, das die Fähigkeiten von SAM 2 in der promptgesteuerten Videosegmentierung, allgemeinen Bildsegmentierung und Videoobjektsegmentierung beibehält, aber gleichzeitig drastisch effizienter auf mobilen Endgeräten läuft. Die Fähigkeit, komplexe Segmentierungs- und Verfolgungsaufgaben in Echtzeit auf einem Smartphone auszuführen, eröffnet neue Möglichkeiten für eine Vielzahl von Anwendungen, von Augmented Reality über intelligente Überwachung bis hin zu mobilen Kreativwerkzeugen.
Die Forschung hinter EdgeTAM unterstreicht die Notwendigkeit, nicht nur die Leistungsfähigkeit von KI-Modellen zu steigern, sondern auch deren praktische Anwendbarkeit auf einer breiten Palette von Hardwareplattformen zu gewährleisten. Die Ergebnisse zeigen, dass eine sorgfältige architektonische Gestaltung und intelligente Trainingsstrategien entscheidend sind, um die Kluft zwischen hochmodernen KI-Fähigkeiten und den Beschränkungen von Edge-Geräten zu überbrücken.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen