Neues KI-Modell SAMA verbessert Video-Bearbeitung durch semantische Trennung und Bewegungsanpassung

Kategorien:

No items found.

Freigegeben:

March 21, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Baidu hat das SAMA-Modell veröffentlicht, welches Video-Bearbeitung durch die Trennung von semantischer Verankerung und Bewegungsanpassung optimiert.
SAMA übertrifft Open-Source-Modelle und ist konkurrenzfähig mit kommerziellen Systemen wie Kling-Omni.
Das Modell verwendet eine zweistufige Trainingsstrategie: vorläufiges Training ohne gepaarte Daten und anschließendes Fein-Tuning mit spezifischen Bearbeitungsdaten.
SAMA zeigt starke Zero-Shot-Fähigkeiten, was bedeutet, dass es auch ohne spezifische Trainingsdaten gute Ergebnisse liefert.
Die Forschung unterstreicht die Bedeutung der Entkopplung von semantischen und Bewegungsrepräsentationen für qualitativ hochwertige Video-Bearbeitung.

Die Weiterentwicklung von KI-gestützten Werkzeugen zur Video-Bearbeitung schreitet konstant voran. Ein aktueller Beitrag in diesem Feld ist die Veröffentlichung des Modells SAMA (Factorized Semantic Anchoring and Motion Alignment) durch Baidu. Dieses Modell wurde auf Hugging Face zugänglich gemacht und zielt darauf ab, die Herausforderungen bei der instruktionsgesteuerten Video-Bearbeitung zu adressieren, indem es semantische Modifikationen und die Erhaltung der Bewegungskonsistenz besser ausbalanciert. Die Entwickler betonen, dass SAMA unter Open-Source-Modellen eine führende Leistung erbringt und mit etablierten kommerziellen Systemen wie Kling-Omni konkurrieren kann.

Herausforderungen bei der KI-gestützten Video-Bearbeitung

Die Bearbeitung von Videos mittels künstlicher Intelligenz ist komplex. Insbesondere die Vereinbarkeit von präzisen semantischen Änderungen, die einer Anweisung folgen, und der gleichzeitigen Bewahrung einer zeitlich kohärenten Bewegung ist eine zentrale Herausforderung. Aggressive semantische Änderungen können zu lokalen Artefakten, Identitätsverlusten oder Texturproblemen führen. Umgekehrt kann eine übermäßige Betonung der zeitlichen Konsistenz die beabsichtigte Bearbeitung verwässern und die Treue zur ursprünglichen Anweisung mindern.

Bisherige Ansätze zur Lösung dieser Probleme beinhalteten oft die Injektion expliziter externer Informationen, wie beispielsweise Merkmale von visuellen Sprachmodellen (VLM-Features) oder strukturelle Bedingungen wie Skelette und Tiefenkarten. Die Forscher von Baidu argumentieren jedoch, dass eine solche Abhängigkeit die Robustheit und Generalisierungsfähigkeit der Modelle erheblich einschränkt.

SAMA: Ein faktorisierter Ansatz

SAMA setzt auf einen neuen, faktorisierten Ansatz, der die Video-Bearbeitung in zwei Hauptkomponenten zerlegt:

Semantische Verankerung (Semantic Anchoring – SA): Diese Komponente zielt darauf ab, präzise semantische Änderungen gemäß den Anweisungen zu ermöglichen. Sie etabliert eine verlässliche visuelle Verankerung, indem semantische Token und Video-Latents an ausgewählten Anker-Frames gemeinsam vorhergesagt werden. Dies erlaubt eine instruktionsbewusste Strukturplanung im semantischen Raum.
Bewegungsanpassung (Motion Alignment – MA): Diese Komponente konzentriert sich auf die Erhaltung der Bewegungskonsistenz. Sie trainiert das Modell mithilfe bewegungsorientierter Video-Restaurierungsaufgaben, wie beispielsweise Cube Inpainting, Geschwindigkeitsstörungen und Tube Shuffle. Dadurch internalisiert das Modell zeitliche Dynamiken direkt aus Rohvideos, was die zeitliche Stabilität verbessert und semantisch-kinematische Konflikte reduziert.

Die zweistufige Trainingsstrategie

Die Optimierung von SAMA erfolgt in einem zweistufigen Prozess:

Faktorisiertes Vortraining (Stage 0): In dieser Phase lernt das Modell inhärente semantisch-kinematische Repräsentationen. Dies geschieht ohne die Notwendigkeit von gepaarten Video-Instruktions-Bearbeitungsdaten. Die semantische Verankerung wird dabei sowohl auf Bild- als auch auf Video-Samples angewendet, während die Bewegungsanpassung ausschließlich auf Video-Streams zum Einsatz kommt. Bemerkenswerterweise zeigt das Modell bereits nach dieser Phase eine starke Zero-Shot-Video-Bearbeitungsfähigkeit.
Überwachtes Fein-Tuning (Stage 1): Anschließend wird das Modell mit gepaarten Video-Bearbeitungsdatensätzen fein-getunt. Hierbei liegt der Fokus auf der weiteren Verbesserung der Bearbeitungstreue und der Auflösung verbleibender semantisch-kinematischer Konflikte.

Leistung und Experimente

Die Evaluierung von SAMA erfolgte anhand umfangreicher Experimente auf verschiedenen Benchmarks, darunter VIE-Bench, OpenVE-Bench und ReCo-Bench. Die Ergebnisse zeigen, dass SAMA Open-Source-Modelle in den meisten Metriken übertrifft. Zudem ist es in der Lage, mit führenden kommerziellen Systemen wie Kling-Omni und Runway zu konkurrieren.

Besondere Stärken von SAMA umfassen:

Verbesserte Instruktionstreue: Das Modell folgt präzisen Anweisungen zuverlässiger, selbst bei komplexen Positionsangaben oder Attributbeschränkungen.
Erhöhte zeitliche Konsistenz: SAMA bewahrt die zeitliche Ausrichtung und die Details während der Stilisierung besser als viele andere Methoden.
Starke Zero-Shot-Fähigkeiten: Selbst ohne spezifische Trainingsdaten für Video-Bearbeitung liefert SAMA konsistente Bearbeitungen über mehrere Frames hinweg.

Ablationsstudien

Ablationsstudien bestätigen die Wirksamkeit der einzelnen Komponenten:

Die semantische Verankerung (SA) beschleunigt die Konvergenz des Diffusionsverlusts und stabilisiert das Training. Modelle mit SA erzeugen bereits in frühen Trainingsphasen qualitativ hochwertigere Bearbeitungen.
Die Bewegungsanpassung (MA) verbessert die zeitliche Konsistenz bei schnellen Bewegungen und reduziert Bewegungsunschärfen.

Ausblick

Die Entwickler sehen in SAMA einen wichtigen Schritt hin zu robusteren und vielseitigeren instruktionsgesteuerten Video-Bearbeitungswerkzeugen. Zukünftige Arbeiten könnten sich auf die Bearbeitung langer Videos, Szenarien mit schnellen Bewegungen und eine stärkere semantische Tokenisierung konzentrieren, um verbleibende Artefakte und zeitliche Inkonsistenzen weiter zu reduzieren.

Die Veröffentlichung von SAMA auf Hugging Face unterstreicht das Engagement für Open-Source-Entwicklung und bietet Forschern und Entwicklern eine neue leistungsstarke Grundlage für die Gestaltung der nächsten Generation von KI-gestützten Video-Bearbeitungswerkzeugen.

Bibliografie

Zhang, X., Dong, W., Song, Y., Fang, B., Zhang, Q., Wang, J., ... & Wang, J. (2026). SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing. arXiv preprint arXiv:2603.19228.
Kuaishou. (2025). Kling-Omni Technical Report. arXiv preprint arXiv:2512.16776.
Hugging Face. (n.d.). SAM3 Video. Abgerufen von https://huggingface.co/docs/transformers/main/model_doc/sam3_video
Hugging Face. (n.d.). SAM2 Video. Abgerufen von https://huggingface.co/docs/transformers/main/model_doc/sam2_video
Hugging Face. (n.d.). akcit-motion/qwen2.5-3b-instruct-motion. Abgerufen von https://huggingface.co/akcit-motion/qwen2.5-3b-instruct-motion
bytedance. (2025). Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos. GitHub. Abgerufen von https://github.com/bytedance/Sa2VA