Netflix veröffentlicht neues KI-Modell zur Videobearbeitung auf Hugging Face

Kategorien:

No items found.

Freigegeben:

April 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Netflix hat mit "VOID" ein neues KI-Modell zur Videobearbeitung auf Hugging Face veröffentlicht.
VOID ermöglicht die präzise Entfernung von Objekten aus Videos, inklusive deren physikalischer Interaktionen.
Das Modell basiert auf dem CogVideoX 3D Transformer und nutzt eine interaktionsbewusste Quadmaske.
Die Anwendung erfordert eine GPU mit mindestens 40 GB VRAM, wie beispielsweise eine A100.
Die Veröffentlichung unterstreicht die wachsende Bedeutung von KI in der Postproduktion und visuellen Effekten.

Die Landschaft der künstlichen Intelligenz wird kontinuierlich durch innovative Entwicklungen geprägt. Eine aktuelle Veröffentlichung von Netflix auf der Plattform Hugging Face, dem "VOID"-Modell, hat in Fachkreisen Beachtung gefunden. Dieses Modell ist darauf ausgelegt, Objekte aus Videos zu entfernen und dabei deren physikalische Interaktionen mit der Umgebung zu berücksichtigen.

Revolutionäre Videobearbeitung: Netflix' "VOID" Modell

Netflix hat sein erstes öffentliches KI-Modell namens "VOID" (Video Object and Interaction Deletion) auf Hugging Face zugänglich gemacht. Die Relevanz dieser Entwicklung liegt in der Fähigkeit von VOID, Objekte nicht nur visuell aus Videosequenzen zu eliminieren, sondern auch die physikalischen Auswirkungen ihrer Anwesenheit und Entfernung im Video zu simulieren. Dies umfasst beispielsweise Schatten, Reflexionen oder das natürliche Herunterfallen eines Objekts, das zuvor von einer entfernten Person gehalten wurde.

Technische Grundlagen und Architektur

VOID basiert auf dem CogVideoX-Fun-V1.5-5b-InP-Modell, einem 3D-Transformer mit 5 Milliarden Parametern, und wurde speziell für das Video-Inpainting optimiert. Ein zentrales Element ist die sogenannte interaktionsbewusste Quadmaske. Diese Maske ist in der Lage, vier verschiedene Bereiche auf Pixelebene zu kodieren:

Der zu entfernende primäre Objektbereich (Wert 0).
Überlappungsregionen zwischen primärem und betroffenem Bereich (Wert 63).
Betroffene Regionen, die physikalische Interaktionen wie fallende Objekte oder verschobene Gegenstände umfassen (Wert 127).
Der Hintergrund, der erhalten bleiben soll (Wert 255).

Die Eingabe für das Modell besteht aus dem Video selbst, der Quadmaske und einem Textprompt, der die Szene nach der Objektenfernung beschreibt. Die Standardauflösung beträgt 384x672 Pixel, und das Modell kann bis zu 197 Frames verarbeiten. Es verwendet den DDIM-Scheduler und operiert mit BF16-Präzision, ergänzt durch FP8-Quantisierung zur Speichereffizienz.

Anwendung und Systemanforderungen

Die Nutzung von VOID ist primär für Fachanwender konzipiert. Für einen schnellen Einstieg wird ein Notebook-Ansatz vorgeschlagen, der die Einrichtung, den Modelldownload und die Inferenz an einem Beispielvideo automatisiert. Für eine detailliertere Steuerung und die Verarbeitung eigener Videos ist ein Kommandozeilen-Interface verfügbar. Eine wesentliche technische Anforderung für die Ausführung von VOID ist eine GPU mit mindestens 40 GB VRAM, wie sie beispielsweise die NVIDIA A100 bietet.

Der Workflow zur Anwendung von VOID gliedert sich in mehrere Stufen:

Maskengenerierung: Mithilfe der VLM-MASK-REASONER-Pipeline, die SAM2-Segmentierung und ein VLM (wie Gemini) nutzt, werden die Quadmasken aus Rohvideos erstellt.
Inferenz (Pass 1): Der erste Durchlauf des Modells führt die grundlegende Objektenfernung und Interaktionsanpassung durch.
Warped-Noise-Verfeinerung (Pass 2, optional): Für eine verbesserte zeitliche Konsistenz bei längeren Videoclips kann ein zweiter Durchlauf mit optischem Fluss-Warped-Latents zur Initialisierung genutzt werden.
Manuelle Maskenverfeinerung (optional): Ein GUI-Editor steht zur Verfügung, um automatisch generierte Masken bei Bedarf manuell anzupassen.

Trainingsdaten und Rechenressourcen

Das Training von VOID erfolgte auf synthetischen, paarweisen kontrafaktischen Videos. Diese wurden aus zwei Hauptquellen generiert:

HUMOTO: Mensch-Objekt-Interaktionen, die in Blender mit Physiksimulationen gerendert wurden. Bei Entfernung der menschlichen Figur fallen die Objekte physikalisch korrekt.
Kubric: Objekt-Objekt-Interaktionen unter Verwendung von Google Scanned Objects. Hierbei beeinflusst die Entfernung von Objekten die physikalischen Trajektorien anderer Objekte.

Das Training erforderte erhebliche Rechenressourcen, insbesondere 8x A100 80GB GPUs unter Verwendung von DeepSpeed ZeRO Stage 2.

Bedeutung für die B2B-Zielgruppe

Für Unternehmen im Bereich der Medienproduktion, visuellen Effekte und der KI-gestützten Content-Erstellung bietet VOID neue Möglichkeiten. Die Fähigkeit, Objekte nahtlos und physikalisch plausibel aus Videos zu entfernen, kann den Workflow in der Postproduktion erheblich optimieren und Kosten senken. Anwendungsgebiete könnten die Erstellung von cleanerem Footage für Marketingzwecke, die Anpassung von Szenen ohne aufwendige Nachdrehs oder die Vereinfachung komplexer visueller Effekte sein. Die Verfügbarkeit auf Plattformen wie Hugging Face fördert zudem die Weiterentwicklung und Integration in bestehende Systeme.

Netflix' Vorstoß, ein solch spezialisiertes und leistungsfähiges KI-Modell öffentlich zugänglich zu machen, unterstreicht den Trend zur Demokratisierung fortschrittlicher KI-Technologien. Dies ermöglicht es einem breiteren Spektrum von Entwicklern und Unternehmen, innovative Lösungen zu erforschen und zu implementieren, was die gesamte Branche vorantreiben kann.

Die fortlaufende Entwicklung und Verbesserung solcher Modelle, wie sie auch auf Plattformen wie Hugging Face durch die Community betrieben wird, ist entscheidend für den Fortschritt in der KI-Forschung und deren praktischer Anwendung. VOID repräsentiert einen weiteren Schritt in Richtung intelligenterer und effizienterer Werkzeuge für die digitale Inhaltserstellung.

Bibliography - a30wattbulb/void-model. Hugging Face. URL: https://huggingface.co/a30wattbulb/void-model - akhaliq (AK). Hugging Face. URL: https://huggingface.co/akhaliq - akhaliq (AK). Hugging Face. URL: https://huggingface.co/akhaliq/activity/all - akhaliq (AK). Hugging Face. URL: https://huggingface.co/akhaliq/activity/upvotes - akhaliq (AK). Hugging Face. URL: https://huggingface.co/akhaliq/models - andrewpareles. Keep our Models List updated! · Issue #446 · voideditor/void. GitHub. URL: https://github.com/voideditor/void/issues/446 - Netflix/void-model. GitHub. URL: https://github.com/netflix/void-model - netflix/void-model · Hugging Face. Hugging Face. URL: https://huggingface.com/netflix/void-model - Netflix just dropped their first public model on Hugging Face: VOID | Hacker News. Hacker News. URL: http - Readme. Hugging Face. URL: https://huggingface.co/netflix/void-model/resolve/main/README.md?download=true