Hugging Face präsentiert innovative Storage Buckets für effiziente ML-Datenverwaltung

Kategorien:

No items found.

Freigegeben:

March 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face hat "Storage Buckets" eingeführt, eine neue Form des Objektspeichers, der speziell auf die Bedürfnisse von Machine Learning (ML)-Workflows zugeschnitten ist.
Im Gegensatz zu traditionellen Git-basierten Repositories bieten Buckets einen veränderbaren, nicht versionierten Speicher, der für häufig wechselnde Daten wie Trainings-Checkpoints, Logs und Zwischenergebnisse optimiert ist.
Die Technologie basiert auf Xet, einem Chunk-basierten Speichersystem, das eine Deduplizierung auf Byte-Ebene ermöglicht und somit die Speichereffizienz und Übertragungsgeschwindigkeiten signifikant verbessert.
Die Preisgestaltung der Hugging Face Buckets ist wettbewerbsfähig und kann bei größeren Volumina günstiger sein als herkömmliche Cloud-Speicherlösungen wie AWS S3, insbesondere durch die Effekte der Deduplizierung.
Buckets unterstützen Funktionen wie "Pre-warming" zur Datenbereithaltung in spezifischen Cloud-Regionen, um die Latenz bei verteilten Trainings zu minimieren.
Die Interaktion mit Buckets ist über die Kommandozeile (CLI), Python-SDK und JavaScript möglich und integriert sich nahtlos in bestehende ML-Workflows.

Revolution im ML-Datenspeicher: Hugging Face stellt Storage Buckets vor

Die Verwaltung von Daten in Machine Learning (ML)-Projekten stellt Unternehmen vor wachsende Herausforderungen. Insbesondere die Speicherung und der effiziente Zugriff auf große Mengen an Zwischenergebnissen, wie Trainings-Checkpoints, Logs und verarbeitete Datensätze, erfordert Lösungen, die über traditionelle Dateisysteme oder versionierte Repositories hinausgehen. In diesem Kontext hat Hugging Face, eine zentrale Plattform für die ML-Community, kürzlich "Storage Buckets" eingeführt. Diese Neuerung zielt darauf ab, die Speicherlandschaft für ML-Teams zu optimieren und eine leistungsfähigere, kostengünstigere Alternative zu bestehenden Cloud-Speicherdiensten anzubieten.

Die Herausforderung traditioneller Speicherlösungen für ML-Workflows

Bestehende Lösungen, wie beispielsweise AWS S3, sind zwar robust und weit verbreitet, behandeln jedoch alle Dateitypen, von hochauflösenden Bildern bis zu umfangreichen Modell-Checkpoints, gleich. Dies führt in ML-Workflows, die durch iterative Änderungen, häufige Überschreibungen und die Generierung großer, ähnlicher Dateien gekennzeichnet sind, zu Ineffizienzen. Git-basierte Versionierungssysteme, wie sie traditionell für Code verwendet werden, stoßen an ihre Grenzen, wenn es um die Speicherung von Gigabyte-großen Binärdateien geht. Jede noch so kleine Änderung an einer solchen Datei erfordert oft das erneute Hochladen der gesamten Datei, was Zeit und Ressourcen kostet.

Warum Git für bestimmte ML-Artefakte ungeeignet ist

Hugging Face nutzt seit Langem Git-basierte Repositories für Modelle und Datensätze. Diese eignen sich hervorragend für die Veröffentlichung finaler Artefakte, jedoch weniger für die dynamischen, sich ständig ändernden Daten während des Entwicklungsprozesses. Die Gründe hierfür sind vielfältig:

Versionierung: Git ist auf eine detaillierte Historie ausgelegt. Für temporäre Checkpoints oder Logs ist dies oft unnötig und führt zu einer unnötigen Aufblähung des Speichers.
Große Binärdateien: ML-Artefakte sind häufig sehr groß. Git LFS (Large File Storage) wurde zwar entwickelt, um dies zu adressieren, speichert aber bei jeder Änderung die gesamte Datei neu, selbst wenn nur ein kleiner Teil sich geändert hat.
Konkurrierende Schreibzugriffe: Trainingscluster erzeugen gleichzeitig viele Datensätze und Checkpoints, was mit Git-basierten Systemen schwer zu handhaben ist.

Hugging Face Storage Buckets: Eine maßgeschneiderte Lösung

Die neu eingeführten Storage Buckets von Hugging Face sind als S3-ähnlicher Objektspeicher konzipiert, jedoch mit einem entscheidenden Unterschied: Sie sind speziell für ML-Artefakte optimiert. Sie bieten einen veränderbaren, nicht versionierten Speicher, der direkt im Hugging Face Hub verwaltet werden kann.

Die Rolle von Xet: Chunk-basierte Deduplizierung

Das Herzstück der Storage Buckets ist die Xet-Technologie. Xet ist ein Chunk-basiertes Speichersystem, das Dateien nicht als monolithische Blöcke behandelt, sondern in kleinere, inhaltsdefinierte "Chunks" zerlegt. Diese Chunks werden dann dedupliziert. Das bedeutet, wenn beispielsweise ein Modell-Checkpoint aktualisiert wird und sich nur 5% der Gewichte ändern, werden nur diese 5% der Daten hochgeladen und gespeichert. Die bereits vorhandenen Chunks bleiben unverändert. Dies hat mehrere Vorteile:

Effizientere Speichernutzung: Reduziert den benötigten Speicherplatz erheblich, insbesondere bei iterativen ML-Workflows, wo viele Artefakte ähnliche Inhalte aufweisen.
Schnellere Übertragungen: Da nur die geänderten Chunks übertragen werden müssen, verkürzen sich Upload- und Download-Zeiten drastisch.
Kostenreduzierung: Die Abrechnung basiert auf dem deduplizierten Speicher, was die effektiven Kosten für Unternehmen senken kann.

Funktionsweise und Integration

Die Interaktion mit den Storage Buckets ist vielseitig gestaltet:

Kommandozeilen-Interface (CLI): Mit dem hf CLI können Nutzer Buckets erstellen, Dateien synchronisieren (ähnlich wie rsync), kopieren und löschen.
Python SDK: Das huggingface_hub Python-Paket (ab Version 1.5.0) bietet eine API zur programmatischen Verwaltung von Buckets, was die Integration in Trainings-Skripte und Datenpipelines erleichtert.
Fsspec-Integration: Durch die Kompatibilität mit HfFileSystem können Bibliotheken wie Pandas, Polars und Dask direkt auf Bucket-Inhalte zugreifen.
Web-Interface: Buckets können auch über das Hugging Face Hub-Webinterface durchsucht und verwaltet werden.

Preise und Kostenvergleich

Hugging Face bietet eine gestaffelte Preisstruktur für Storage Buckets an, die mit zunehmendem Speichervolumen sinkt. Im Vergleich zu AWS S3 Standard, bei dem die Kosten bei etwa 23 USD pro TB pro Monat liegen können, starten Hugging Face Buckets bei 12 USD pro TB pro Monat für öffentlichen Speicher und können bei Volumina über 500 TB auf bis zu 8 USD pro TB pro Monat sinken. Für private Repositories liegen die Preise etwas höher. Die Deduplizierungsfunktion von Xet kann die effektiven Kosten zusätzlich senken, da nur der tatsächlich gespeicherte (deduplizierte) Inhalt berechnet wird.

Praktische Anwendungen und Vorteile für Unternehmen

Die Einführung von Storage Buckets adressiert mehrere kritische Anwendungsfälle in der ML-Entwicklung:

Trainings-Checkpoints und Logs: Speicherung von Zwischenergebnissen von Trainingsläufen, die häufig aktualisiert werden, ohne unnötige Versionierung.
Datenverarbeitungspipelines: Nutzung als Staging-Bereich für rohe und verarbeitete Daten, bevor finale Artefakte in versionierte Repositories überführt werden.
Agentic Storage: Bietet persistenten Speicher für KI-Agenten, um Zwischenergebnisse, Tool-Outputs und Arbeitsgedächtnis zu speichern.
Rolling Backups: Ermöglicht effiziente inkrementelle Backups, da gelöschte Dateien tatsächlich entfernt werden und der Speicherplatz freigegeben wird.

Pre-warming und Multi-Cloud-Unterstützung

Ein weiteres wichtiges Feature ist das "Pre-warming". Es ermöglicht, häufig genutzte Daten in spezifischen Cloud-Regionen vorab zu cachen. Dies ist besonders vorteilhaft für verteilte Trainings, bei denen Rechenressourcen in verschiedenen Regionen oder bei unterschiedlichen Cloud-Anbietern genutzt werden. Durch die Bereitstellung der Daten in der Nähe der Compute-Einheiten werden Latenzen minimiert und der Datendurchsatz maximiert.

Ausblick

Hugging Face plant, die Integration zwischen Storage Buckets und versionierten Repositories weiter zu vertiefen. Dies soll direkte Übertragungen zwischen beiden Speichertypen ermöglichen, sodass beispielsweise ein finaler Checkpoint aus einem Bucket direkt in ein Modell-Repository überführt oder verarbeitete Datenshards in ein Dataset-Repository committet werden können. Ziel ist es, den gesamten ML-Workflow innerhalb des Hugging Face Hub abzubilden und eine nahtlose Erfahrung von der Datenerzeugung bis zur Veröffentlichung zu gewährleisten.

Die Storage Buckets stellen eine signifikante Weiterentwicklung in der Infrastruktur für Machine Learning dar. Durch die Kombination von S3-ähnlichem Objektspeicher mit der fortschrittlichen Deduplizierungstechnologie von Xet bietet Hugging Face eine Lösung, die nicht nur die Effizienz und Geschwindigkeit von ML-Workflows verbessert, sondern auch dazu beitragen kann, die Betriebskosten zu senken. Für Unternehmen, die intensiv mit KI-Modellen und großen Datensätzen arbeiten, könnte dies eine attraktive Alternative zu herkömmlichen Cloud-Speicherdiensten darstellen.

Bibliographie

Hugging Face Blog. (2026, 10. März). Introducing Storage Buckets on the Hugging Face Hub.
Awesome Agents. (2026, 10. März). Hugging Face Launches Storage Buckets for ML Artifacts.
Nionee Nexus. (2026, 31. Januar). From Files to Chunks: Improving HF Storage Efficiency.
XetHub Blog. (2024, 20. November). From Files to Chunks: Improving HF Storage Efficiency.
Hugging Face Blog. (2026, 26. Januar). Why Your AI Strategy Needs Hugging Face Storage.
Hugging Face Docs. Storage Buckets. Abgerufen von http://www.huggingface.co/docs/hub/storage-buckets
Hugging Face Docs. Xet: our Storage Backend. Abgerufen von https://huggingface.co/docs/hub/storage-backends
Hugging Face Changelog. (2026, 10. März). Introducing Buckets: S3-like storage on the Hub.
Hugging Face Blog (Chinesisch). (2024, 20. November). 从文件到块：提高 Hugging Face 存储效率.
Hugging Face. Storage - Hugging Face. Abgerufen von https://api-inference.hf-mirror.com/storage