Hugging Face führt innovative Speicherlösung für KI-Workflows ein

Kategorien:

No items found.

Freigegeben:

April 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face hat kürzlich "Storage Buckets" eingeführt, eine neue Speicherlösung, die speziell auf die Anforderungen von Machine-Learning-Workflows zugeschnitten ist.
Diese Buckets bieten einen nicht-versionierten, S3-ähnlichen Objektspeicher für temporäre oder sich häufig ändernde Daten wie Checkpoints, Optimierer-Zustände und Logs.
Die Technologie basiert auf Xet, einem chunk-basierten Speichersystem, das Daten dedupliziert und somit Bandbreite, Übertragungszeiten und Speicherkosten optimiert.
Die Einführung der Storage Buckets adressiert die Herausforderungen, die sich aus dem Umgang mit großen, dynamischen ML-Artefakten ergeben, die traditionelle Versionskontrollsysteme an ihre Grenzen bringen.
Nutzer können Storage Buckets über die `hf` CLI, die Python-Bibliothek `huggingface_hub` oder über `HfFileSystem` integrieren.
Die Speichergrenzen auf Hugging Face wurden angepasst, um Missbrauch zu verhindern, während weiterhin großzügiger kostenloser Speicher für öffentliche Repositories angeboten wird.
Für erweiterte Bedürfnisse stehen kostenpflichtige PRO-, Team- und Enterprise-Pläne mit höheren Speicherkapazitäten und zusätzlichen Funktionen zur Verfügung.

Hugging Face revolutioniert Datenspeicherung für KI-Workflows mit "Storage Buckets"

Die rapide Entwicklung im Bereich der Künstlichen Intelligenz, insbesondere bei Großen Sprachmodellen (LLMs), stellt hohe Anforderungen an die Infrastruktur zur Speicherung und Verwaltung von Daten. Hugging Face, eine zentrale Plattform für die KI-Community, hat auf diese Herausforderungen reagiert und eine innovative Speicherlösung namens "Storage Buckets" eingeführt. Diese Neuerung zielt darauf ab, die Speicherung von Machine-Learning-Artefakten effizienter und zugänglicher zu gestalten, insbesondere für die B2B-Zielgruppe, die mit umfangreichen und dynamischen Datensätzen arbeitet.

Die Herausforderung der Datenspeicherung in der KI

Das Training von LLMs und anderen komplexen KI-Modellen generiert eine enorme Menge an Daten. Dazu gehören nicht nur die Modelle selbst und ihre Trainingsdatensätze, sondern auch eine Vielzahl von Zwischenergebnissen wie Checkpoints, Optimierer-Zustände, verarbeitete Daten-Shards, Logs und Traces. Diese Artefakte ändern sich häufig, werden von mehreren Jobs gleichzeitig geschrieben und benötigen in vielen Fällen keine vollständige Versionskontrolle im traditionellen Sinne eines Git-Repositories. Die Speicherung und Verwaltung dieser Datenmengen kann schnell zu Engpässen führen, sowohl in Bezug auf die Kosten als auch auf die Performance.

Einführung der Storage Buckets

Hugging Face hat die "Storage Buckets" entwickelt, um genau diese Lücke zu schließen. Es handelt sich hierbei um einen nicht-versionierten, S3-ähnlichen Objektspeicher, der direkt in den Hugging Face Hub integriert ist. Diese Buckets sind konzipiert für Daten, die eine hohe Änderungsrate aufweisen und bei denen eine schnelle Schreib- und Lesezugriff wichtiger ist als eine detaillierte Historienverfolgung.

Die wesentlichen Merkmale der Storage Buckets sind:

Mutabilität: Daten können schnell geschrieben und bei Bedarf überschrieben werden.
Integration: Sie sind nahtlos in den Hugging Face Hub integriert und können über eine Weboberfläche, die `hf` CLI oder Python-Bibliotheken verwaltet werden.
Berechtigungen: Wie bei anderen Hugging Face-Ressourcen können Buckets privat oder öffentlich sein und verfügen über standardisierte Zugriffsberechtigungen.

Die Rolle von Xet für Effizienz

Ein entscheidender Faktor für die Effizienz der Storage Buckets ist ihre Grundlage auf Xet, einem chunk-basierten Speicher-Backend von Hugging Face. Xet bricht Dateiinhalte in kleinere Blöcke (Chunks) auf und dedupliziert diese über alle gespeicherten Daten hinweg. Dies hat mehrere Vorteile:

Bandbreitenoptimierung: Bei der Übertragung von Daten, die ähnliche Chunks enthalten (z.B. aufeinanderfolgende Checkpoints eines Modells), werden nur die neuen oder geänderten Chunks übertragen.
Schnellere Transfers: Weniger zu übertragende Daten bedeuten schnellere Uploads und Downloads.
Effizientere Speicherung: Da identische Chunks nicht mehrfach gespeichert werden, reduziert sich der tatsächliche Speicherbedarf erheblich. Dies ist besonders vorteilhaft für ML-Workflows, die oft inkrementelle Änderungen an großen Artefakten vornehmen.

Für Unternehmenskunden ist die Abrechnung zudem auf dedupliziertem Speicherplatz basiert, was direkte Kosteneinsparungen ermöglicht.

Pre-Warming für optimale Performance

Eine weitere Funktion, die für B2B-Anwendungen von großer Bedeutung ist, ist das "Pre-Warming". Da Buckets global auf dem Hub existieren, kann die Latenz beim Datenzugriff in verteilten Trainingsszenarien ein Problem darstellen. Pre-Warming ermöglicht es, "heiße" Daten näher an den Cloud-Anbieter und die Region zu bringen, in der die Compute-Ressourcen betrieben werden. Dies stellt sicher, dass Daten bereits lokal verfügbar sind, wenn Rechenjobs starten, und optimiert so den Datendurchsatz erheblich. Hugging Face kooperiert hierfür mit großen Cloud-Anbietern wie AWS und GCP.

Integration in ML-Workflows

Die Nutzung der Storage Buckets ist flexibel gestaltet. Entwickler und Unternehmen können sie auf vielfältige Weise in ihre bestehenden ML-Workflows integrieren:

Kommandozeilen-Interface (CLI): Mit dem `hf` CLI können Buckets erstellt, Verzeichnisse synchronisiert und Inhalte verwaltet werden.
Python-Bibliothek `huggingface_hub`: Eine umfassende API ermöglicht die programmatische Interaktion mit Buckets, ideal für die Integration in Trainingsskripte und Datenpipelines.
`HfFileSystem`: Über das fsspec-kompatible Filesystem können Buckets wie lokale Dateisysteme angesprochen werden, was die Kompatibilität mit Bibliotheken wie Pandas, Polars und Dask gewährleistet.

Dies vereinfacht die Handhabung von Daten und ermöglicht es, vorhandene Codebasen mit minimalem Aufwand an die neue Speicherlösung anzupassen.

Übergang von Buckets zu versionierten Repositories

Storage Buckets sind für die dynamische, sich schnell ändernde Phase von ML-Artefakten konzipiert. Sobald ein Artefakt einen stabilen Zustand erreicht hat und als finales Ergebnis betrachtet werden kann, ist es oft sinnvoll, es in einem versionierten Modell- oder Datensatz-Repository zu speichern. Hugging Face plant, die direkte Übertragung zwischen Buckets und Repositories in beide Richtungen zu unterstützen, um einen nahtlosen Übergang von der Arbeits- zur Veröffentlichungsebene zu ermöglichen.

Speichergrenzen und -pläne

Hugging Face hat seine Speicherrichtlinien angepasst, um eine verantwortungsvolle Nutzung der Ressourcen zu gewährleisten und gleichzeitig die Zugänglichkeit für die KI-Community aufrechtzuerhalten. Für öffentliche Repositories wird weiterhin ein großzügiger kostenloser Speicherplatz angeboten. Für private Repositories gibt es eine kostenlose Basis-Tier von 100 GB. Um jedoch Missbrauch zu verhindern und den Fokus auf wertvolle Inhalte zu legen, werden bei sehr großen Speicherbedürfnissen oder für private Daten kostenpflichtige Pläne empfohlen.

Die verfügbaren Speicherpläne umfassen:

Kostenlose Konten: Großzügiger „Best-Effort“-Speicher für öffentliche Repositories und 100 GB für private Repositories.
PRO-Konten: Bis zu 10 TB für öffentliche Repositories und 1 TB für private Repositories, mit Pay-as-you-go-Optionen für zusätzlichen privaten Speicher.
Team- und Enterprise-Organisationen: Deutlich höhere Speicherkapazitäten, die auf die Bedürfnisse größerer Teams und Unternehmen zugeschnitten sind, ebenfalls mit flexiblen Pay-as-you-go-Modellen.

Diese Staffelung soll sicherstellen, dass sowohl individuelle Forscher als auch große Unternehmen die passenden Speicherlösungen für ihre KI-Projekte finden.

Fazit

Die Einführung der Storage Buckets durch Hugging Face stellt einen wichtigen Schritt zur Optimierung der Datenspeicherung in der KI-Entwicklung dar. Durch die Kombination von S3-ähnlichem Objektspeicher mit der deduplizierenden Xet-Technologie und flexiblen Integrationsmöglichkeiten werden die Herausforderungen des Managements großer, dynamischer ML-Artefakte effektiv adressiert. Dies ermöglicht es Unternehmen, ihre KI-Workflows effizienter zu gestalten, Kosten zu senken und sich verstärkt auf die Entwicklung innovativer Lösungen zu konzentrieren. Die Anpassung der Speicherrichtlinien unterstreicht zudem das Bestreben von Hugging Face, eine nachhaltige und wertorientierte Plattform für die globale KI-Community zu bleiben.

Bibliography: - @akhaliq on Hugging Face: "GaLore Memory-Efficient LLM Training by Gradient Low-Rank Projection…" (Hugging Face) - akhaliq (AK) - Hugging Face (Hugging Face) - R 4B - a Hugging Face Space by akhaliq (Hugging Face) - akhaliq (AK) (Hugging Face) - akhaliq (AK) (Hugging Face) - Introducing Storage Buckets on the Hugging Face Hub (Hugging Face Blog) - akhaliq (AK) - Hugging Face (Hugging Face) - backend_models.py · akhaliq/anycoder at c11485f735b4f06302d518b220dab5c5c17758c0 (Hugging Face) - Enormous repository storage overusage · Issue #2700 · huggingface/huggingface_hub (GitHub) - Storage limits · Hugging Face (Hugging Face Docs)