Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung im Bereich der Künstlichen Intelligenz, insbesondere bei Großen Sprachmodellen (LLMs), stellt hohe Anforderungen an die Infrastruktur zur Speicherung und Verwaltung von Daten. Hugging Face, eine zentrale Plattform für die KI-Community, hat auf diese Herausforderungen reagiert und eine innovative Speicherlösung namens "Storage Buckets" eingeführt. Diese Neuerung zielt darauf ab, die Speicherung von Machine-Learning-Artefakten effizienter und zugänglicher zu gestalten, insbesondere für die B2B-Zielgruppe, die mit umfangreichen und dynamischen Datensätzen arbeitet.
Das Training von LLMs und anderen komplexen KI-Modellen generiert eine enorme Menge an Daten. Dazu gehören nicht nur die Modelle selbst und ihre Trainingsdatensätze, sondern auch eine Vielzahl von Zwischenergebnissen wie Checkpoints, Optimierer-Zustände, verarbeitete Daten-Shards, Logs und Traces. Diese Artefakte ändern sich häufig, werden von mehreren Jobs gleichzeitig geschrieben und benötigen in vielen Fällen keine vollständige Versionskontrolle im traditionellen Sinne eines Git-Repositories. Die Speicherung und Verwaltung dieser Datenmengen kann schnell zu Engpässen führen, sowohl in Bezug auf die Kosten als auch auf die Performance.
Hugging Face hat die "Storage Buckets" entwickelt, um genau diese Lücke zu schließen. Es handelt sich hierbei um einen nicht-versionierten, S3-ähnlichen Objektspeicher, der direkt in den Hugging Face Hub integriert ist. Diese Buckets sind konzipiert für Daten, die eine hohe Änderungsrate aufweisen und bei denen eine schnelle Schreib- und Lesezugriff wichtiger ist als eine detaillierte Historienverfolgung.
Die wesentlichen Merkmale der Storage Buckets sind:
Ein entscheidender Faktor für die Effizienz der Storage Buckets ist ihre Grundlage auf Xet, einem chunk-basierten Speicher-Backend von Hugging Face. Xet bricht Dateiinhalte in kleinere Blöcke (Chunks) auf und dedupliziert diese über alle gespeicherten Daten hinweg. Dies hat mehrere Vorteile:
Für Unternehmenskunden ist die Abrechnung zudem auf dedupliziertem Speicherplatz basiert, was direkte Kosteneinsparungen ermöglicht.
Eine weitere Funktion, die für B2B-Anwendungen von großer Bedeutung ist, ist das "Pre-Warming". Da Buckets global auf dem Hub existieren, kann die Latenz beim Datenzugriff in verteilten Trainingsszenarien ein Problem darstellen. Pre-Warming ermöglicht es, "heiße" Daten näher an den Cloud-Anbieter und die Region zu bringen, in der die Compute-Ressourcen betrieben werden. Dies stellt sicher, dass Daten bereits lokal verfügbar sind, wenn Rechenjobs starten, und optimiert so den Datendurchsatz erheblich. Hugging Face kooperiert hierfür mit großen Cloud-Anbietern wie AWS und GCP.
Die Nutzung der Storage Buckets ist flexibel gestaltet. Entwickler und Unternehmen können sie auf vielfältige Weise in ihre bestehenden ML-Workflows integrieren:
Dies vereinfacht die Handhabung von Daten und ermöglicht es, vorhandene Codebasen mit minimalem Aufwand an die neue Speicherlösung anzupassen.
Storage Buckets sind für die dynamische, sich schnell ändernde Phase von ML-Artefakten konzipiert. Sobald ein Artefakt einen stabilen Zustand erreicht hat und als finales Ergebnis betrachtet werden kann, ist es oft sinnvoll, es in einem versionierten Modell- oder Datensatz-Repository zu speichern. Hugging Face plant, die direkte Übertragung zwischen Buckets und Repositories in beide Richtungen zu unterstützen, um einen nahtlosen Übergang von der Arbeits- zur Veröffentlichungsebene zu ermöglichen.
Hugging Face hat seine Speicherrichtlinien angepasst, um eine verantwortungsvolle Nutzung der Ressourcen zu gewährleisten und gleichzeitig die Zugänglichkeit für die KI-Community aufrechtzuerhalten. Für öffentliche Repositories wird weiterhin ein großzügiger kostenloser Speicherplatz angeboten. Für private Repositories gibt es eine kostenlose Basis-Tier von 100 GB. Um jedoch Missbrauch zu verhindern und den Fokus auf wertvolle Inhalte zu legen, werden bei sehr großen Speicherbedürfnissen oder für private Daten kostenpflichtige Pläne empfohlen.
Die verfügbaren Speicherpläne umfassen:
Diese Staffelung soll sicherstellen, dass sowohl individuelle Forscher als auch große Unternehmen die passenden Speicherlösungen für ihre KI-Projekte finden.
Die Einführung der Storage Buckets durch Hugging Face stellt einen wichtigen Schritt zur Optimierung der Datenspeicherung in der KI-Entwicklung dar. Durch die Kombination von S3-ähnlichem Objektspeicher mit der deduplizierenden Xet-Technologie und flexiblen Integrationsmöglichkeiten werden die Herausforderungen des Managements großer, dynamischer ML-Artefakte effektiv adressiert. Dies ermöglicht es Unternehmen, ihre KI-Workflows effizienter zu gestalten, Kosten zu senken und sich verstärkt auf die Entwicklung innovativer Lösungen zu konzentrieren. Die Anpassung der Speicherrichtlinien unterstreicht zudem das Bestreben von Hugging Face, eine nachhaltige und wertorientierte Plattform für die globale KI-Community zu bleiben.
Bibliography: - @akhaliq on Hugging Face: "GaLore Memory-Efficient LLM Training by Gradient Low-Rank Projection…" (Hugging Face) - akhaliq (AK) - Hugging Face (Hugging Face) - R 4B - a Hugging Face Space by akhaliq (Hugging Face) - akhaliq (AK) (Hugging Face) - akhaliq (AK) (Hugging Face) - Introducing Storage Buckets on the Hugging Face Hub (Hugging Face Blog) - akhaliq (AK) - Hugging Face (Hugging Face) - backend_models.py · akhaliq/anycoder at c11485f735b4f06302d518b220dab5c5c17758c0 (Hugging Face) - Enormous repository storage overusage · Issue #2700 · huggingface/huggingface_hub (GitHub) - Storage limits · Hugging Face (Hugging Face Docs)Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen