Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Leistungsfähigkeit großer Sprachmodelle (LLMs) hängt maßgeblich von der Qualität und Quantität ihrer Trainingsdaten ab. Die Erstellung dieser Datensätze, oft als "Data Recipes" bezeichnet, ist jedoch ein komplexer und arbeitsintensiver Prozess, der bislang erhebliches menschliches Fachwissen und iterative Anpassungen erfordert. Eine aktuelle Forschungsarbeit mit dem Titel "DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning" stellt einen vielversprechenden Ansatz zur Automatisierung dieses Prozesses vor.
Im Bereich der künstlichen Intelligenz, insbesondere bei Large Language Models (LLMs), ist die Bereitstellung hochwertiger und umfangreicher Trainingsdaten ein entscheidender Faktor für den Erfolg. Diese Daten bilden die Grundlage, auf der die Modelle lernen und ihre Fähigkeiten entwickeln. Die Erstellung sogenannter "Data Recipes" – umfassende Pipelines zur Umwandlung von Rohdaten in Trainingskorpora – ist traditionell ein überwiegend manueller Vorgang. Obwohl LLMs bereits zur Automatisierung einzelner Schritte wie Datensynthese und -filterung eingesetzt werden, bleibt das übergeordnete Design und die Optimierung dieser Rezepte eine Aufgabe, die tiefgreifende menschliche Expertise und wiederholte Anpassungen verlangt. Eine Ineffizienz, die den Fortschritt in der LLM-Entwicklung bremsen kann.
Um diese Lücke zu schließen, wurde das Konzept der End-to-End-Datenrezept-Generierung für die LLM-Anpassung formuliert. Hierbei soll ein Modell, basierend auf einem Ziel-Benchmark und einem Pool verfügbarer Datenquellen, ein vollständiges Datenrezept erstellen, das ein Basis-LLM an die spezifische Aufgabe anpasst. Das vorgestellte Modell, DataChef-32B, nutzt Online-Reinforcement Learning (RL) in Kombination mit einem Proxy-Belohnungssystem. Dieses System prognostiziert die Leistung des Modells in nachgelagerten Aufgaben für potenzielle Datenrezepte, wodurch DataChef in die Lage versetzt wird, sich selbstständig zu optimieren und die effektivsten Datenaufbereitungsstrategien zu finden.
Die Evaluation von DataChef-32B erfolgte über sechs voneinander unabhängige Aufgabenbereiche. Die Ergebnisse zeigen, dass das System in der Lage ist, praktische Datenrezepte zu erstellen, die eine vergleichbare Leistung wie die von menschlichen Experten kuratierten Datensätze erzielen. Ein besonders hervorzuhebendes Beispiel ist die Anpassung des Qwen3-1.7B-Base Modells an den mathematischen Bereich, bei der das von DataChef-32B generierte Rezept eine Leistung von 66.7 auf dem AIME'25 Benchmark erreichte und somit das ursprüngliche Qwen3-1.7B Modell übertraf. Dies unterstreicht nicht nur die Effizienz des DataChef-Ansatzes, sondern auch dessen Fähigkeit, Modelle für spezifische Domänen signifikant zu verbessern.
Die Forschungsarbeit zu DataChef eröffnet neue Perspektiven für die Automatisierung des LLM-Trainings und die Entwicklung von KI-Systemen, die sich selbstständig weiterentwickeln können. Durch die Reduzierung des manuellen Aufwands bei der Datenkuratierung könnten Entwicklungszyklen verkürzt und die Zugänglichkeit fortschrittlicher LLM-Anpassungen für ein breiteres Spektrum von Anwendungen und Unternehmen verbessert werden. Dies hat das Potenzial, die Effizienz und Innovationskraft im B2B-Bereich erheblich zu steigern, indem maßgeschneiderte KI-Lösungen schneller und kostengünstiger realisiert werden können.
Die Idee von "Data Recipes" ist nicht neu und wird in verschiedenen Kontexten erforscht. So untersuchen beispielsweise "OpenThoughts: Data Recipes for Reasoning Models" von Alon Albalak et al. und "DataRecipe — How to Cook the Data for CodeLLM?" von Dongsun Kim et al. ähnliche Fragestellungen im Bereich der Datenaufbereitung für spezifische LLM-Anwendungen wie Reasoning-Modelle und Code-LLMs. Diese Arbeiten unterstreichen die wachsende Bedeutung der systematischen und optimierten Datenkuratierung für die Weiterentwicklung von KI-Systemen.
Ein weiterer relevanter Aspekt ist die Entwicklung von Frameworks zur Verbesserung der generativen Fähigkeiten von LLMs durch programmatisch generierte Daten. Das "Cookbook"-Framework, wie von Avanika Narayan et al. beschrieben, bietet einen Ansatz zur kostengünstigen Erstellung von Trainingsdatensätzen, die spezifische Muster über zufälligen Tokens verwenden, um Modelle auf bestimmte Aufgaben vorzubereiten. Die Kombination solcher programmatischer Generierungsansätze mit intelligenten Optimierungsmethoden wie DataChef könnte in Zukunft noch leistungsfähigere und anpassungsfähigere LLMs hervorbringen.
Die Einführung von DataChef repräsentiert einen wichtigen Schritt in Richtung einer effizienteren und weniger arbeitsintensiven LLM-Anpassung. Die Fähigkeit, optimale Datenrezepte durch Reinforcement Learning zu „kochen“, verspricht nicht nur eine Beschleunigung der Entwicklung und Bereitstellung von KI-Lösungen, sondern auch eine signifikante Verbesserung der Modellleistung in spezialisierten Anwendungsbereichen. Für Unternehmen, die auf maßgeschneiderte und leistungsstarke KI-Modelle angewiesen sind, bietet dieser Ansatz erhebliche Vorteile und weist den Weg in eine Zukunft, in der KI-Systeme sich autonom an neue Herausforderungen anpassen und optimieren können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen