Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung großer Sprachmodelle (LLMs) ist ein zentrales Thema in der aktuellen KI-Forschung. Ein entscheidender Aspekt dieser Entwicklung ist die Fähigkeit der Modelle, komplexe Denkprozesse zu vollziehen. Eine neue Forschungsarbeit mit dem Titel "Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models" stellt einen innovativen Ansatz vor, der darauf abzielt, die Reasoning-Fähigkeiten von LLMs durch die automatische Komposition von Prompts signifikant zu verbessern.
Der Erfolg des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hängt maßgeblich von umfangreichen Sammlungen verifizierbarer Prompts ab. Diese Prompts, die mit Ground-Truth-Antworten versehen sind, ermöglichen die Berechnung von Belohnungen während des Trainings. Ein wiederkehrendes Problem ist jedoch, dass viele dieser Prompts uninformative Beispiele enthalten und die Erweiterung der Datensätze mit neuen, hochwertigen Prompts kostspielig ist. Bisherige Studien konzentrierten sich darauf, begrenzte Trainingsdaten besser zu nutzen, indem sie "schwierige" Prompts mit einer Erfolgsquote von 0 priorisierten. Doch im Laufe des Trainings gewinnen "einfache" Prompts mit einer Erfolgsquote von 1 zunehmend an Bedeutung, was die effektive Datengröße verringern kann.
Um dieser Problematik zu begegnen, wurde Composition-RL entwickelt. Dieser Ansatz ist darauf ausgelegt, die vorhandenen verifizierbaren Prompts, insbesondere jene mit einer Erfolgsquote von 1, effektiver zu nutzen. Die Kernidee besteht darin, mehrere Einzelprobleme automatisch zu einer neuen, komplexeren und verifizierbaren Frage zu kombinieren. Diese "kompositionellen Prompts" werden dann für das RL-Training der Sprachmodelle eingesetzt.
Die Forscher hinter Composition-RL haben umfangreiche Experimente mit LLMs unterschiedlicher Größen, von 4 Milliarden bis zu 30 Milliarden Parametern, durchgeführt. Die Ergebnisse dieser Experimente zeigen eine konsistente Verbesserung der Reasoning-Fähigkeit bei Modellen, die mit Composition-RL trainiert wurden, im Vergleich zu solchen, die auf dem ursprünglichen Datensatz basierten. Dies deutet darauf hin, dass die Komposition von Prompts eine effektive Methode ist, um die Modelle zu anspruchsvolleren Denkprozessen anzuregen.
Ein weiterer vielversprechender Aspekt ist die curriculare Variante von Composition-RL. Hierbei wird die Kompositionstiefe der Prompts während des Trainings schrittweise erhöht. Dieser Ansatz konnte die Leistungsfähigkeit der Modelle zusätzlich steigern. Dies legt nahe, dass ein gestufter Lernprozess, der mit einfacheren Kompositionen beginnt und zu komplexeren übergeht, besonders vorteilhaft ist.
Darüber hinaus hat Composition-RL gezeigt, dass es ein effektiveres domänenübergreifendes Reinforcement Learning ermöglicht. Durch die Kombination von Prompts aus verschiedenen Domänen können die Modelle ihre erlernten Fähigkeiten breiter anwenden und verallgemeinern.
Für Unternehmen, die auf KI-Technologien wie die von Mindverse setzen, sind diese Entwicklungen von großer Relevanz. Die Verbesserung der Reasoning-Fähigkeiten von LLMs durch Methoden wie Composition-RL bedeutet:
Die Forschungsergebnisse zu Composition-RL unterstreichen das kontinuierliche Bestreben, die Leistungsfähigkeit von Sprachmodellen zu maximieren. Die Fähigkeit, aus vorhandenen Daten durch intelligente Komposition neue, lehrreichere Beispiele zu generieren, stellt einen wichtigen Schritt dar, um LLMs noch leistungsfähiger und vielseitiger für anspruchsvolle Aufgaben in der Praxis zu machen.
Weitere Informationen, Codes, Datensätze und Modelle sind öffentlich zugänglich, was eine detailliertere Untersuchung und Replikation der Forschungsergebnisse ermöglicht.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen