KI für Ihr Unternehmen – Jetzt Demo buchen

Neuartiges Framework zur Synthese verifizierbarer Aufgaben für Reinforcement Learning in großen Sprachmodellen

Kategorien:
No items found.
Freigegeben:
February 3, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist entscheidend für komplexe Denkprozesse in großen Sprachmodellen (LLMs).
    • Die Skalierung von RLVR wird durch den Mangel an verifizierbaren Daten und die Sättigung bestehender Datensätze begrenzt.
    • Das "Golden Goose"-Framework synthetisiert unbegrenzte RLVR-Aufgaben aus nicht verifizierbaren Internettexten durch Multiple-Choice-Fragen (MCQ) im Lückentextformat.
    • Die Methode identifiziert Schlüssel-Denkschritte, maskiert diese und generiert plausible Distraktoren, um effektive Trainingssignale zu erzeugen.
    • GooseReason-0.7M, ein Datensatz mit über 0,7 Millionen Aufgaben, wurde aus verschiedenen Quellen wie Mathematik, Programmierung und Wissenschaft erstellt.
    • Empirische Ergebnisse zeigen, dass GooseReason gesättigte Modelle reaktiviert und robuste Leistungssteigerungen über diverse Benchmarks hinweg ermöglicht.
    • Die Anwendung im Bereich Cybersicherheit demonstriert das Potenzial der Methode, auch in spezialisierten Domänen ohne vorherige RLVR-Daten neue Bestleistungen zu erzielen.

    Revolutionierung des Reinforcement Learning: "Golden Goose" für unbegrenzte RLVR-Aufgaben aus unverifizierbaren Internettexten

    Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren beeindruckende Fortschritte erzielt, insbesondere im Bereich komplexer Denkprozesse. Ein zentraler Pfeiler dieser Entwicklung ist das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Dieses Paradigma ermöglicht es LLMs, ihre Argumentationsfähigkeiten kontinuierlich zu verbessern. Eine aktuelle Forschungsarbeit mit dem Titel "Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text" stellt einen innovativen Ansatz vor, der darauf abzielt, die Skalierung von RLVR zu revolutionieren, indem er eine scheinbar unerschöpfliche Quelle für Trainingsdaten erschließt: nicht verifizierbare Internettexte.

    Die Herausforderung der Datensättigung im RLVR

    Die Skalierung von Reinforcement Learning in LLMs stößt auf erhebliche Hürden, primär bedingt durch die begrenzte Verfügbarkeit verifizierbarer Daten. Bestehende RLVR-Datensätze, obwohl wertvoll, erreichen bei längerem Training einen Sättigungspunkt, an dem weitere Verbesserungen stagnieren. Dies liegt daran, dass RLVR-Daten strenge Formatierungsanforderungen erfüllen müssen, um eine automatische Verifizierung der Belohnungen zu ermöglichen. Beispiele hierfür sind mathematische Probleme, die von einem mathematischen Verifizierer gelöst werden können, oder Programmieraufgaben mit Testfällen, die in einer Sandbox-Umgebung ausgeführt werden können. Die manuelle Erstellung solcher Daten ist jedoch kostspielig, schwer skalierbar und auf eng definierte Domänen beschränkt. Dies führt dazu, dass Aufgaben mit längerfristigen oder offenen Lösungen, die schwer automatisch zu überprüfen sind – wie mathematische Theorembeweise oder medizinische Diagnosen – häufig ausgeschlossen werden.

    Auch automatisierte Syntheseverfahren für RLVR-Daten basierten bisher oft auf menschlichem Fachwissen zur Konstruktion handgefertigter, verifizierbarer Umgebungen. Obwohl diese Methoden unendlich viele Beispiele mit anpassbarer Komplexität generieren können, ist die Skalierung über eine begrenzte Anzahl von Umgebungen hinaus aufgrund des manuellen Designs schwierig. Zudem ähneln die daraus resultierenden logischen Probleme oft den von Menschen erstellten verifizierbaren Problemen, wodurch offene Denkaufgaben weiterhin unberücksichtigt bleiben.

    Das "Golden Goose"-Framework: Ein Paradigmenwechsel

    Um diese Einschränkungen zu überwinden, wurde das "Golden Goose"-Framework entwickelt. Es bietet eine einfache, aber effektive Methode zur Synthese unbegrenzter RLVR-Aufgaben aus nicht verifizierbaren Internettexten. Der Kern des Ansatzes besteht darin, eine Multiple-Choice-Frage-Antwort-Version (MCQ) einer Lückentextaufgabe zu konstruieren. Das Verfahren lässt sich wie folgt zusammenfassen:

    • Identifikation und Maskierung von Schlüssel-Denkschritten: Ein LLM wird angewiesen, in einem Quelltext eine zusammenhängende Spanne wichtiger Denkschritte zu identifizieren und diese durch ein [MASK]-Token zu ersetzen. Der entfernte Inhalt dient dabei als die korrekte Antwort.
    • Generierung plausibler Distraktoren: Anschließend generiert das LLM eine Reihe von unterschiedlichen, plausiblen, aber falschen Antwortmöglichkeiten (Distraktoren), die stilistisch und inhaltlich dem maskierten Abschnitt ähneln.
    • Multiple-Choice-Aufgabe: Die so erstellte Aufgabe besteht aus dem maskierten Kontext und einer Reihe von Antwortoptionen, die die korrekte Antwort und die generierten Distraktoren umfassen. Die Reihenfolge der Optionen wird randomisiert.
    • Verifizierung: Während des Reinforcement Learnings wird die Vorhersage des Modells einfach mit der korrekten Antwort abgeglichen, um die Verifizierung zu ermöglichen.

    Bei rauen und potenziell verrauschten Datenquellen, wie zum Beispiel Web-Scrapes im Bereich Cybersicherheit, wird das LLM zunächst aufgefordert, einen zusammenhängenden, bildungstechnisch wertvollen Abschnitt zu extrahieren oder zusammenzufassen, bevor die MCQ-Aufgabe darauf aufbaut. Um die Qualität der synthetisierten Daten zu gewährleisten, wird ein leistungsstarkes LLM (wie GPT-5) für die Synthese eingesetzt. Für reasoning-reiche Quelltexte, wie zum Beispiel AoPS-Instruct oder MegaScience, erwiesen sich die von GPT-5 konstruierten Fragen als ausreichend hochwertig und anspruchsvoll. Bei verrauschten Texten wird zusätzlich ein Schwierigkeitsfilter angewendet, um zu einfache Probleme auszuschließen.

    GooseReason-0.7M: Ein umfangreicher Datensatz

    Basierend auf diesem Framework wurde GooseReason-0.7M erstellt, ein großer RLVR-Datensatz mit über 0,7 Millionen Aufgaben. Dieser Datensatz nutzt bestehende, reasoning-reiche, aber bisher nicht verifizierbare Korpora. Dazu gehören:

    • AoPS-Instruct: Etwa 600.000 Frage-Antwort-Paare aus dem "Art of Problem Solving"-Forum, die mathematische Probleme auf Olympiade-Niveau beinhalten. Die Lösungen sind oft unstrukturiert und konnten bisher nicht automatisch verifiziert werden.
    • rStar-Coder: 37.700 von Experten erstellte Programmierprobleme von Wettbewerbsplattformen. Obwohl ein Teil dieser Probleme Testfälle hatte, konnten viele synthetisierte Fragen zuvor nicht für RL-Training genutzt werden, da sie keine Testfälle enthielten.
    • MegaScience: 650.000 Frage-Antwort-Paare aus fast 12.000 wissenschaftlichen Lehrbüchern auf Universitätsniveau, die verschiedene Fächer wie Physik, Biologie, Chemie, Medizin, Informatik, Mathematik und Wirtschaft umfassen. Viele der Lösungen waren aufgrund ihrer Komplexität oder offenen Natur schwer zu validieren.

    GooseReason-0.7M ergänzt bestehende RLVR-Datensätze effektiv und ermöglicht es dem Reinforcement Learning, über bisherige Sättigungspunkte hinaus zu skalieren. Es wurde festgestellt, dass GooseReason-0.7M eine Effektivitätsrate von etwa 70% beibehält, was eine erhebliche Steigerung der nutzbaren Lernsignale für kontinuierliches RL bedeutet.

    Empirische Ergebnisse und Auswirkungen

    Die empirischen Studien zeigen, dass GooseReason-0.7M gesättigte Modelle effektiv reaktiviert und zu robusten, kontinuierlichen Leistungssteigerungen führt. Insbesondere wurden folgende Beobachtungen gemacht:

    • Überwindung der Datensättigung: Modelle, die zuvor auf bestehenden RLVR-Datensätzen Sättigung erreichten, zeigten durch die Integration von GooseReason-0.7M signifikante Verbesserungen in Mathematik, Programmierung und STEM-Fächern. Die größten Fortschritte wurden im STEM-Bereich erzielt, wo GooseReason die Knappheit an RLVR-Daten in den allgemeinen Wissenschaften überbrückt.
    • Leistungssteigerungen bei stärkeren LLMs: Auch bei stärkeren LLMs, die schneller eine Sättigung erreichen, ermöglichte GooseReason kontinuierliches RL-Training und führte zu neuen Spitzenleistungen (State-of-the-Art) für 1.5B- und 4B-Instruct-Modelle über 15 diverse Benchmarks hinweg. Dies deutet darauf hin, dass die Modelle verallgemeinerbare Denkfähigkeiten erwerben, die über spezifische Aufgabenformate hinausgehen.
    • Effiziente Skalierung unter festem Rechenbudget: GooseReason-0.7M ermöglicht eine effizientere RL-Skalierung. Modelle, die von Grund auf mit GooseReason-0.7M trainiert wurden, zeigten bei gleicher Anzahl von Trainingsschritten durchweg höhere Leistungen.
    • Anwendung in spezialisierten Domänen – Cybersicherheit: Das Framework wurde auch in realen Szenarien eingesetzt, um RLVR-Daten für die Cybersicherheit zu synthetisieren, einem spezialisierten Bereich, in dem es bisher keine Open-Source-RLVR-Daten gab. Durch die Nutzung von Cybersicherheits-bezogenen Web-Scrapes (FineWeb) wurde GooseReason-Cyber mit ca. 180.000 RLVR-Beispielen erstellt. Das Training eines Qwen3-4B-Instruct-Modells mit diesen Daten führte zu einer absoluten Steigerung von 4,44% über drei Cybersicherheits-Benchmarks und etablierte einen neuen State-of-the-Art in diesem Bereich. Dies übertraf sogar ein 7B domänenspezifisches Modell, das umfangreiches domänenspezifisches Vor- und Nachtraining durchlaufen hatte.

    Designentscheidungen und deren Begründung

    Die Wahl des Multiple-Choice-Formats gegenüber offenen Lückentextaufgaben wurde sorgfältig abgewogen. Bei offenen Aufgaben tendierten Reasoning-Modelle dazu, das Problem von Grund auf neu zu lösen, anstatt die maskierten Inhalte zu ergänzen, was zu einer geringen Effektivität des RL-Signals führte. Das MCQ-Format hingegen liefert effektivere Lernsignale.

    Die Anzahl der Distraktoren spielt ebenfalls eine wichtige Rolle. Zu wenige Optionen (z.B. drei) machen die Aufgaben zu einfach, da Modelle eine Eliminationsstrategie anwenden können. Eine größere Anzahl von Distraktoren (z.B. neun) erhöht die Aufgabenschwierigkeit und fördert die tatsächliche Denkfähigkeit, da die meisten Probleme in einen mittleren Schwierigkeitsbereich fallen, der sowohl erfolgreiche als auch fehlgeschlagene Modellausführungen beinhaltet und somit optimale Lernsignale liefert.

    Fazit und Ausblick

    Das "Golden Goose"-Framework stellt einen bedeutenden Fortschritt in der Nutzung von Reinforcement Learning für die Verbesserung der Denkfähigkeiten von LLMs dar. Durch die Umwandlung von reasoning-reichen, aber nicht verifizierbaren Internettexten in verifizierbare Multiple-Choice-Aufgaben wird eine nahezu unbegrenzte Quelle für hochwertige Trainingsdaten erschlossen. Die erzielten Ergebnisse demonstrieren das Potenzial dieser Methode, die Skalierung von RLVR in verschiedenen Domänen zu beschleunigen und neue Bestleistungen zu erzielen.

    Die Arbeit unterstreicht die Effektivität von RLVR in spezialisierten Domänen, wenn es mit skalierbaren Daten versorgt wird. Zukünftige Anwendungen könnten sich auf andere hochrelevante Disziplinen wie Recht und Medizin erstrecken, wo verifizierbare Daten selten, professionelle Literatur jedoch reichlich vorhanden ist. Es ist jedoch zu beachten, dass potenzielle Verzerrungen oder toxische Inhalte in den Quellkorpora übernommen werden könnten, was bei der Implementierung berücksichtigt werden muss.

    Diese Forschung bietet wertvolle Einblicke und praktische Lösungen für Unternehmen im B2B-Bereich, die an der Entwicklung und Optimierung von KI-Systemen arbeiten. Die Fähigkeit, hochwertige Trainingsdaten effizient zu generieren, ist ein entscheidender Faktor für die Wettbewerbsfähigkeit und Innovationskraft in der KI-Landschaft.

    Bibliographie

    - Lu, Ximing et al. "Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text." arXiv preprint arXiv:2601.22975 (2026). - Kim, Seonghyeon. "2026-02-02." arXiv Daily (2026). - Hugging Face. "Daily Papers." (2026). - AI Research Roundup. "Golden Goose: Unlimited Reasoning Data for LLMs." YouTube video (2026).

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen