Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von großen Sprachmodellen (Large Language Models, LLMs) hat in den letzten Jahren enorme Fortschritte gemacht. Ein zentraler Ansatz zur Verbesserung ihrer komplexen Denkfähigkeiten ist das Reinforcement Learning mit verifizierbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR). Diese Methode ermöglicht es LLMs, durch iteratives Feedback und Belohnungssysteme ihre Problemlösungsstrategien zu optimieren. Allerdings stieß dieser vielversprechende Ansatz bisher an eine fundamentale Grenze: die Verfügbarkeit von ausreichend großen und verifizierbaren Datensätzen.
Verifizierbare Daten, die für das Training von RLVR-Modellen benötigt werden, sind oft rar und aufwendig zu generieren. Diese Daten müssen nicht nur korrekte Antworten enthalten, sondern auch überprüfbare Schritte oder Begründungen, die es dem Modell ermöglichen, zu lernen, wie es zu diesen Antworten gelangt. Wenn Modelle über einen längeren Zeitraum mit den gleichen begrenzten Datensätzen trainiert werden, erreichen sie einen Sättigungspunkt, an dem weitere Verbesserungen nur noch marginal oder gar nicht mehr auftreten. Dies stellt ein erhebliches Hindernis für die Skalierung und Weiterentwicklung von LLMs dar, insbesondere in Bereichen, die präzises und nachvollziehbares Reasoning erfordern.
Ein Team von Forschenden, unter anderem von NVIDIA und der University of Washington, stellte kürzlich eine neuartige Methode namens "Golden Goose" vor, die darauf abzielt, diese Datenknappheit zu überwinden. "Golden Goose" ist ein Trick, der es ermöglicht, eine unbegrenzte Anzahl von RLVR-Aufgaben aus nicht verifizierbaren Internettexten zu synthetisieren. Der Kernansatz besteht darin, einen "Fill-in-the-Middle"-Task in eine Multiple-Choice-Frage-Antwort-Version umzuwandeln.
Das Vorgehen lässt sich wie folgt zusammenfassen:
Durch diesen Prozess entsteht eine Multiple-Choice-Frage, bei der die korrekte Antwort der ursprünglich maskierte Reasoning-Schritt ist. Die Plausibilität der Distraktoren ist entscheidend, um die Aufgabe für das lernende Modell anspruchsvoll und informativ zu gestalten.
Die "Golden Goose"-Methode ermöglicht es, Reasoning-reiche, aber bisher unbestätigte Korpora aus dem Internet zu nutzen, die zuvor von der RLVR-Datenkonstruktion ausgeschlossen waren. Dazu gehören beispielsweise wissenschaftliche Lehrbücher, Programmierdokumentationen oder umfangreiche Fachartikel. Das Team demonstrierte dies durch die Synthese von "GooseReason-0.7M", einem großen RLVR-Datensatz mit über 700.000 Aufgaben aus den Bereichen Mathematik, Programmierung und allgemeinen wissenschaftlichen Domänen. Eine weitere Anwendung war die Generierung von RLVR-Aufgaben aus rohen FineWeb-Scrapes für den Bereich der Cybersicherheit, wo zuvor keine RLVR-Daten existierten.
Die empirischen Ergebnisse der Studie sind bemerkenswert. Modelle, die zuvor an bestehenden RLVR-Daten gesättigt waren, zeigten durch das Training mit "GooseReason" robuste und anhaltende Leistungssteigerungen unter kontinuierlichem Reinforcement Learning. Insbesondere erzielten 1.5B- und 4B-Instruct-Modelle neue Spitzenwerte (State-of-the-Art) über 15 verschiedene Benchmarks hinweg.
Ein besonders hervorzuhebendes Ergebnis ist der Einsatz von "Golden Goose" in einem realen Szenario: Durch das Training eines Qwen3-4B-Instruct-Modells mit dem resultierenden Datensatz "GooseReason-Cyber" wurde ein neuer State-of-the-Art-Wert im Bereich der Cybersicherheit erreicht. Dieses Modell übertraf sogar ein 7B-domänenspezifisches Modell, das umfangreiches domänenspezifisches Vortraining und Nachtraining erhalten hatte. Dies unterstreicht das Potenzial der automatischen Skalierung von RLVR-Daten durch die Nutzung von reichlich vorhandenen, Reasoning-reichen, aber unbestätigten Internettexten.
Für Unternehmen, die KI-Technologien in anspruchsvollen B2B-Szenarien einsetzen, sind die Erkenntnisse aus der "Golden Goose"-Forschung von großer Bedeutung:
Die "Golden Goose"-Methode stellt einen Fortschritt in der Art und Weise dar, wie LLMs trainiert und skaliert werden können. Sie bietet eine pragmatische Lösung für die Herausforderung der Datenknappheit und ebnet den Weg für leistungsfähigere, anpassungsfähigere und kostengünstigere KI-Modelle in einer Vielzahl von B2B-Anwendungen.
Bibliography: - Lu, X., Acuna, D., Jung, J., Hu, J., Zhang, D., Diao, S., Zou, Y., Zhang, S., Cui, B., Liu, M., Kim, H., Ammanabrolu, P., Kautz, J., Dong, Y., & Choi, Y. (2026). Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text. arXiv preprint arXiv:2601.22975. - alphaXiv. (n.d.). Explore. Retrieved from https://alphaxiv.org/ - arXiv. (n.d.). Artificial Intelligence. Retrieved from https://arxiv.org/list/cs.AI/new - arXiv. (n.d.). Computer Science. Retrieved from https://arxiv.org/list/cs/new - ChatPaper. (n.d.). Explore and AI Chat with the Academic Papers. Retrieved from https://chatpaper.com/chatpaper - Hugging Face. (n.d.). Daily Papers. Retrieved from https://huggingface.co/papers/week/2026-W06 - Hugging Face. (n.d.). nvidia. Retrieved from https://huggingface.co/nvidia/datasets - Liu, W. (2026, February 2). Arxiv今日论文| 2026-02-02 - 闲记算法. Retrieved from http://lonepatient.top/2026/02/02/arxiv_papers_2026-02-02.html - Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use. (2025). arXiv preprint arXiv:2504.04736.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen