KI für Ihr Unternehmen – Jetzt Demo buchen

Neue Ansätze zur Verbesserung der Anweisungsbefolgung in großen Sprachmodellen

Kategorien:
No items found.
Freigegeben:
November 15, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Eine neue Studie stellt das "AdvancedIF"-Benchmark und die "RIFL"-Pipeline vor, um die Anweisungsbefolgung (Instruction Following, IF) großer Sprachmodelle (LLMs) zu verbessern.
    • AdvancedIF ist ein umfassendes, von Experten annotiertes Benchmark mit über 1.600 Prompts und Bewertungsrastern zur Beurteilung komplexer, mehrstufiger und systemgesteuerter Anweisungen.
    • RIFL ist eine Post-Trainings-Pipeline, die die Generierung von Bewertungsrastern, einen feinabgestimmten Raster-Verifizierer und Belohnungsformung nutzt, um Reinforcement Learning für die Anweisungsbefolgung zu ermöglichen.
    • Experimente zeigen, dass RIFL die IF-Fähigkeiten von LLMs signifikant verbessert, mit einem absoluten Gewinn von 6,7 % auf AdvancedIF.
    • Die Studie unterstreicht die Rolle von Bewertungsrastern als effektives Werkzeug für Training und Evaluierung in der Entwicklung zuverlässigerer und leistungsfähigerer KI-Systeme.

    Die Fähigkeit großer Sprachmodelle (Large Language Models, LLMs), komplexe Anweisungen präzise zu befolgen, stellt eine zentrale Herausforderung in der aktuellen KI-Forschung dar. Trotz bemerkenswerter Fortschritte in verschiedenen Anwendungsbereichen, wie der Logik in Mathematik und Code oder der Interaktion in Konversationssystemen, bleibt die Anweisungsbefolgung (Instruction Following, IF) – insbesondere bei vielschichtigen, mehrstufigen und systemgesteuerten Anweisungen – ein Feld mit erheblichem Optimierungspotenzial. Eine kürzlich veröffentlichte Arbeit beleuchtet diesen Aspekt detailliert und schlägt innovative Ansätze zur Messung und Verbesserung dieser Fähigkeit vor.

    Herausforderungen bei der Anweisungsbefolgung von LLMs

    Die präzise Ausführung von Anweisungen ist für LLMs von grundlegender Bedeutung. Sie ermöglicht es den Modellen, Benutzerabsichten zu interpretieren und in gewünschte Ergebnisse umzusetzen. Aktuelle LLMs zeigen eine gute Leistung bei einfachen, direkten Anweisungen. Schwierigkeiten treten jedoch bei komplexen Szenarien auf, die mehrere Benutzerabsichten über verschiedene Konversationsrunden hinweg oder spezifische Systemanweisungen umfassen. Die Bewertung und das Training für solche fortgeschrittenen Fähigkeiten werden durch das Fehlen hochwertiger, von Menschen annotierter Benchmarks und zuverlässiger, interpretierbarer Belohnungssignale erschwert.

    Grenzen bestehender Methoden

    Die Methode des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als effektive Technik zur Verbesserung der Denkfähigkeiten von LLMs in Bereichen wie Mathematik oder Code erwiesen, wo Ergebnisse objektiv überprüft werden können (z.B. durch die Korrektheit einer mathematischen Lösung oder die Funktionsweise eines Codes). Für die allgemeine Anweisungsbefolgung ist RLVR jedoch weniger direkt anwendbar, da die korrekte Befolgung einer Anweisung oft nicht binär, sondern vielschichtiger ist. Ansätze, die auf Belohnungsmodellen basieren, welche aus paarweisen Daten trainiert werden (Reinforcement Learning from Human Feedback, RLHF), erfordern große Mengen an Präferenzdaten und liefern oft schwer interpretierbare Belohnungssignale, die zudem anfällig für "Reward Hacking" sein können.

    AdvancedIF: Ein neues Benchmark für komplexe Anweisungsbefolgung

    Um diese Lücke zu schließen, wurde das Benchmark "AdvancedIF" entwickelt. Dieses Benchmark zeichnet sich durch folgende Merkmale aus:

    • Experten-kuratierte Prompts: Alle Prompts in AdvancedIF wurden sorgfältig von menschlichen Experten erstellt. Bei mehrstufigen Konversationen interagierten die Experten mit einem LLM, um Prompts zu erstellen, die das reale Nutzerverhalten widerspiegeln.
    • Experten-kuratierte Bewertungsraster (Rubrics): Jeder Prompt ist mit einem Bewertungsraster verbunden, das ebenfalls von menschlichen Experten erstellt und mehrfach überprüft wurde. Diese Raster definieren detaillierte Kriterien für die Befolgung der Anweisungen.
    • Umfassende Bewertung: AdvancedIF umfasst über 1.600 Prompts, die drei zentrale Aspekte der Anweisungsbefolgung abdecken:
      • Komplexe Anweisungsbefolgung (Complex Instruction Following, CIF): Prompts mit sechs oder mehr Anweisungen, die Ton, Format, Stil, Struktur, Länge, negative Beschränkungen, Rechtschreibung und bedingte Anweisungen kombinieren.
      • Mehrstufige kontextbezogene Anweisungsbefolgung (Multi-turn Carried Context, CC): Die Fähigkeit, Anweisungen aus früheren Konversationsrunden zu behalten und zu befolgen.
      • System-Prompt-Steuerbarkeit (System Prompt Steerability, SS): Die Fähigkeit, Anweisungen im System-Prompt zu befolgen, wie z.B. Antwortstil, Sicherheitsrichtlinien oder Werkzeugnutzung.
    • Herausforderndes Benchmark: Selbst führende LLMs wie GPT-5, Gemini 2.5 Pro und Claude-4-Sonnet erreichen auf AdvancedIF nur eine Genauigkeit von etwa 70-74%, was die Komplexität des Benchmarks unterstreicht und den verbleibenden Spielraum für Verbesserungen aufzeigt.

    RIFL: Eine Pipeline für Rubrik-basiertes Reinforcement Learning

    Um die Herausforderungen des Rubrik-basierten RL-Trainings zu adressieren, wurde die "Rubric-based Instruction-Following Learning" (RIFL)-Pipeline entwickelt. Diese Pipeline besteht aus drei Schlüsselkomponenten:

    1. Rubrik-Generierung

    Um hochwertige Prompts und Bewertungsraster in großem Maßstab zu generieren, wird ein Rubrik-Generator trainiert. Dieser Generator basiert auf einem kleinen Satz von experten-erstellten Daten und nutzt ein feinabgestimmtes LLM (z.B. Llama 4 Maverick), um für neue Prompts entsprechende Bewertungsraster zu synthetisieren. Dies ermöglicht die Skalierung des Trainingsdatensatzes über die manuell annotierten Beispiele hinaus.

    2. Rubrik-Verifizierer

    Ein zuverlässiger Verifizierer ist entscheidend für die Bereitstellung präziser Belohnungssignale. Anstatt ein generisches LLM als Verifizierer zu verwenden, wird ein spezialisierter Rubrik-Verifizierer durch einen zweistufigen Finetuning-Prozess trainiert:

    • SFT-Phase (Supervised Finetuning): Das Modell wird auf einem "Golden Set" menschlich annotierter Rubrik-basierter Bewertungen trainiert, um Antworten basierend auf Bewertungsrastern wie menschliche Experten zu bewerten.
    • RL-Phase (Reinforcement Learning): Nach der SFT-Phase wird ein zweiter RL-Schritt auf einem breiteren Satz von Rubrik-Verifizierer-Prompts durchgeführt, um die Generalisierungsfähigkeit des Verifizierers zu verbessern. Die Belohnung wird danach berechnet, wie genau die Bewertung des Verifizierers mit den Expertenlabels übereinstimmt.

    Diese zweistufige Methode führt zu einem deutlich höheren Grad an Übereinstimmung mit menschlichen Bewertungen (F1-Score von 0,728) im Vergleich zu einem Vanilla-LLM-Richter (0,515).

    3. Belohnungsdesign und -formung

    Für die Belohnungsfunktion wird ein "Alles-oder-Nichts"-Prinzip angewendet: Das Modell erhält nur dann eine Belohnung von 1, wenn es alle Kriterien des Bewertungsrasters erfüllt, andernfalls 0. Dies hat sich in Experimenten als effektiver erwiesen als fraktionale oder hybride Belohnungsansätze, da es das Modell stärker dazu anspornt, alle Anweisungen vollständig zu befolgen.

    Um "Reward Hacking" zu verhindern – ein Phänomen, bei dem Modelle versuchen, den Verifizierer durch irrelevante Aussagen zu täuschen – wurden zusätzliche Kriterien in das Belohnungsdesign integriert. Diese Kriterien prüfen explizit, ob die Antwort des Modells sauber ist, keine übermäßig ausführliche Selbsteinschätzung enthält und vollständig ist. Dies stellt sicher, dass die Verbesserungen in der Anweisungsbefolgung auf tatsächlicher Leistung beruhen und nicht auf der Ausnutzung von Schwachstellen des Verifizierers.

    Experimentelle Ergebnisse

    Die Experimente zeigen, dass RIFL die Anweisungsbefolgungsfähigkeiten des Basismodells Llama 4 Maverick signifikant verbessert. Auf dem AdvancedIF-Benchmark wurde eine absolute Verbesserung von 6,7 % erzielt. Auch auf öffentlichen Benchmarks wie MultiChallenge und IFEval konnte RIFL gute Ergebnisse vorweisen. Diese Resultate bestätigen, dass RIFL die Modelle effektiv dazu befähigt, komplexe Anweisungen zu verarbeiten, mehrstufige Konversationen zu handhaben und sich an unterschiedliche System-Prompts anzupassen.

    Bedeutung für die B2B-Anwendung

    Für Unternehmen, die auf leistungsfähige und zuverlässige KI-Systeme angewiesen sind, bieten die Erkenntnisse aus dieser Forschung wichtige Impulse. Die präzise Anweisungsbefolgung von LLMs ist entscheidend für Anwendungen in Bereichen wie:

    • Automatisierte Kundenkommunikation: Chatbots und virtuelle Assistenten müssen komplexe Kundenanfragen verstehen und akkurat darauf reagieren, auch über mehrere Interaktionsschritte hinweg.
    • Content-Generierung: Die Erstellung von Inhalten nach spezifischen Vorgaben (Stil, Format, Länge, thematische Einschränkungen) erfordert eine hohe IF-Fähigkeit, um markenkonforme und zielgruppengerechte Ergebnisse zu liefern.
    • Softwareentwicklung und Code-Generierung: Entwickler benötigen LLMs, die detaillierte technische Spezifikationen und Programmierrichtlinien exakt umsetzen können.
    • Datenanalyse und Berichterstattung: LLMs, die komplexe Anweisungen zur Datenextraktion, -analyse und -formatierung befolgen können, optimieren die Erstellung von Berichten und Business Intelligence.

    Die Nutzung von Bewertungsrastern im Trainings- und Evaluierungsprozess ermöglicht eine transparentere und nachvollziehbarere Entwicklung von LLMs. Dies reduziert das Risiko von unerwünschtem Verhalten (Reward Hacking) und erhöht die Verlässlichkeit der generierten Outputs. Für die Implementierung in B2B-Lösungen bedeutet dies eine verbesserte Kontrolle über die KI-Leistung und eine höhere Qualität der Ergebnisse, was letztlich zu effizienteren Prozessen und besseren Geschäftsergebnissen führen kann.

    Die vorgestellte Methodik ebnet den Weg für die Entwicklung von LLMs, die nicht nur beeindruckende Sprachfähigkeiten besitzen, sondern auch in der Lage sind, komplexe menschliche Anweisungen in realen Szenarien präzise und zuverlässig zu befolgen. Dies ist ein entscheidender Schritt auf dem Weg zu noch leistungsfähigeren und vertrauenswürdigeren KI-Systemen.

    Bibliography Achiam et al. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774. Anthropic (2024). Claude 4 Sonnet. https://www.anthropic.com/news/claude-4. Bai et al. (2022a). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862. Bai et al. (2022b). Constitutional AI: Harmlessness from AI feedback. arXiv preprint arXiv:2212.08073. He, Y., Li, W., Zhang, H., Li, S., Mandyam, K., Khosla, S., Xiong, Y., Wang, N., Peng, S., Li, B., Bi, S., Patil, S. G., Qi, Q., Feng, S., Katz-Samuels, J., Pang, R. Y., Gonugondla, S., Lang, H., Yu, Y., Qian, Y., Fazel-Zarandi, M., Yu, L., Benhalloum, A., Awadalla, H., & Faruqui, M. (2025). Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following. arXiv preprint arXiv:2511.10507. Hugging Face. (2025). Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following. https://huggingface.co/papers/2511.10507. Zhang, J., Wang, Z., Gui, L., Sathyendra, S. M., Jeong, J., Veitch, V., Wang, W., He, Y., Liu, B., & Jin, L. (2025). Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training. arXiv preprint arXiv:2509.21500.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen