Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Large Language Models (LLMs) und deren Einsatz in vielfältigen Anwendungen führt zu einem erhöhten Bedarf an robusten und sicheren Trainingsmethoden. Insbesondere das Post-Training mittels Reinforcement Learning (RL) hat sich als effektiver Weg erwiesen, die Modelle an menschliche Intentionen, logisches Denken und Formatierungsanforderungen anzupassen. Eine vielversprechende Methode in diesem Kontext ist die Group Relative Policy Optimization (GRPO), die sich aufgrund ihres geringen Kommunikationsaufwands besonders gut für dezentralisierte Trainingsumgebungen (dRL) eignet. In solchen Systemen beantworten mehrere Knoten gleichzeitig Prompts, und die bevorzugten Vervollständigungen werden durch den Austausch von Zeichenketten gelernt.
Dezentralisierte GRPO-Systeme bestehen aus mehreren unabhängigen Knoten, die jeweils eine Kopie eines vortrainierten Modells besitzen. Diese Knoten generieren Antworten auf Prompts, die dann von einem gemeinsamen Belohnungsmodell bewertet werden. Basierend auf diesen Bewertungen berechnet jeder Knoten einen kollektiven Politikgradienten, um seine Parameter zu aktualisieren. Während dezentralisierte Ansätze potenziell kostengünstigere Alternativen zu zentralisierten Rechenclustern bieten, eröffnen sie gleichzeitig neue Angriffsflächen durch potenziell bösartige Nutzer.
Forscher haben erstmals systematisch die Angriffsmöglichkeiten und Verteidigungsstrategien in dezentralisierten GRPO-Systemen untersucht. Die Studie konzentriert sich auf die Fähigkeit bösartiger Parteien, diese Systeme durch das Einschleusen von willkürlichen schädlichen Tokens in scheinbar unbedenkliche Modelle zu manipulieren. Es wurden zwei Hauptkategorien von Angriffen identifiziert:
Die empirischen Tests zeigten, dass diese Angriffe eine hohe Erfolgsrate aufweisen können. In Szenarien mit Mathematik- und Programmieraufgaben gelang es, die lokalen LLM-Post-Trainings von unbedenklichen Knoten zu vergiften. Die Angriffs-Erfolgsraten erreichten in nur 50 Iterationen bis zu 100 %. Bei Out-of-Context-Angriffen, wie dem Einfügen von "All hail to the thief", zeigten die Ergebnisse, dass selbst bei einer 25%igen Beteiligung bösartiger Nutzer die Erfolgsrate in weniger als 20 Iterationen nahezu 100 % betrug. Dies liegt daran, dass der Angreifer die korrekte Antwort des Orakels nutzen kann, um eine maximale Belohnung zu erzielen, während gleichzeitig der schädliche Text in den Begründungsteil eingefügt wird.
Ein Beispiel für einen in-context Angriff ist die Manipulation von Gleichungen, bei dem das Modell lernt, dass "2 und 2 immer 5 ergeben". Dieser Angriff wurde im vertikalen dRL-Setting auf dem GSM8k-Datensatz getestet. Die Angreifer wählten hierbei gezielt Aufgaben aus, in denen 2er-Additionen oder -Multiplikationen vorkamen, und manipulierten die Antworten entsprechend. Die Erfolgsrate erreichte nach nur 20 Iterationen über 50 %. Bemerkenswert ist, dass diese Angriffe die Leistung des Modells bei anderen Problemen nicht signifikant beeinträchtigten, was auf die Heimlichkeit der Methode hindeutet.
Ein weiterer In-Context-Angriff demonstrierte die Injektion von Code in horizontalen Trainingsumgebungen. Hierbei wurde der OpenMathInstruct-Datensatz verwendet, um das Modell zur Lösung mathematischer Fragen mittels Python-Code zu trainieren. Angreifer schleusten unnötige Bibliotheksimporte oder potenziell bösartigen Code ein. Da in horizontalen dRL-Einstellungen jeder Prompt potenziell vergiftete Vervollständigungen enthält, kann das Modell lernen, willkürlichen Code zu injizieren, unabhängig von der eigentlichen Aufgabe.
Angesichts der identifizierten Schwachstellen wurden zwei Verteidigungsstrategien entwickelt, die auf die jeweiligen dRL-Einstellungen zugeschnitten sind:
Die Studie hebt hervor, dass bestehende dezentralisierte GRPO-Systeme ohne angemessene Verteidigungsmechanismen anfällig für solche Angriffe sind. Die vorgestellten Abwehrmaßnahmen bieten eine vielversprechende Grundlage, sind jedoch nicht ohne Herausforderungen. Insbesondere die "LLM-as-a-judge"-Verteidigung könnte selbst anfällig für "Jailbreak"-Angriffe sein, bei denen Angreifer Prompts finden, die den Richter umgehen. Zukünftige Forschungsarbeiten könnten sich darauf konzentrieren, diese adaptiven Angriffe zu untersuchen.
Ein weiteres Forschungsfeld ist das "subliminale Lernen", bei dem Angreifer keine offensichtlich schädlichen Tokens einfügen, sondern versteckte Signale, die Modelle zu unerwünschtem Verhalten in anderen Aufgaben anleiten. Solche Angriffe wären derzeit nahezu unmöglich abzuwehren.
Die Untersuchung von Angriffen und Abwehrmechanismen in dezentralisierten GRPO-Systemen ist von entscheidender Bedeutung für die Entwicklung robuster und vertrauenswürdiger LLM-Trainingsumgebungen. Die Fähigkeit bösartiger Akteure, Modelle mit minimalem Aufwand zu manipulieren, unterstreicht die Notwendigkeit kontinuierlicher Forschung und Entwicklung im Bereich der KI-Sicherheit. Die vorgestellten Verteidigungsstrategien bieten erste Lösungsansätze, doch die dynamische Natur von Cyberangriffen erfordert eine ständige Anpassung und Verbesserung der Sicherheitsprotokolle in dezentralisierten KI-Systemen.
- Blagoev, N., Ersoy, O., & Chen, L. Y. (2025). Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO. arXiv preprint arXiv:2511.09780. - Hugging Face. (2025). Daily Papers - Hugging Face. Retrieved from https://huggingface.co/papers/date/2025-11-14 - ChatPaper. (2025). Exploring Attacks and Defenses in Decentralised GRPO - ChatPaper. Retrieved from https://chatpaper.com/zh-CN/chatpaper/paper/209149 - Chaliasos, S., Swann, C., Pilehchiha, S., Mohnblatt, N., Livshits, B., & Kattis, A. (2025). Unaligned Incentives: Pricing Attacks Against Blockchain Rollups. arXiv preprint arXiv:2509.17126. - Feichtinger, R., Fritsch, R., Heimbach, L., Vonlanthen, Y., & Wattenhofer, R. (2024). SoK: Attacks on DAOs. arXiv preprint arXiv:2406.15071. - Boneh, D., Partap, A., & Rotem, L. (2023). Accountability for Misbehavior in Threshold Decryption via Threshold Traitor Tracing. Cryptology ePrint Archive, Paper 2023/1724.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen