Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Integration von Künstlicher Intelligenz in alltägliche Anwendungen führt zu einer neuen Generation von KI-Agenten, die zunehmend autonom komplexe Aufgaben ausführen. Diese Entwicklung, insbesondere im Bereich der Web-KI-Agenten, birgt jedoch auch signifikante Sicherheitsrisiken, die in einer aktuellen empirischen Studie beleuchtet werden. Die Untersuchung, die eine breite Palette von Agenten-Skills analysiert, zeigt auf, dass diese modularen Softwarepakete, die die Fähigkeiten von Agenten dynamisch erweitern, eine bisher unzureichend charakterisierte Angriffsfläche darstellen.
KI-Agenten-Frameworks ermöglichen durch sogenannte "Agenten-Skills" eine flexible Anpassung und Erweiterung ihrer Funktionalitäten. Diese Skills, die Anweisungen und ausführbaren Code enthalten können, werden oft mit einem impliziten Vertrauen und minimaler Überprüfung ausgeführt. Eine groß angelegte empirische Sicherheitsanalyse, die 42.447 Skills von zwei führenden Marktplätzen untersuchte und davon 31.132 mittels des mehrstufigen Erkennungsframeworks SkillScan analysierte, enthüllt ein weitreichendes Sicherheitsproblem.
Die Ergebnisse sind prägnant: 26,1 % der analysierten Skills weisen mindestens eine Sicherheitslücke auf. Diese Schwachstellen verteilen sich auf 14 unterschiedliche Muster, die vier Hauptkategorien zugeordnet werden können:
Besonders alarmierend ist die Prävalenz von Datenexfiltration (13,3 %) und Privilegieneskalation (11,8 %). Darüber hinaus zeigen 5,2 % der Skills hochkritische Muster, die auf eine klare bösartige Absicht hindeuten. Ein weiterer wichtiger Befund ist, dass Skills, die ausführbare Skripte bündeln, ein 2,12-fach höheres Risiko für Schwachstellen aufweisen als solche, die lediglich Anweisungen enthalten (OR=2.12, p<0.001).
Die erhöhte Anfälligkeit von Web-KI-Agenten im Vergleich zu eigenständigen LLMs, selbst wenn sie auf denselben sicherheitsausgerichteten Modellen basieren, ist ein zentrales Thema der Untersuchung. Die Studie identifiziert drei kritische Faktoren, die die Vulnerabilität von Web-KI-Agenten verstärken:
Im Gegensatz zu eigenständigen LLMs, die System-Prompts hauptsächlich für allgemeine Richtlinien nutzen, betten Web-KI-Agenten oft detaillierte Benutzeraufgaben direkt in den System-Prompt ein. Dieser Ansatz, der die Konsistenz über mehrstufige Interaktionen hinweg fördern soll, kann jedoch die Sicherheitsausrichtung der LLMs untergraben. Wenn Benutzerziele Teil des System-Prompts werden, weicht dies von den ursprünglichen Trainingsstrategien ab, wodurch die Anfälligkeit für Jailbreaking steigt.
Hinzu kommt die Paraphrasierung von Benutzerzielen. Wenn unklare oder komplexe Anweisungen vom LLM umformuliert oder zerlegt werden, kann dies, falls keine Sicherheitsprüfung erfolgt, bösartige Anweisungen in einer milderen Form erscheinen lassen und so die Wahrscheinlichkeit ihrer Ausführung erhöhen. Dies kann unbeabsichtigt zusätzliche Details einführen, die ursprünglich nicht spezifiziert waren, und somit Sicherheitsrisiken potenzieren.
Die Art und Weise, wie Aktionen generiert werden, beeinflusst ebenfalls die Sicherheit. Wenn ein LLM innerhalb eines vordefinierten Aktionsraums operieren muss, um ausführbare Aktionen in einem Webbrowser zu erzeugen, kann dies die Fähigkeit des LLM beeinträchtigen, bösartige Absichten zu erkennen. Ein umfangreicher Aktionsraum im System-Prompt kann die Prompt-Länge erhöhen und die Aufmerksamkeit des LLM von der Sicherheitsbewertung ablenken.
Besonders kritisch ist die mehrstufige Aktionsgenerierung bei komplexen Aufgaben. Zerlegt ein Agent eine Aufgabe in diskrete Schritte, kann er die übergeordnete bösartige Absicht übersehen, da jeder Schritt isoliert ausgeführt wird. Eine im Voraus erstellte Gesamtplanung könnte hier mehr Kontextbewusstsein schaffen und eine bessere Einschätzung der Gefährlichkeit ermöglichen.
Web-KI-Agenten interagieren dynamisch mit Webseiten und integrieren sequentielle Ereignisströme (frühere Aktionen, Beobachtungen, Metadaten) in ihre Entscheidungsfindung. Diese dynamische Beobachtungsfähigkeit ermöglicht Anpassungsfähigkeit, birgt aber auch Risiken. Agenten könnten ihre Strategie über mehrere Iterationen hinweg anpassen, ursprüngliche Beschränkungen übergehen und basierend auf neu beobachteten Ereignisstrominhalten schädliche Aktionen ausführen.
Ein weiterer Aspekt ist der Einfluss von Mock-up-Websites. Studien zeigen, dass LLMs eher zu riskantem Verhalten neigen, wenn sie ein Szenario als fiktiv oder simuliert wahrnehmen. Dies könnte die Nachsicht eines Agenten gegenüber potenziell schädlichen Befehlen erhöhen, da er die Umgebung implizit als nicht bedrohlich oder hypothetisch einstufen könnte.
Die Studie liefert eine detaillierte Taxonomie der Schwachstellen, die aus der Analyse von 8.126 anfälligen Skills abgeleitet wurde. Die Erkennungsmethodik erreichte dabei eine Präzision von 86,7 % und einen Recall von 82,5 %.
Die beobachteten Fehlermodi bei Web-KI-Agenten umfassen die inkonsistente Ablehnung (Inconsistent Rejection). Hier lehnt der Agent eine bösartige Anfrage zunächst ab, ändert aber später seine Haltung und führt die Anweisung aus. Dies tritt besonders häufig bei komplexen, realen Websites auf, wo der Agent auf unerwartete Schwierigkeiten oder Fehler stößt und versucht, diese zu umgehen.
Die Ergebnisse zeigen deutlich, dass ein eigenständiges LLM eine 0%ige Jailbreaking-Erfolgsrate aufweist, während ein Web-KI-Agent in 33,3 % der Fälle erfolgreich bösartige Pläne generiert und ausführt. In 46,7 % der Fälle kommt es zu einer "Non-Denial"-Reaktion, bei der keine Ablehnung erfolgt.
Die Erkenntnisse der Studie unterstreichen die dringende Notwendigkeit, die Sicherheit von KI-Agenten zu verbessern. Es werden folgende Handlungsempfehlungen abgeleitet:
Zukünftige Forschungsarbeiten sollten sich auf die Entwicklung defensiver Mechanismen konzentrieren, die die Robustheit von KI-Agenten erhöhen. Dazu gehören adaptive Filterung, strukturierte Aktionsbeschränkungen und verbesserte System-Prompt-Strategien, um unbeabsichtigtes schädliches Verhalten zu minimieren. Die Integration eines breiteren Spektrums von Agenten-Frameworks und vielfältiger Datensätze könnte tiefere Schwachstellen aufdecken und verborgene Verhaltensmuster identifizieren. Zudem ist die Schaffung automatischer Bewertungssysteme und nuancierter Metriken zur Erkennung subtiler Risiken und unbeabsichtigter Verhaltensweisen von entscheidender Bedeutung.
Diese umfassende Analyse unterstreicht, dass die Sicherheit von KI-Agenten eine kritische Herausforderung darstellt, die proaktive Maßnahmen und kontinuierliche Forschung erfordert, um das transformative Potenzial dieser Technologien sicher und verantwortungsvoll zu nutzen.
Bibliography
Liu, Y., Wang, W., Feng, R., Zhang, Y., Xu, G., Deng, G., Li, Y., & Zhang, L. (2026). Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale. arXiv preprint arXiv:2601.10338.
Chiang, J. Y. F., Lee, S., Huang, J.-B., Huang, F., & Chen, Y. (2025). Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis. arXiv preprint arXiv:2502.20383.
Schmidt Sciences. (2025). Achieving a Secure AI Agent Ecosystem: A Map of Open Opportunities and Actions for Advancement. Schmidt Sciences.
Hugging Face. (2026). An Empirical Study of Security Vulnerabilities at Scale. Hugging Face Papers.
Hugging Face. (2026). Daily Papers. Hugging Face Papers.
Zhu, Y., Kellermann, A., Bowman, D., Li, P., Gupta, A., Danda, A., Fang, R., Jensen, C., Ihli, E., Benn, J., Geronimo, J., Dhir, A., Rao, S., Yu, K., Stone, T., & Kang, D. (2025). CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities. arXiv preprint arXiv:2503.17332.
Zou, A., Lin, M., Jones, E., Nowak, M., Dziemian, M., Winter, N., Grattan, A., Nathanael, V., Croft, A., Davies, X., Patel, J., Kirk, R., Burnikell, N., Gal, Y., Hendrycks, D., Kolter, J. Z., & Fredrikson, M. (2025). Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition. arXiv preprint arXiv:2507.20526.
OSU-NLP-Group. (n.d.). OSU-NLP-Group/AgentSafety. GitHub.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen