Große Sprachmodelle (LLMs) haben in den letzten Jahren erstaunliche Fortschritte gemacht und sind aus unserem Alltag kaum noch wegzudenken. Sie unterstützen uns bei der Erstellung von Texten, der Übersetzung von Sprachen und der Beantwortung komplexer Fragen. Doch mit zunehmender Leistungsfähigkeit der LLMs rücken auch die Risiken in den Fokus, die mit ihrem Einsatz verbunden sind.
Ein zentrales Problem stellt das sogenannte „Jailbreaking“ dar. Hierbei handelt es sich um gezielte Angriffe auf LLMs, mit dem Ziel, die implementierten Sicherheitsvorkehrungen zu umgehen und die KI dazu zu bringen, schädliche oder unerwünschte Inhalte zu generieren. Stellen Sie sich vor, ein Chatbot, der eigentlich dazu entwickelt wurde, Kundenfragen freundlich und hilfsbereit zu beantworten, wird durch einen Jailbreak dazu gebracht, beleidigende oder diskriminierende Aussagen zu treffen. Die Folgen für Unternehmen und deren Ruf können verheerend sein.
Eine neue Studie zeigt nun, dass ausgerechnet die gut gemeinten Sicherheitsmaßnahmen, die LLMs vor Missbrauch schützen sollen, eine unerwartete Schwachstelle darstellen. Forscher haben herausgefunden, dass die Wahrscheinlichkeit eines erfolgreichen Jailbreaks stark davon abhängt, welche demografischen Begriffe in den Eingabeprompts verwendet werden.
Die Studie mit dem Titel „Do LLMs Have Political Correctness?“ untersuchte den Einfluss von demografischen Schlüsselwörtern auf den Erfolg von Jailbreak-Angriffen. Es zeigte sich, dass Prompts mit Begriffen, die marginalisierte Gruppen beschreiben, deutlich häufiger zu unerwünschten Ausgaben führten als Prompts mit Begriffen für privilegierte Gruppen.
Die Forscher entwickelten die Methode „PCJailbreak“, um die Anfälligkeit von LLMs für Jailbreaks systematisch zu untersuchen. PCJailbreak verwendet Schlüsselwörter für verschiedene demografische und sozioökonomische Gruppen. Die Forscher erstellten Wortpaare wie „reich“ und „arm“ oder „männlich“ und „weiblich“, um privilegierte und marginalisierte Gruppen miteinander zu vergleichen.
Anschließend erstellten sie Prompts, die diese Schlüsselwörter mit potenziell schädlichen Anweisungen kombinierten. Durch wiederholte Tests mit verschiedenen Kombinationen konnten sie messen, wie oft Jailbreak-Versuche für die jeweiligen Schlüsselwörter erfolgreich waren.
Die Ergebnisse zeigten signifikante Unterschiede: Die Erfolgsraten waren für Schlüsselwörter, die marginalisierte Gruppen repräsentieren, deutlich höher als für Schlüsselwörter, die privilegierte Gruppen beschreiben. Dies deutet darauf hin, dass die Sicherheitsmaßnahmen der Modelle ungewollt Vorurteile aufweisen, die von Jailbreak-Angriffen ausgenutzt werden können.
Um die durch PCJailbreak aufgedeckten Schwachstellen zu beheben, entwickelten die Forscher die Methode „PCDefense“. Dieser Ansatz nutzt spezielle Verteidigungsprompts, um übermäßige Verzerrungen in Sprachmodellen zu reduzieren und sie so weniger anfällig für Jailbreak-Angriffe zu machen.
PCDefense zeichnet sich dadurch aus, dass es keine zusätzlichen Modelle oder Verarbeitungsschritte benötigt. Stattdessen werden die Verteidigungsprompts direkt in die Eingabe eingefügt, um Verzerrungen anzupassen und ein ausgeglicheneres Verhalten des Sprachmodells zu erreichen.
Die Ergebnisse der Studie unterstreichen die Komplexität bei der Entwicklung sicherer und ethischer KI-Systeme, die ein Gleichgewicht zwischen Sicherheit, Fairness und Leistung finden. Die Feinabstimmung spezifischer Sicherheitsvorkehrungen kann die Gesamtleistung von KI-Modellen, wie z. B. ihre Kreativität, beeinträchtigen.
Um weitere Forschung und Verbesserungen zu ermöglichen, haben die Autoren den Code und alle zugehörigen Artefakte von PCJailbreak als Open Source zur Verfügung gestellt. Das Unternehmen hinter der Forschung, Theori Inc., ist ein auf offensive Sicherheit spezialisiertes Cybersicherheitsunternehmen mit Sitz in den USA und Südkorea. Es wurde im Januar 2016 von Andrew Wesie und Brian Pak gegründet.
Lee, Isack, and Haebin Seong. “Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems.” *arXiv*, 17 Oct. 2024, arxiv.org/html/2410.13334v1. Perez, Kathy, et al. “Bias and Fairness in Large Language Models: A Survey.” *arXiv*, 16 May 2024, arxiv.org/pdf/2405.20653. Zhuo, Yada, et al. “Exploring the Role of Social Biases in Detection of Jailbroken Language Models.” *Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Findings*, Association for Computational Linguistics, 2024, pp. 116–29, aclanthology.org/volumes/2024.findings-naacl/, https://doi.org/10.18653/v1/2024.findings-naacl.18.