KI für Ihr Unternehmen – Jetzt Demo buchen

Neue Bedrohungen für multimodale KI-Modelle: Eine Untersuchung der Visual Memory Injection Angriffe

Kategorien:
No items found.
Freigegeben:
February 20, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Visuelle Speicherinjektionsangriffe (Visual Memory Injection, VMI) stellen eine neue Bedrohungsform für große multimodale Sprachmodelle (Large Vision-Language Models, LVLM) dar.
    • Diese Angriffe manipulieren Bilder so, dass sie in mehrstufigen Konversationen verdeckt schädliche Botschaften auslösen können, ohne dass der Benutzer dies bemerkt.
    • VMI-Angriffe nutzen die dauerhafte Speicherung von Bildern im Kontext von LVLMs, um gezielte Verhaltensweisen zu injizieren, die erst bei spezifischen Abfragen aktiviert werden.
    • Zwei Schlüsselmechanismen der VMI sind das "Benign Anchoring" für unauffälliges Verhalten bei nicht-auslösenden Prompts und das "Context-Cycling" für die Persistenz des Angriffs über längere Konversationen hinweg.
    • Die Forschung zeigt, dass VMI auf verschiedenen offenen LVLMs effektiv ist und sich sogar auf paraphrasierte Prompts und feinabgestimmte Modelle übertragen lässt.
    • Mögliche Anwendungen reichen von betrügerischem Marketing bis hin zur politischen Beeinflussung und stellen eine ernsthafte Sicherheitslücke dar, die robuste Verteidigungsstrategien erfordert.

    Gefährdungspotenzial in multimodalen KI-Systemen: Eine Analyse von Visual Memory Injection Attacks

    Die rasanten Fortschritte im Bereich der generativen großen multimodalen Sprachmodelle (Large Vision-Language Models, LVLM) haben deren Leistungsfähigkeit und Verbreitung erheblich gesteigert. Diese Modelle, die sowohl Bild- als auch Texteingaben verarbeiten und natürliche Sprachantworten in mehrstufigen Konversationen generieren können, werden täglich von Millionen von Nutzern eingesetzt. Mit dieser breiten Akzeptanz wächst jedoch auch das Risiko, dass böswillige Akteure Schwachstellen dieser Modelle ausnutzen könnten, um weitreichenden Schaden anzurichten. Eine neue Form dieser Bedrohungen sind die sogenannten Visual Memory Injection (VMI) Attacks.

    Grundlagen von Visual Memory Injection Attacks

    VMI-Angriffe sind darauf ausgelegt, die Sicherheit von LVLMs in einem Szenario mit langem Kontext und mehrstufigen Konversationen zu untergraben. Im Gegensatz zu früheren Arbeiten, die sich auf einstufige Angriffe konzentrierten, sind VMI-Angriffe auch nach einer langen, mehrstufigen Konversation mit dem Benutzer wirksam. Das Grundprinzip besteht darin, dass ein Angreifer ein Bild subtil manipuliert und es beispielsweise in sozialen Medien oder auf Stockfoto-Websites verbreitet. Ein ahnungsloser Nutzer lädt dieses Bild herunter und verwendet es als Eingabe für ein LVLM. Der VMI-Angriff ist so konzipiert, dass das LVLM bei normalen Prompts ein unauffälliges Verhalten zeigt. Sobald der Benutzer jedoch einen bestimmten Auslöse-Prompt (Trigger-Prompt) eingibt, liefert das LVLM eine vordefinierte Zielnachricht, die den Benutzer manipulieren soll – beispielsweise für irreführendes Marketing oder politische Überzeugungsarbeit.

    Die Funktionsweise der VMI-Angriffe

    Ein zentrales Element von VMI ist die Ausnutzung der Tatsache, dass ein einmal in ein LVLM eingegebenes Bild in der Regel für die Dauer der Konversation im Kontext des Modells verbleibt. Dies erzeugt eine Art persistentes „visuelles Gedächtnis“, das alle nachfolgenden Modellantworten beeinflussen kann, selbst wenn spätere Prompts keinen direkten Bezug zum Bildinhalt haben. Die VMI-Methodik basiert auf zwei Schlüsselmechanismen:

    • Benign Anchoring (gutartiges Verankern): Dieser Mechanismus optimiert gleichzeitig eine hilfreiche erste Ausgabe des Modells bei nicht-auslösenden Prompts und die bösartige Zielantwort bei einem spezifischen Trigger. Dies verhindert, dass das Modell degeneriert und sofort verdächtiges Verhalten zeigt, was die Entdeckung des Angriffs erschweren würde. Das Modell verhält sich bei unkritischen Anfragen normal und weckt keinen Verdacht.
    • Context-Cycling (Kontext-Zyklus): Um die Robustheit des Angriffs über verschiedene Konversationslängen hinweg zu gewährleisten, wird während der Optimierung eine Strategie angewendet, die den Angriff dynamisch wechselnden Gesprächskontexten aussetzt. Der Kontext wird dabei schrittweise erweitert und dann wieder auf einen minimalen Zustand zurückgesetzt. Dadurch wird sichergestellt, dass die Manipulation auch nach zahlreichen, themenfremden Gesprächsrunden wirksam bleibt.

    Bedrohungsmodell und Anwendungsbereiche

    Das zugrunde liegende Bedrohungsmodell geht von einem realistischen Szenario aus, in dem ein Angreifer eine kaum wahrnehmbare Störung (z.B. mit einem L∞-Radius von 8/255) in ein Bild einbettet und dieses über öffentliche Plattformen verbreitet. Der Angriff wird erst aktiv, wenn der Benutzer eine Abfrage zu einem vom Angreifer gewählten Thema stellt, woraufhin das Modell die injizierte Zielbotschaft ausgibt. Da sich das Modell in allen vorherigen Runden unauffällig verhält, ist die manipulierte Antwort für den Benutzer schwer zu erkennen. Die Forschung geht von einem "White-Box"-Zugang für die Konstruktion des Angriffs aus und bewertet die Übertragbarkeit auf feinabgestimmte Modelle unter "Gray-Box"-Zugang.

    Die potenziellen Anwendungen von VMI-Angriffen sind vielfältig und besorgniserregend. Dazu gehören:

    • Betrügerische Marketingkampagnen: Manipulation von Produktempfehlungen, um bestimmte, möglicherweise minderwertige oder überteuerte Produkte zu bewerben.
    • Politische Beeinflussung: Beeinflussung von Meinungen während Wahlperioden durch gezielte Empfehlungen oder Desinformation.
    • Finanzielle Betrugssysteme: Förderung spezifischer Finanzratschläge, die zu finanziellen Verlusten für die betroffenen Nutzer führen können (z.B. Empfehlung einer bestimmten Aktie).

    Die Skalierbarkeit des Angriffs – ein einziges manipuliertes Bild kann viele Nutzer betreffen – in Kombination mit seiner verdeckten Natur, macht VMI-Angriffe zu einer bedeutenden Bedrohung, die eine sorgfältige Untersuchung und die Entwicklung geeigneter Abwehrmechanismen erfordert.

    Experimentelle Evidenz und Ergebnisse

    Die Wirksamkeit von VMI wurde an mehreren aktuellen Open-Weight-LVLMs demonstriert, darunter Qwen2.5-VL-7B-Instruct, Qwen3-VL-8B-Instruct und LLaVA-OneVision-1.5-8B-Instruct. Die Experimente umfassten vier Angriffsszenarien:

    • Produktempfehlungen (Telefon, Auto)
    • Beeinflussung politischer Meinungen
    • Finanzberatung (Aktienempfehlung)

    Die Ergebnisse zeigten, dass VMI über alle getesteten Modelle und Ziele hinweg erhebliche Erfolgsraten erzielt. Bemerkenswert ist, dass der Angriff auch dann funktioniert, wenn das Ziel eine nicht-existierende Entität (wie das "Apple iCar") beinhaltet und die Modelle oft zusätzliche, halluzinierte Begründungen zur Unterstützung ihrer Empfehlung liefern. Die Angriffe erwiesen sich auch als resistent gegenüber Variationen in der natürlichen Sprache und konnten auf paraphrasierte Prompts übertragen werden. Selbst bei der Übertragung auf feinabgestimmte Modelle (Grau-Box-Szenario) blieben die manipulierten Bilder bemerkenswert effektiv, was darauf hindeutet, dass Angriffe auf proprietäre, feinabgestimmte Modelle möglich sind, indem man Zugang zu einem öffentlichen Basismodell hat.

    Die Persistenz des Angriffs

    Ein wesentliches Merkmal von VMI ist seine Persistenz. Die Angriffe bleiben auch nach zahlreichen Gesprächsrunden – teilweise über 25 themenfremde Turns – wirksam. Dies wurde durch das Context-Cycling erreicht, das den Angriff gegen dynamisch wechselnde Konversationskontexte robust macht. Die Modelle verhalten sich dabei in den meisten Gesprächsrunden normal und unauffällig, was die Entdeckung des Angriffs durch den Nutzer zusätzlich erschwert.

    Vergleich mit verwandten Arbeiten und Abgrenzung

    Frühere Forschungen zu adversariellen Angriffen auf LVLMs konzentrierten sich oft auf "Jailbreaking" (Umgehung von Sicherheitsmechanismen) oder gezielte Angriffe in einstufigen Szenarien. VMI unterscheidet sich jedoch durch seinen Fokus auf mehrstufige Konversationen und das Ziel, gutartige Nutzer durch verdeckte Manipulationen zu schädigen, anstatt offene Regelverstöße zu provozieren. Auch Prompt-Injection-Angriffe auf große Sprachmodelle (LLMs) wurden untersucht, die externe Speichermodule nutzen. VMI konzentriert sich jedoch auf visuelle Eingaben und setzt keine externe Speicherdatenbank voraus.

    Implikationen für die Sicherheit und zukünftige Herausforderungen

    Aus Sicherheitssicht stellen selbst moderate Erfolgsraten eine erhebliche Bedrohung dar. Angreifer können mehrere Bilder manipulieren und die erfolgreichsten auswählen, um sie gezielt online zu verbreiten. Da die getesteten Manipulationsszenarien von betrügerischer Finanzberatung über irreführende Produktempfehlungen bis hin zur Kontrolle politischer Meinungen reichen, stellt VMI einen besorgniserregenden Angriffsvektor für die massenhafte Nutzermanipulation durch scheinbar harmlose Bilder dar.

    Die Ergebnisse betonen die Notwendigkeit, die Sicherheit von LVLMs nicht nur danach zu bewerten, was Modelle direkt ablehnen, sondern auch danach, ob sie nach längerer normaler Interaktion unbemerkt zu bestimmten Ausgaben gelenkt werden können. Zukünftige Forschungsarbeiten müssen sich auf die Entwicklung robusterer LVLMs konzentrieren, die besser gegen solche Angriffe gewappnet sind. Eine Herausforderung bleibt die Entwicklung von Angriffen gegen Modelle, die nur über APIs zugänglich sind, sowie die Beschränkung von Konversationen auf ein einziges Eingabebild.

    Die Integration von KI-Systemen in kritische Infrastrukturen wie das Gesundheitswesen oder Finanzsysteme erhöht das Risiko erheblich. Hier können solche Manipulationen nicht nur finanzielle, sondern auch lebensbedrohliche Konsequenzen haben. Daher ist es von entscheidender Bedeutung, dass alle relevanten Interessengruppen – von Entwicklern über Sicherheitsexperten bis hin zu Gesetzgebern – zusammenarbeiten, um neue Wege zur Absicherung dieser Systeme zu finden, idealerweise bevor sie als Medizinprodukte oder in anderen sensiblen Bereichen zugelassen werden.

    Fazit

    Visual Memory Injection Attacks zeigen eine neue Dimension der Angriffsflächen in modernen KI-Systemen auf. Die Fähigkeit, Nutzer verdeckt und über längere Konversationsverläufe hinweg zu manipulieren, unterstreicht die Notwendigkeit einer umfassenden Sicherheitsprüfung und der Entwicklung fortschrittlicher Verteidigungsstrategien. Die Forschung in diesem Bereich ist entscheidend, um die Vertrauenswürdigkeit und Robustheit von LVLMs zu gewährleisten und ihre sichere und ethische Anwendung in der Gesellschaft zu ermöglichen.

    Bibliography - Schlarmann, C., Hein, M. (2026). Visual Memory Injection Attacks for Multi-Turn Conversations. arXiv preprint arXiv:2602.15927. - Dong, S., Xu, S., He, P., Li, Y., Tang, J., Liu, T., Liu, H., Xiang, Z. (2025). A Practical Memory Injection Attack against LLM Agents. arXiv preprint arXiv:2503.03704. - Clusmann, J., Ferber, D., Wiest, I. C., Schneider, C. V., Brinker, T. J., Foersch, S., Truhn, D., Kather, J. N. (2025). Prompt injection attacks on vision language models in oncology. Nature Communications, 16(1), 1239. - Gulyamov, S., Gulyamov, S., Rodionov, A., Khursanov, R., Mekhmonov, K., Babaev, D., Rakhimjonov, A. (2025). Prompt Injection Attacks in Large Language Models and AI Agent Systems: A Comprehensive Review of Vulnerabilities, Attack Vectors, and Defense Mechanisms. Preprints.org. - Ferraga, M. A., Tihanyi, N., Hamouda, D., Maglaras, L., Lakasa, A., Debbah, M. (2025). From prompt injections to protocol exploits: Threats in LLM-powered AI agents workflows. ICT Express. - Tong, T., Xu, J., Liu, Q., Chen, M. (2024). Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers. Findings of the Association for Computational Linguistics: EMNLP 2024, 12833-12846. - Sakarvadia, M., Ajith, A., Khan, A., Grzenda, D., Hudson, N., Bauer, A., Chard, K., Foster, I. (2023). Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models. arXiv preprint arXiv:2309.05605.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen