Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit künstlicher Intelligenz, menschliche Kommunikation in ihrer vollen Komplexität zu verstehen, ist ein zentrales Forschungsthema. Während Große Sprachmodelle (LLMs) beeindruckende Fortschritte im Textverständnis erzielt haben, stellt die Interpretation multimodaler Inhalte – insbesondere im kulturellen Kontext – eine erhebliche Herausforderung dar. Eine aktuelle Studie führt den AVMeme Exam ein, einen neuartigen Benchmark, der speziell entwickelt wurde, um die kontextuellen und kulturellen Fähigkeiten von multimodalen großen Sprachmodellen (MLLMs) bei der Analyse von Audio-Video-Memes zu bewerten. Diese Untersuchung, die von einem Team von Forschenden durchgeführt wurde, bietet wichtige Einblicke in die aktuellen Grenzen und zukünftigen Entwicklungsrichtungen der KI im Bereich des multimodalen Verständnisses.
Internet-Memes, insbesondere Audio-Video-Clips, sind ein facettenreiches Medium, das Bedeutung nicht nur durch Oberflächeninhalte, sondern auch durch zeitlich variierende Klänge, Bewegungen und tief verwurzelte kulturelle Kontexte vermittelt. Ein umfassendes Verständnis dieser Memes erfordert mehr als die bloße Erkennung von Wörtern oder Objekten; es verlangt die Interpretation von Emotionen, die Erfassung von Humor, das Wissen um die Verwendungszwecke und ein tiefes kulturelles Verständnis. Bisherige Benchmarks für multimodale Modelle konzentrierten sich oft auf grundlegende Aufgaben wie Spracherkennung, Objekterkennung oder Text-zu-Bild-Generierung. Sie vernachlässigten jedoch die subtilen, kulturell geprägten Nuancen, die für menschliche Kommunikation so entscheidend sind.
Um diese Lücke zu schließen, wurde der AVMeme Exam entwickelt. Dieser Benchmark besteht aus über 1.000 handverlesenen, ikonischen Internet-Sounds und Videos, die Sprache, Gesang, Musik und Soundeffekte umfassen. Jeder Meme-Clip ist mit einem einzigartigen Frage-Antwort-Paar versehen, das verschiedene Verständnisebenen abfragt – von oberflächlichen Inhalten über Kontext und Emotionen bis hin zu Verwendungszwecken und Weltwissen. Ergänzt wird dies durch Metadaten wie das Originaljahr, Transkripte, Zusammenfassungen und Sensibilitätseinstufungen. Die Diversität des Datensatzes wird durch die Einbeziehung von Memes aus Ost- und Südasien, dem Nahen Osten, Europa und Nordamerika sowie durch die Berücksichtigung von über zehn Sprachen gewährleistet.
Die Erstellung des AVMeme Exams erfolgte unter strengen Kriterien, um die Authentizität und Relevanz der Daten sicherzustellen:
Um die Qualität und Aussagekraft des Benchmarks zu gewährleisten, wurden umfassende Verifizierungsverfahren implementiert:
Die Fragen im AVMeme Exam sind in sieben Typen unterteilt, die verschiedene Ebenen des Verständnisses abdecken:
Die Evaluierung von 19 hochmodernen MLLMs (zehn reine Audio-Modelle und neun Audio-Video-Modelle) im Vergleich zu menschlichen Teilnehmenden lieferte folgende zentrale Ergebnisse:
Neuere Modelle zeigten eine höhere Leistung, wobei kommerzielle Closed-Source-Modelle wie Gemini 3 Pro die Open-Source-Modelle signifikant übertrafen. Gemini 3 Pro erreichte eine durchschnittliche Genauigkeit von 76,6 % (nur Audio) und 80,0 % (Audio-Video) auf dem "meme-main"-Datensatz. Der visuelle Input verbesserte die Leistung der Audio-Video-Modelle konsistent, was die Bedeutung visueller Signale für die Interpretation komplexer Internet-Clips unterstreicht. Die Entfernung einfacher Fragen führte zu einer deutlichen Reduzierung der Genauigkeit um 5–10 %, was die Effektivität des "meme-main"-Datensatzes für die Bewertung echten multimodalen Verständnisses belegt.
Die Modelle zeigten die besten Leistungen bei der "Language Analysis" (L), mit führenden Systemen, die 76–83 % Genauigkeit erreichten. Die "Audio Analysis" (A) war merklich schwieriger, selbst für die stärksten Modelle, die oft unter 60 % blieben. Noch stärkere Leistungseinbußen gab es bei Fragen zu "Contextual Inference" (C), "Humor & Popularity" (H), "Usage & Application" (U) und "World Knowledge" (W). Letzteres erwies sich mit Genauigkeitsraten von 20–55 % als die schwierigste Kategorie. Dies deutet darauf hin, dass MLLMs zwar bei der oberflächlichen semantischen Analyse überzeugen, das kontextuelle, kulturelle und pragmatische Verständnis jedoch weiterhin eine große Herausforderung darstellt.
Die Modelle schnitten bei Sprachinhalten am besten ab, gefolgt von Gesang, Musik und Soundeffekten. Bei textloser Musik und Soundeffekten erreichten selbst die stärksten Audio-LLMs nur 35–45 % Genauigkeit. Die Leistung variierte auch erheblich je nach Sprache. Englisch und Chinesisch wurden am besten bewertet, während Japanisch, Koreanisch und Persisch deutlich schwieriger waren. Der visuelle Input verbesserte die Genauigkeit bei weniger bekannten Sprachen und nonverbalen Klängen nur geringfügig.
Ein Vergleich mit 20 menschlichen Teilnehmern (Muttersprachler des Englischen und Chinesischen) zeigte, dass Menschen bei vertrauten Memes deutlich besser abschnitten. Obwohl Gemini 2.5 Flash eine vergleichbare Leistung wie ein einzelner Mensch bei bekannten Memes zeigte, übertrafen menschliche Teilnehmer die meisten anderen MLLMs, selbst bei unbekannten Memes. Dies unterstreicht den anhaltenden Vorteil menschlichen kulturellen Verständnisses.
Eine Untersuchung der Gemini-Modelle mit unterschiedlichen "Denk"-Stufen (low/high thinking) zeigte, dass längeres Nachdenken bei expliziten Erkennungsaufgaben vorteilhaft sein kann. Bei pragmatischen und kulturellen Aufgaben führte es jedoch kaum zu Verbesserungen oder sogar zu einer Verschlechterung der Leistung.
Experimente zur Bewertungseinstellung zeigten, wie leicht multimodale Bewertungen von echtem Verständnis abweichen können. Das Bereitstellen des Meme-Namens erhöhte die Genauigkeit um etwa 10 %, da viele Lösungen aus den Trainingsdaten der LLMs abgerufen werden konnten, ohne Audio/Video zu verstehen. Das Hinzufügen des Hinweises "This is a meme" vor der Frage verbesserte die Genauigkeit geringfügig. Das Beibehalten von "visual_cheat"-Bedingungen, bei denen Videos Schlüsselinformationen preisgaben, führte zu einer erheblichen Aufblähung der Genauigkeit um 40 % oder mehr. Diese Ergebnisse rechtfertigen die strenge Entfernung von textlichen und visuellen Abkürzungen für eine faire multimodale Bewertung.
Die Ergebnisse des AVMeme Exams verdeutlichen eine konsistente Schwäche der aktuellen MLLMs: Sie sind zuverlässig bei inhaltlichen Fragen, insbesondere wenn reichhaltige sprachliche Hinweise vorhanden sind. Ihre Leistung sinkt jedoch drastisch, wenn das Verständnis kontextuelles Denken oder kulturelle Verankerung erfordert, sowie bei textlosen Audioinhalten oder weniger verbreiteten Sprachen. Selbst die stärksten Modelle zeigen in diesen Kategorien die größten Fehler, und längeres "Denken" hilft oft nicht weiter. Dies unterstreicht, dass pragmatisches und kulturelles Verständnis weiterhin offene Herausforderungen für die multimodale Intelligenz darstellen.
Über die bloße Erhöhung der Exposition gegenüber Internet-Audio und -Video hinaus legen diese Erkenntnisse nahe, dass multimodale Intelligenz stärker in der menschlichen Welt verankert sein sollte. Das Verständnis von Audio-Video-Signalen besteht nicht nur darin, isolierte Klänge oder Bilder wahrzunehmen, sondern diese mit der Art und Weise zu verbinden, wie Menschen sie im Kontext und in der Kultur interpretieren, fühlen und verwenden. Dies weist auf die Bedeutung reichhaltigerer, menschenzentrierter Annotationen hin, die Emotionen, Verwendungszwecke und kulturelle Bedeutungen erfassen, sowie auf Trainingsziele, die die Ausrichtung auf menschliche Interpretationen gegenüber der oberflächlichen Erkennung priorisieren.
Der AVMeme Exam bietet einen wertvollen Rahmen zur Diagnose der kontextuellen und kulturellen Schwächen von KI-Systemen und zur Lenkung zukünftiger Fortschritte in der menschenzentrierten multimodalen Intelligenz. Zukünftige Arbeiten könnten den AVMeme Exam auf breitere Kulturen, Sprachgemeinschaften und Medienökosysteme ausweiten, um ein global repräsentativeres Testfeld für multimodales Verständnis zu schaffen. Ziel ist es auch, Methoden zu entwickeln, die die durch diesen Benchmark aufgedeckten Herausforderungen angehen und so den Fortschritt hin zu einer menschenzentrierten multimodalen Intelligenz vorantreiben.
Trotz der umfassenden Natur des AVMeme Exams gibt es Einschränkungen. Die kulturelle Abdeckung ist durch die Hintergründe der Beitragenden (hauptsächlich hochgebildete Forscher im Alter von 22 bis 35 Jahren) geprägt. Die Bedeutung von Memes kann sich im Laufe der Zeit ändern, und die Annotationen spiegeln die zeitgenössischen Interpretationen (Ende 2025) wider. Die Beschränkung der Clip-Länge auf 30 Sekunden aufgrund aktueller MLLM-Einschränkungen kann kontextuelle Informationen weglassen. Die Bewertung konzentriert sich auf Multiple-Choice-Fragen, während reale Anwendungen oft komplexere Dialoge erfordern. Schließlich ist die Interpretation von Memes subjektiv, und der Benchmark sollte als Referenz- und Diagnoseinstrument verstanden werden, nicht als absolute Wahrheit für menschliche Multimedienkultur. Dennoch bleibt die zentrale Erkenntnis bestehen: Aktuelle multimodale KIs sind im Audio-Video-Verständnis schwächer als im Textverständnis und im kontextuellen und kulturellen Denken schwächer als im Oberflächeninhalt.
Bibliographie
- Jiang, X., Wang, Q., Wu, J., He, X., Xu, Z., Ma, Y., ... & Mesgarani, N. (2026). AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking. arXiv preprint arXiv:2601.17645. - AI Research Roundup. (2026, 27. Januar). AVMeme Exam: New MLLM Meme Culture Benchmark [Video]. YouTube. - Hugging Face. (o. D.). Datasets: naplab/AVMeme-Exam. - alphaXiv. (o. D.). A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking. - ChatPaper. (o. D.). AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking. - Papers.cool. (o. D.). AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking. - Vayani, A., Dissanayake, D., Watawana, H., Ahsan, N., Sasikumar, N., Thawakar, O., ... & Khan, F. S. (2019). All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages. arXiv preprint arXiv:2411.16508. - Nguyen, K. P. N., Li, T., Zhou, D. L., Xiong, G., Balu, P., Alahari, N., ... & Ng, V. (2025). MemeQA: Holistic Evaluation for Meme Understanding. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 18926-18946.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen