Visuelle Wahrnehmung in der KI: Unerwartete Herausforderungen bei grundlegenden Aufgaben

Kategorien:

No items found.

Freigegeben:

January 19, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Aktuelle multimodale KI-Modelle haben unerwartete Schwächen bei grundlegenden visuellen Aufgaben, die Kleinkinder mühelos bewältigen.
Ein neuer Benchmark namens "BabyVision" zeigt, dass selbst die leistungsfähigsten Modelle wie Gemini-3-Pro-Preview bei diesen Aufgaben nur etwa 50 % erreichen, während Menschen bei 94 % liegen.
Die "Verbalisierungs-Engpass"-Theorie besagt, dass die Umwandlung visueller Informationen in Sprachrepräsentationen zu einem Informationsverlust führt, insbesondere bei geometrischen und räumlichen Details.
KI-Modelle zeigen Defizite in Bereichen wie der Unterscheidung feiner visueller Details, dem Verfolgen von Linien und der räumlichen Wahrnehmung.
Die Forschung schlägt "Unified Multimodal Models" vor, die visuelle und sprachliche Verarbeitung nativ integrieren, um diese Einschränkungen zu überwinden.
Diese Erkenntnisse sind relevant für die Entwicklung robusterer und menschenähnlicherer KI-Systeme im B2B-Bereich.

Grundlegende visuelle Wahrnehmung: Eine unerwartete Herausforderung für fortschrittliche KI-Modelle

Die beeindruckenden Fortschritte im Bereich der Künstlichen Intelligenz (KI), insbesondere bei multimodalen Modellen, haben die Erwartungen an ihre Fähigkeiten in den letzten Jahren erheblich gesteigert. Diese Modelle erzielen in komplexen Aufgaben, die Expertenwissen erfordern, hohe Erfolgsraten. Eine aktuelle Forschung offenbart jedoch eine überraschende Schwachstelle: Selbst die fortschrittlichsten KI-Systeme scheitern bei grundlegenden visuellen Aufgaben, die bereits von Kleinkindern mühelos gemeistert werden. Diese Erkenntnis hat weitreichende Implikationen für die Entwicklung und den Einsatz von KI in Geschäftsanwendungen, die eine zuverlässige visuelle Interpretation erfordern.

Die "BabyVision"-Studie: Ein Blick auf die visuellen Defizite der KI

Forscher von renommierten Institutionen, darunter UniPat AI, Peking University, Alibaba Group und MoonShot AI, haben einen neuen Benchmark namens "BabyVision" entwickelt. Dieser Test umfasst 388 Aufgaben in vier Kategorien, die Fähigkeiten prüfen, welche Menschen in den ersten Lebensmonaten entwickeln. Dazu gehören:

Feinmotorische visuelle Unterscheidung (z.B. das Erkennen subtiler Unterschiede zwischen ähnlichen Mustern)
Verfolgung von Linien durch Labyrinthe oder über Kreuzungen
Räumliche Wahrnehmung (z.B. das Zählen versteckter 3D-Blöcke)
Visuelle Mustererkennung, die Rotationen und Reflexionen beinhaltet

Die Ergebnisse dieser Studie sind bemerkenswert: Das beste getestete Modell, Gemini-3-Pro-Preview, erreichte lediglich 49,7 % Genauigkeit. Im Vergleich dazu erzielten menschliche Erwachsene eine Genauigkeit von 94,1 %. Ein weiterer Vergleich mit 80 Kindern verschiedener Altersgruppen zeigte, dass die meisten getesteten KI-Modelle schlechter abschnitten als der Durchschnitt der Dreijährigen. Nur Gemini-3-Pro-Preview übertraf diese Altersgruppe, blieb aber immer noch etwa 20 Prozentpunkte hinter typischen Sechsjährigen zurück.

Andere proprietäre Modelle wie GPT-5.2 (34,4 %), Bytedance's Doubao-1.8 (30,2 %) und Claude 4.5 Opus (14,2 %) zeigten noch geringere Leistungen. Open-Source-Modelle schnitten im Allgemeinen noch schlechter ab, wobei der beste Performer, Qwen3VL-235B-Thinking, nur 22,2 % erreichte. Besonders eklatant waren die Ergebnisse bei spezifischen Aufgaben: Beim Zählen von 3D-Blöcken erreichte selbst das beste Modell nur 20,5 %, während Menschen 100 % erzielten. Bei der Aufgabe "Lines Observation", bei der Linien durch Kreuzungen verfolgt werden müssen, erreichte lediglich Gemini 83,3 %, während die meisten anderen Modelle null Punkte erzielten.

Der "Verbalisierungs-Engpass": Eine Erklärung für die Schwächen

Die Forscher führen diese Versagen auf ein zentrales Problem zurück, das sie als "Verbalisierungs-Engpass" bezeichnen. Aktuelle multimodale Modelle verarbeiten visuelle Eingaben, indem sie diese zunächst in sprachliche Repräsentationen umwandeln, bevor sie darüber nachdenken. Jegliche visuelle Information, die nicht präzise in Worte gefasst werden kann, geht dabei verloren. Während semantische Inhalte wie "ein rotes Auto auf einer Straße" leicht in Sprache übersetzt werden können, widerstehen geometrische Beziehungen dieser Umwandlung. Die genaue Krümmung einer Begrenzung oder die präzise Position einer Kreuzung kann in Worten nicht ohne Informationsverlust erfasst werden.

Diese Theorie wird durch weitere Studien gestützt, die zeigen, dass multimodale Large Language Models (LLMs) Schwierigkeiten mit geometrischen Primitiven und der Erkennung von Formen haben. Eine Studie mit dem Titel "Forgotten Polygons: Multimodal Large Language Models are Shape-Blind" ergab, dass Top-Modelle bei der Identifizierung regulärer Polygone weniger als 50 % Genauigkeit erreichten. Dies deutet darauf hin, dass diese Modelle eher auf intuitive, memorierte Assoziationen (System 1) als auf bewusstes Denken (System 2) angewiesen sind, wenn es um visuell-mathematische Aufgaben geht.

Herausforderungen bei räumlicher Kognition und Negation

Neben den grundlegenden visuellen Aufgaben zeigen KI-Modelle auch Schwächen bei trivialer räumlicher Kognition und dem Verständnis von Negationen. Eine Untersuchung zur Zuverlässigkeit von Vision Language Models (VLMs) bei räumlicher Kognition ergab, dass selbst geringfügige Variationen in den Prompts, die logisch äquivalente Beschreibungen verwenden, die Leistung erheblich beeinträchtigen können. Dies deutet auf eine mangelnde Robustheit im Umgang mit räumlichen Beziehungen hin.

Darüber hinaus offenbaren Studien, dass viele KI-Modelle Schwierigkeiten haben, die Bedeutung von Negationswörtern wie "nein" oder "nicht" zu verstehen. Dies kann in kritischen Anwendungen, wie der medizinischen Bildanalyse, zu schwerwiegenden Fehlinterpretationen führen. Beispielsweise könnte ein medizinisches KI-Modell den Unterschied zwischen "Anzeichen von Pneumonie" und "keine Anzeichen von Pneumonie" nicht korrekt erkennen, was potenziell katastrophale Folgen haben könnte.

Implikationen für die B2B-Welt und zukünftige Entwicklungen

Die aufgezeigten Defizite haben direkte Auswirkungen auf B2B-Anwendungen, die auf visuelle Analyse und Interpretation angewiesen sind. Unternehmen, die KI-Lösungen in Bereichen wie Qualitätskontrolle, Robotik, autonome Systeme oder medizinische Diagnostik einsetzen, müssen sich dieser Einschränkungen bewusst sein. Eine präzise visuelle Wahrnehmung ist entscheidend für die Zuverlässigkeit und Sicherheit dieser Systeme.

Die Forscher schlagen "Unified Multimodal Models" als potenzielle Lösung vor. Diese Architekturen sollen visuelle und sprachliche Verarbeitung nativ integrieren, anstatt alles in einen linguistischen Engpass zu komprimieren. Dies würde es ermöglichen, visuelle Repräsentationen während des gesamten Denkprozesses beizubehalten und somit präzisere Ergebnisse zu erzielen. Benchmarks wie "BabyVision" und ARC-AGI-3, die grundlegende kognitive Fähigkeiten testen, dienen als wichtige diagnostische Werkzeuge, um den Fortschritt hin zu einer wahren visuellen Intelligenz zu messen.

Der Weg zu KI-Systemen, die visuelle Aufgaben auf menschlichem Niveau beherrschen, ist noch lang. Die kontinuierliche Forschung und Entwicklung von neuen Architekturen und Trainingsmethoden, die den "Verbalisierungs-Engpass" überwinden und eine tiefere visuelle und räumliche Kognition ermöglichen, sind entscheidend. Für B2B-Entscheidungsträger bedeutet dies, die aktuellen Fähigkeiten und Grenzen der KI kritisch zu bewerten und Investitionen in Forschung und Entwicklung zu priorisieren, die diese grundlegenden Herausforderungen adressieren.

Fazit: Die Fähigkeit, grundlegende visuelle Aufgaben zu lösen, die für Kleinkinder intuitiv sind, stellt für selbst die besten KI-Modelle eine erhebliche Hürde dar. Der "Verbalisierungs-Engpass" und die daraus resultierenden Defizite in der detaillierten visuellen und räumlichen Wahrnehmung erfordern eine grundlegende Neuausrichtung in der Entwicklung multimodaler KI-Systeme. Die B2B-Branche sollte diese Erkenntnisse nutzen, um realistische Erwartungen an KI-Anwendungen zu setzen und Innovationen zu fördern, die auf einer umfassenderen und robusteren visuellen Intelligenz basieren.

Bibliography: - Chen et al. (2026). "BabyVision" Benchmark. UniPat AI, Peking University, Alibaba Group, MoonShot AI. - Kemper, Jonathan (2026). "Even the best AI models fail at visual tasks toddlers handle easily". The Decoder. - Kemper, Jonathan (2025). "New Test Shows Even Best AI Models Fail at Half of Complex Visual ...". - Kemper, Jonathan (2025). "Can you do better than top-level AI models on these basic vision tests?". - Jeffrey, Cal (2024). "Study shows the best visual learning models fail at very ...". TechSpot. - Karvonen, Adam (2025). "Frontier AI Models Still Fail at Basic Physical Tasks". LessWrong. - Tangtartharakul, Gene & Storrs, Katherine R. (2025). "Visual Language Models show widespread visual deficits on neuropsychological tests". arXiv:2504.10786. - Rudman, William et al. (2025). "Forgotten Polygons: Multimodal Large Language Models are Shape-Blind". arXiv:2502.15969. - Yiu, Eunice et al. (2024). "KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models". arXiv:2407.17773. - Khemlani, Sangeet et al. (2025). "Vision language models are unreliable at trivial spatial cognition". arXiv:2504.16061. - New Scientist (2025). "Toddlers may swiftly master the meaning of the word “no”, but many ...". Facebook.