Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Stellen Sie sich einen auf einem visuellen Sprachmodell (VLM) basierenden Roboter vor, der uns vor dem Ausrutschen warnt, wenn er einen nassen Boden entdeckt. Klingt futuristisch, nicht wahr? Obwohl VLMs in letzter Zeit erstaunliche Fähigkeiten bewiesen haben, bleibt ihre Fähigkeit, in realistischen Szenarien auf plausible Ergebnisse oder Ursachen zu schließen, weitgehend unerforscht.
Um diese Herausforderung anzugehen, stellen Forscher NL-Eye vor, einen Benchmark, der speziell entwickelt wurde, um die visuellen abduktiven Denkfähigkeiten von VLMs zu bewerten. NL-Eye basiert auf der Idee der abduktiven Natural Language Inference (NLI) und überträgt diese auf den visuellen Bereich.
In der Praxis bedeutet das: Einem VLM wird ein "Premise"-Bild und ein oder zwei "Hypothese"-Bilder präsentiert. Die Aufgabe des VLMs besteht darin, zu bewerten, wie plausibel ein Hypothese-Bild aus dem Prämissen-Bild resultiert oder zu diesem führt. Diese Bewertung kann entweder für jedes Hypothese-Bild einzeln oder im Vergleich zueinander erfolgen.
Ein Beispiel: Ein Bild zeigt einen Mann mit gebrochenem Bein. Zwei Hypothese-Bilder zeigen einmal einen nassen Boden ohne Warnschild und einmal einen nassen Boden mit Warnschild. Der VLM müsste nun schlussfolgern, dass – ausgehend vom gebrochenen Bein – die Wahrscheinlichkeit höher ist, dass der Mann auf dem nassen Boden ohne Warnschild ausgerutscht ist.
NL-Eye geht jedoch über die reine Vorhersage der Plausibilität hinaus. Der Benchmark fordert die VLMs auch dazu auf, ihre Entscheidungen zu erklären. Dadurch können die Forscher beurteilen, ob die Modelle aus den richtigen Gründen zu korrekten Schlussfolgerungen gelangen oder ob sie sich auf oberflächliche Heuristiken verlassen.
Jeder Datensatz in NL-Eye besteht aus einem Prämissen-Bild und zwei Hypothese-Bildern. Zusätzlich enthält jeder Datensatz ein "Gold Label", das die plausibelste Hypothese kennzeichnet, sowie eine "Gold Erklärung", die erläutert, warum diese Hypothese plausibler ist als die Alternative.
Um die Vielfalt der Aufgaben zu gewährleisten, werden die Beispiele in sechs Kategorien unterteilt:
- Physisch (z. B. "Ein Glas fällt zu Boden und zerbricht.") - Logisch (z. B. "Wenn es regnet, ist der Boden nass.") - Emotional (z. B. "Ein weinendes Kind hat möglicherweise seinen Schnuller verloren.") - Funktional (z. B. "Ein Hammer wird verwendet, um einen Nagel einzuschlagen.") - Kulturell (z. B. "bestimmte Kleidungsstücke werden mit bestimmten Feiertagen assoziiert.") - Sozial (z. B. "Gesten und Körpersprache können auf bestimmte soziale Interaktionen hindeuten.")Zusätzliche zeitliche Annotationen geben an, ob die Hypothese-Bilder zeitlich vor, nach oder gleichzeitig mit dem Prämissen-Bild angeordnet sind.
Die Erstellung von NL-Eye erfolgte in mehreren Schritten. Zunächst verfassten erfahrene Personen eine Sammlung von hochwertigen "textlichen Szenen". Diese Szenen dienten professionellen Designern als Grundlage, um mithilfe von Text-zu-Bild-Modellen wie Midjourney und DALL-E die entsprechenden Bilder zu generieren. Dieser Prozess war iterativ und erforderte mehrere Versuche, um die Konsistenz zwischen den Textbeschreibungen und den visuellen Szenen sowie die visuelle Kohärenz innerhalb der Bildtriplets sicherzustellen.
Erste Evaluierungen mit menschlichen Probanden zeigen, dass Menschen in 85 % der Fälle die plausibelste Hypothese korrekt identifizieren. Darüber hinaus liefern sie in 94 % der Fälle, in denen sie die richtige Hypothese auswählen, auch eine korrekte Erklärung. Dies verdeutlicht, dass abduktives Denken für Menschen eine natürliche Fähigkeit ist.
VLMs hingegen haben erhebliche Schwierigkeiten mit NL-Eye. Die meisten Modelle erreichen bei der Vorhersage der Plausibilität nicht einmal das Niveau eines Zufallsgenerators (Random Baseline). Selbst wenn sie die richtige Hypothese auswählen, gelingt es den VLMs in über 50 % der Fälle nicht, dafür eine zutreffende Erklärung zu liefern. Dies deutet auf eine deutliche Schwäche im abduktiven Denken hin.
Interessanterweise zeigen begleitende textbasierte Experimente, dass VLMs häufig in der Lage sind, auf Basis von Textbeschreibungen der Szenen korrekte Schlussfolgerungen zu ziehen, selbst wenn ihnen dies anhand der Bilder nicht gelingt. Dies legt die Vermutung nahe, dass die Schwierigkeiten der VLMs möglicherweise auf einer ungenauen Interpretation der visuellen Informationen beruhen.
Zusätzlich zeigt sich, dass VLMs empfindlich auf die Reihenfolge der präsentierten Hypothesen und auf das Eingabeformat reagieren (drei separate Bilder vs. ein kombiniertes Bild). Diese Empfindlichkeit ist insofern besorgniserregend, als sie die Möglichkeit aufwirft, dass die Modelle die zugrunde liegenden Konzepte nicht wirklich verstehen und sich stattdessen auf oberflächliche Hinweise verlassen, um Entscheidungen zu treffen.
Zusammenfassend lässt sich sagen, dass NL-Eye einen neuen und wichtigen Schritt in der Evaluierung und Weiterentwicklung von VLMs darstellt. Der Benchmark zeigt deutlich die Schwächen aktueller Modelle im Bereich des abduktiven Denkens auf und bietet gleichzeitig eine Grundlage für die Entwicklung robusterer und zuverlässigerer VLMs in der Zukunft. Die Fähigkeit zum abduktiven Denken wird für VLMs von entscheidender Bedeutung sein, wenn sie in unseren Alltag integriert werden sollen – sei es in Form von autonomen Robotern, intelligenten Assistenzsystemen oder anderen Anwendungen, die ein tiefes Verständnis der Welt erfordern.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen