Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der visuellen Sprachmodelle (VLMs). Diese Modelle sind in der Lage, Bilder zu "verstehen" und zu interpretieren, was zu beeindruckenden Anwendungen in Bereichen wie der automatischen Bildbeschreibung und der Objekterkennung geführt hat. Doch trotz dieser Fortschritte bleibt eine entscheidende Fähigkeit von VLMs noch weitgehend unerforscht: die Fähigkeit zum abduktiven Schlussfolgern.
Abduktives Schlussfolgern, auch bekannt als Schlussfolgern auf die beste Erklärung, ist ein Denkprozess, bei dem aus gegebenen Beobachtungen die plausibelste Erklärung abgeleitet wird. Stellen Sie sich vor, Sie sehen einen nassen Boden. Die plausibelste Erklärung dafür wäre, dass es geregnet hat. Natürlich könnte es auch andere Erklärungen geben, z. B. ein Rohrbruch oder jemand, der Wasser verschüttet hat. Aber abduktives Schlussfolgern konzentriert sich auf die wahrscheinlichste Ursache.
Für VLMs stellt abduktives Schlussfolgern eine besondere Herausforderung dar. Während Menschen in der Lage sind, ihr Weltwissen und ihren gesunden Menschenverstand zu nutzen, um plausible Erklärungen für visuelle Szenen abzuleiten, fehlt VLMs oft dieser Kontext. Sie "sehen" zwar die Bilder, können aber die zugrunde liegenden Beziehungen und Implikationen nicht immer verstehen.
Um die Fähigkeit von VLMs zum abduktiven Schlussfolgern zu bewerten, wurde ein neuer Benchmark namens NL-Eye entwickelt. NL-Eye basiert auf dem Konzept des abduktiven Natural Language Inference (NLI), bei dem ein Modell die Plausibilität von Hypothesen auf der Grundlage eines gegebenen Textes bewerten muss. NL-Eye überträgt dieses Konzept auf den visuellen Bereich.
NL-Eye besteht aus einer Reihe von Bildtriplets. Jedes Triplett umfasst:
Die Aufgabe des VLM besteht darin, zu entscheiden, welches der beiden Hypothesebilder plausibler ist, d. h. welches Szenario eher auf das Prämissenbild folgt oder durch dieses verursacht wurde. Zusätzlich soll das VLM seine Entscheidung erklären.
Stellen Sie sich ein Prämissenbild vor, das einen Mann mit einem Gipsbein zeigt. Die beiden Hypothesebilder zeigen:
Ein Mensch würde wahrscheinlich Hypothese 1 als plausibler einstufen. Der Mann könnte auf dem nassen Boden ausgerutscht und sich das Bein gebrochen haben. Die Abwesenheit eines Warnschilds würde die Wahrscheinlichkeit eines Sturzes weiter erhöhen.
NL-Eye stellt VLMs vor eine Reihe von Herausforderungen:
Erste Experimente mit NL-Eye haben gezeigt, dass aktuelle VLMs noch Schwierigkeiten mit dem abduktiven Schlussfolgern haben. Während Menschen in der Lage sind, die plausibleren Hypothesen in den meisten Fällen korrekt zu identifizieren, liegen VLMs oft falsch und schneiden nicht besser ab als ein Zufallsgenerator. Dies deutet darauf hin, dass die Fähigkeit zum abduktiven Schlussfolgern eine komplexe Fähigkeit ist, die über die bloße Interpretation visueller Informationen hinausgeht.
NL-Eye ist ein wichtiger Schritt auf dem Weg zur Entwicklung von VLMs, die über robustere Argumentationsfähigkeiten verfügen. In Zukunft könnten solche Modelle in einer Vielzahl von Anwendungen eingesetzt werden, z. B. in der Entwicklung von Sicherheitsassistenten, die potenziell gefährliche Situationen erkennen und warnen können, oder in der Verifikation von generierten Videos, um Deepfakes zu identifizieren.