Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, in umfangreichen Bildersammlungen präzise und kontextbezogen nach spezifischen Aufnahmen zu suchen, bleibt eine zentrale Herausforderung für Künstliche Intelligenz. Während moderne multimodale Suchsysteme beeindruckende Leistungen bei der Erkennung visueller Merkmale einzelner Bilder erzielen, stossen sie an ihre Grenzen, sobald die gesuchten Informationen Querverbindungen und Kontextwissen über mehrere Bilder hinweg erfordern. Diese Problematik wurde kürzlich durch eine Studie von Forschenden der Renmin University of China und des Oppo Research Institute beleuchtet, die einen neuen Benchmark namens DISBench entwickelten.
Aktuelle KI-gestützte Bildsuchsysteme analysieren Bilder in der Regel isoliert. Sie bewerten, ob ein einzelnes Bild visuell zu einer Suchanfrage passt. Dieses Vorgehen funktioniert gut, wenn ein gesuchtes Foto eindeutige visuelle Merkmale aufweist. Schwierigkeiten treten jedoch auf, wenn die Antwort auf einer komplexeren Logik basiert, die das Verständnis von Beziehungen zwischen unterschiedlichen Bildern erfordert. Ein Beispiel hierfür ist die Suche nach einem Konzertfoto, bei dem die Erinnerung an den Kontext – etwa das Logo am Eingang oder die ausschliessliche Sichtbarkeit des Sängers – entscheidend ist, die eigentliche visuelle Information aber in einem anderen Bild verborgen liegt.
Die Forschenden bezeichnen ihren Ansatz als DeepImageSearch, bei dem die Bildsuche als eine autonome Erkundungsaufgabe konzipiert wird. Anstatt einzelne Bilder abzugleichen, navigiert ein KI-Modell eigenständig durch eine Fotosammlung und setzt Hinweise aus verschiedenen Bildern zusammen, um schrittweise zum Ziel zu gelangen.
Um die Lücke zwischen der aktuellen Technologie und den Anforderungen an kontextuelle Suchen aufzuzeigen, wurde DISBench entwickelt. Dieser Benchmark umfasst 122 Suchanfragen über Fotosammlungen von 57 Nutzern mit insgesamt über 109.000 Bildern. Die Daten stammen aus dem öffentlich lizenzierten YFCC100M-Datensatz und decken im Durchschnitt 3,4 Jahre pro Nutzer ab.
Die Suchanfragen gliedern sich in zwei Kategorien:
In beiden Fällen ist eine isolierte Betrachtung der Bilder nicht ausreichend.
Die Leistung konventioneller Embedding-Modelle wie Qwen3-VL Embedding oder Seed 1.6 Embedding im DISBench-Benchmark ist gering. Nur 10 bis 14 Prozent der Top-Drei-Ergebnisse enthielten das tatsächlich gesuchte Bild. Diese niedrigen Werte sind laut den Forschenden weitgehend dem Zufall geschuldet. Da persönliche Fotosammlungen oft viele visuell ähnliche Bilder aus unterschiedlichen Situationen enthalten, finden die Modelle zufällig alles, was oberflächlich zur Anfrage passt, ohne die kontextuellen Bedingungen zu berücksichtigen.
Selbst mit erweiterten Werkzeugen, die im Rahmen des ImageSeeker-Frameworks zur Verfügung gestellt wurden – darunter semantische Suche, Zugriff auf Zeitstempel und GPS-Daten, direkte Bildprüfung und Websuche – blieben die Ergebnisse bescheiden. Das beste getestete Modell, Anthropic's Claude Opus 4.5, identifizierte nur in knapp 29 Prozent der Fälle alle korrekten Bilder. OpenAI's GPT-5.2 erreichte etwa 13 Prozent, und Googles Gemini 3 Pro Preview lag bei etwa 25 Prozent. Open-Source-Modelle wie Qwen3-VL und GLM-4.6V schnitten noch schlechter ab, obwohl dieselben Modelle bei konventionellen Bildsuch-Benchmarks nahezu perfekte Ergebnisse erzielen.
Eine manuelle Fehleranalyse zeigte, dass der häufigste Fehler, ein sogenannter "reasoning breakdown", darin besteht, dass Modelle den richtigen Kontext finden, die Suche aber zu früh abbrechen oder die gestellten Einschränkungen aus den Augen verlieren. Dieser Fehlertyp macht zwischen 36 und 50 Prozent aller Fehler aus. Visuelle Diskriminierungsfehler, bei denen ähnliche Objekte oder Gebäude verwechselt werden, folgen mit deutlichem Abstand.
Die Studie unterstreicht auch die entscheidende Bedeutung von Metadaten. Ohne Zugriff auf Zeitstempel und Standortdaten sinkt die Genauigkeit am stärksten. Temporaler und räumlicher Kontext erweist sich als Schlüsselfaktor zur Unterscheidung visuell ähnlicher Bilder aus verschiedenen Situationen.
Die Forschenden betrachten ihren Benchmark als Testfall für die nächste Generation von Suchsystemen. Solange KI-Modelle Bilder nur isoliert bewerten können, werden komplexe Suchanfragen in persönlichen Fotosammlungen ungelöst bleiben. DeepImageSearch legt nahe, dass Modelle nicht primär besser "sehen" müssen, sondern besser "planen", Einschränkungen verfolgen und Zwischenergebnisse verwalten können müssen. Dies deutet auf eine Verschiebung des Fokus von reiner Bilderkennung hin zu einer stärkeren Betonung von Schlussfolgerungs- und Planungsfähigkeiten in KI-Modellen.
Ähnlich wie bei Texten zeigen KI-Modelle auch bei Bildern das "Lost in the Middle"-Problem: Visuelle Informationen am Anfang oder Ende eines Datensatzes erhalten mehr Aufmerksamkeit als Informationen in der Mitte. Dieser Effekt verstärkt sich mit der Grösse des Datensatzes und der Fülle des Kontextfensters, was die Bedeutung eines präzisen Kontext-Engineerings hervorhebt.
Für Unternehmen, die auf fortschrittliche Bildanalyse und -suche angewiesen sind, verdeutlichen diese Erkenntnisse die Notwendigkeit, über reine Objekterkennung hinauszugehen. Die Entwicklung von Systemen, die kontextuelle Zusammenhänge verstehen und über mehrere Datenpunkte hinweg Schlussfolgerungen ziehen können, ist entscheidend. Dies erfordert nicht nur leistungsfähigere Modelle, sondern auch eine strategische Integration von Metadaten und die Fähigkeit der KI, komplexe Suchpfade zu planen und zu verwalten. Anbieter von KI-Lösungen sollten sich auf die Verbesserung dieser Planungs- und Kontextualisierungsfähigkeiten konzentrieren, um den Anforderungen einer anspruchsvollen B2B-Zielgruppe gerecht zu werden.
Die Bereitstellung von Tools, die es Anwendern ermöglichen, Metadaten effektiv zu nutzen und Suchanfragen präziser zu formulieren, wird ebenfalls an Bedeutung gewinnen. Die Integration von KI-gestützten Lösungen, die eine verbesserte Kontextinterpretation und Planungsfähigkeit bieten, kann Unternehmen dabei unterstützen, den Wert ihrer visuellen Daten optimal zu nutzen und effizienter auf spezifische Informationen zuzugreifen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen