KI-gestützte Suche: Cohere erweitert Embed 3 um Bildverarbeitung
Die KI-Firma Cohere hat ihr Suchmodell Embed 3 um die Fähigkeit zur Bildverarbeitung erweitert. Unternehmen können nun Text- und Bilddaten in einer einzigen Datenbank durchsuchen. Diese Neuerung zielt insbesondere auf Organisationen ab, die große Mengen an visuellem Content verwalten, von Produktkatalogen bis hin zu technischen Dokumentationen.
Bisher konzentrierten sich Suchmodelle hauptsächlich auf Text. Mit der Erweiterung von Embed 3 um Bildverarbeitungsfunktionen können Nutzer nun über sämtliche Inhalte ihres Datenbestands suchen, unabhängig vom Format. Dies vereinfacht die Suche nach Informationen erheblich und ermöglicht neue Anwendungsfälle.
Die Funktionsweise von Embed 3 basiert auf der Umwandlung von Daten – sowohl Text als auch Bilder – in mathematische Repräsentationen, sogenannte Vektoren. Diese Vektoren ermöglichen es dem System, komplexe Suchanfragen zu verarbeiten und Ähnlichkeiten zwischen Texten und Bildern zu erkennen. So können beispielsweise Produktbilder anhand von textbasierten Beschreibungen gefunden oder ähnliche Bildunterschriften für ein bestimmtes Bild gesucht werden.
Embed 3 verarbeitet gängige Bildformate wie PNG, JPEG, WebP und GIF. Die Dateigröße ist derzeit auf 5 Megabyte pro Bild begrenzt. Die aktuelle Version des Modells kann eine Anfrage mit einem Bild verarbeiten. Die Batch-Verarbeitung mehrerer Bilder in einer Anfrage ist noch nicht verfügbar.
Entwickler können über Coheres bestehende Embed API auf die neuen Funktionen zugreifen. Die API wurde um zusätzliche Parameter zur Bildverarbeitung erweitert. Bilder müssen als Base64-kodierte Daten-URLs übermittelt werden.
Das aktualisierte Modell von Cohere funktioniert in über 100 Sprachen und läuft auf der unternehmenseigenen Plattform sowie auf Microsoft Azure und Amazon SageMaker. Cohere wurde von Forschern gegründet, die an der Entwicklung der Transformer-Architektur beteiligt waren, und erhielt im Juli letzten Jahres eine Finanzierung in Höhe von 500 Millionen US-Dollar.
Diese Entwicklung unterstreicht den wachsenden Trend zur multimodalen Suche. Auch andere Unternehmen wie Google und OpenAI bieten bereits multimodale Einbettungsmodelle an. Es bleibt abzuwarten, welches System die Geschwindigkeit, Genauigkeit und Sicherheit bietet, die Unternehmen benötigen. Der Wettbewerb um die beste Lösung im Bereich der multimodalen Suche ist in vollem Gange.
Bibliographie
- https://cohere.com/blog/multimodal-embed-3
- https://techcommunity.microsoft.com/t5/ai-machine-learning-blog/introducing-multimodal-embed-3-powering-enterprise-search-across/ba-p/4276660
- https://analyticsindiamag.com/ai-news-updates/cohere-unveils-embed-3-a-multimodal-breakthrough-for-ai-search-with-leading-textimage-capabilities/
- https://venturebeat.com/ai/cohere-adds-vision-to-its-rag-search-capabilities/
- https://www.marktechpost.com/2024/10/23/cohere-releases-multimodal-embed-3-a-state-of-the-art-multimodal-ai-search-model-unlocking-real-business-value-for-image-data/
- https://www.youtube.com/watch?v=mbl9HByVVkk
- https://x.com/cohere/status/1848760845641388087
- https://www.linkedin.com/posts/thevasenapathy-subramaniam-95989824_cohere-unveils-embed-3-a-multimodal-breakthrough-activity-7254891113231048704-5srp
- https://docs.cohere.com/v2/changelog/embed-v3-is-multimodal
- https://www.infoq.com/news/2023/11/cohere-model-v3/