Multimodale Embeddings und Reranker-Modelle: Neue Entwicklungen mit Sentence Transformers

Kategorien:

No items found.

Freigegeben:

April 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick: Multimodale Embeddings und Reranker-Modelle mit Sentence Transformers

Erweiterte Fähigkeiten: Sentence Transformers v5.4 integriert die Verarbeitung und den Vergleich von Texten, Bildern, Audio und Video in einem einheitlichen API.
Multimodale Embeddings: Modelle bilden Eingaben verschiedener Modalitäten in einen gemeinsamen Vektorraum ab, was den direkten Vergleich zwischen ihnen ermöglicht.
Multimodale Reranker: Diese Modelle bewerten die Relevanz von Paaren aus verschiedenen Modalitäten und verbessern die Suchergebnisse nach einer ersten Retrieval-Phase.
Anwendungen: Ermöglicht visuelle Dokumentensuche, medienübergreifende Abfragen und multimodale RAG-Pipelines.
Hardware-Anforderungen: Modelle wie Qwen3-VL erfordern erhebliche GPU-Ressourcen (8-20 GB VRAM), während textbasierte oder CLIP-Modelle für CPUs besser geeignet sind.
Benutzerfreundlichkeit: Die API bleibt konsistent mit textbasierten Modellen, was die Integration in bestehende Workflows vereinfacht.
Trainingsstrategien: Finetuning mit spezifischen Datensätzen und die Nutzung von Hard Negatives können die Modellleistung signifikant steigern.
Metriken zur Bewertung: NDCG@k wird als primäre Metrik für die Bewertung von Rerankern in multimodalen Kontexten hervorgehoben.

Die Landschaft der künstlichen Intelligenz (KI) entwickelt sich stetig weiter, und eine der jüngsten und bedeutsamsten Entwicklungen ist die Erweiterung von Sprachmodellen zur Verarbeitung und zum Verständnis mehrerer Datenmodalitäten. Mit der Veröffentlichung von Sentence Transformers v5.4 hat sich die Fähigkeit, Texte, Bilder, Audio und Videos in einem gemeinsamen Framework zu verarbeiten und zu vergleichen, erheblich verbessert. Dieser Artikel beleuchtet die Kernkonzepte, die praktischen Anwendungen und die technischen Implikationen dieser multimodalen Embedding- und Reranker-Modelle für B2B-Anwendungen.

Grundlagen Multimodaler Modelle

Traditionelle Embedding-Modelle sind darauf spezialisiert, Text in fest dimensionierte Vektoren umzuwandeln, die dann für Ähnlichkeitsberechnungen verwendet werden können. Multimodale Embedding-Modelle erweitern dieses Prinzip, indem sie Eingaben aus verschiedenen Modalitäten – wie Text, Bilder, Audio oder Video – in einen einzigen, gemeinsamen Embedding-Raum abbilden. Dies ermöglicht es, eine Textabfrage direkt mit Bilddokumenten zu vergleichen oder umgekehrt, unter Verwendung der gleichen Ähnlichkeitsfunktionen, die bereits für textbasierte Anwendungen etabliert sind.

Reranker-Modelle, oft als Cross-Encoder-Modelle implementiert, berechnen die Relevanz zwischen Paaren von Eingaben. Während traditionelle Reranker Textpaare bewerten, können multimodale Reranker nun Paare bewerten, bei denen ein oder beide Elemente aus Bildern, kombinierten Text-Bild-Dokumenten oder anderen Modalitäten bestehen. Diese Fähigkeit eröffnet neue Anwendungsfelder wie die visuelle Dokumentenabfrage, medienübergreifende Suche und multimodale Retrieval Augmented Generation (RAG)-Pipelines.

Installation und Hardware-Anforderungen

Die Implementierung multimodaler Modelle erfordert spezifische Abhängigkeiten. Die Installation erfolgt über das Python-Paketverwaltungssystem pip, wobei je nach benötigter Modalität zusätzliche Pakete installiert werden müssen:

Für Bildunterstützung: pip install -U "sentence-transformers[image]"
Für Audio-Unterstützung: pip install -U "sentence-transformers[audio]"
Für Video-Unterstützung: pip install -U "sentence-transformers[video]"

Es ist zu beachten, dass insbesondere VLM-basierte Modelle (Vision-Language Models) wie Qwen3-VL erhebliche Hardware-Ressourcen benötigen. Die 2B-Varianten erfordern typischerweise etwa 8 GB VRAM, während die 8B-Varianten bis zu 20 GB VRAM beanspruchen können. Für den Einsatz auf CPUs sind diese Modelle aufgrund der langsamen Inferenz weniger geeignet; hier bieten sich textbasierte oder CLIP-Modelle an.

Multimodale Embedding-Modelle im Detail

Modellladung und Codierung

Das Laden eines multimodalen Embedding-Modells erfolgt analog zu textbasierten Modellen. Ein Beispiel ist das Laden von "Qwen/Qwen3-VL-Embedding-2B". Das Modell erkennt automatisch die unterstützten Modalitäten, eine zusätzliche Konfiguration ist in der Regel nicht erforderlich. Parameter wie Bildauflösung oder Modellpräzision können bei Bedarf über processor_kwargs und model_kwargs angepasst werden.

Die model.encode()-Methode akzeptiert nun neben Text auch Bilder, die als URLs, lokale Dateipfade oder PIL-Image-Objekte übergeben werden können. Dies ermöglicht die Erzeugung von Embeddings für heterogene Datensätze. Ein zentraler Vorteil ist die Fähigkeit, Ähnlichkeiten zwischen Embeddings verschiedener Modalitäten zu berechnen, da alle in denselben Vektorraum abgebildet werden. Beispielsweise kann die Ähnlichkeit zwischen einem Text-Embedding und einem Bild-Embedding ermittelt werden.

Es ist festzustellen, dass die absoluten Ähnlichkeitswerte zwischen verschiedenen Modalitäten (z.B. Text und Bild) oft niedriger ausfallen als innerhalb derselben Modalität (z.B. Text und Text). Dieses Phänomen wird als "Modalitätslücke" bezeichnet. Dennoch bleibt die relative Reihenfolge der Relevanz erhalten, was für Retrieval-Aufgaben von Bedeutung ist.

Abfragen und Dokumente

Für Retrieval-Aufgaben werden die Methoden encode_query() und encode_document() empfohlen. Diese Methoden sind darauf ausgelegt, modellabhängige Anweisungsprompts automatisch anzuwenden, je nachdem, ob es sich um eine Abfrage oder ein Dokument handelt. Dies ist vergleichbar mit der Anwendung unterschiedlicher System-Prompts bei Chat-Modellen. Beide Methoden fungieren als Wrapper für encode() und vereinfachen die korrekte Prompt-Auswahl.

Multimodale Reranker-Modelle

Multimodale Reranker-Modelle bewerten die Relevanz zwischen Eingabepaaren, die Text, Bilder, Audio, Video oder eine Kombination davon enthalten können. Sie zeigen tendenziell eine höhere Qualität bei der Relevanzbewertung als reine Embedding-Modelle, sind jedoch in der Inferenz langsamer, da sie jedes Paar einzeln verarbeiten. Derzeit konzentrieren sich die verfügbaren vortrainierten multimodalen Reranker hauptsächlich auf Text- und Bildeingaben.

Ranking gemischter Modalitäten

Die rank()-Methode bewertet und ordnet eine Liste von Dokumenten basierend auf einer Abfrage, wobei gemischte Modalitäten unterstützt werden. Dies ermöglicht es beispielsweise, ein Bild als relevantestes Ergebnis für eine Textabfrage zu identifizieren. Auch hier kann die Modaltitätslücke die absoluten Relevanzwerte beeinflussen.

Die Unterstützung von Modalitäten kann mittels der Eigenschaften modalities und supports() überprüft werden. Dies gibt Aufschluss darüber, welche Medientypen ein Reranker verarbeiten kann. Für die direkte Abfrage von Relevanzwerten für spezifische Paare kann die predict()-Methode verwendet werden.

Retrieve und Rerank-Ansatz

Ein gängiges und effektives Muster in Retrieval-Systemen besteht darin, zunächst ein Embedding-Modell für ein schnelles, initiales Retrieval zu verwenden und anschließend die Top-Ergebnisse mit einem Reranker-Modell zu verfeinern. Dieser zweistufige Ansatz kombiniert die Geschwindigkeit von Embedding-Modellen bei der Vorauswahl mit der höheren Präzision von Rerankern bei der Feinabstimmung der Ergebnisse. Da die Corpus-Embeddings vorab berechnet werden können, bleibt das initiale Retrieval auch bei großen Datenmengen schnell, während der Reranker eine genauere Bewertung der reduzierten Kandidatenmenge liefert.

Eingabeformate und Konfiguration

Multimodale Modelle unterstützen eine Vielzahl von Eingabeformaten für die model.encode()-Methode, darunter Strings für Text, PIL.Image.Image-Objekte, Dateipfade und URLs für Bilder sowie ähnliche Strukturen für Audio und Video. Zudem können multimodale Eingaben als Dictionaries übergeben werden, die Modalitätsnamen zu Werten abbilden (z.B. {"text": "eine Bildunterschrift", "image": "https://.../bild.jpg"}).

Die "message"-Modalität zeigt an, dass das Modell Chat-ähnliche Nachrichten mit verschachtelten Inhalten verarbeiten kann. Intern werden alle Eingaben in ein konsistentes Nachrichtenformat umgewandelt. Dies ermöglicht es, verschiedene Eingabetypen in einem einzigen encode()-Aufruf zu mischen.

Für eine präzisere Steuerung der Vorverarbeitung von Eingaben (z.B. Bildauflösung) oder der Modellpräzision können processor_kwargs und model_kwargs beim Laden des Modells verwendet werden. processor_kwargs beeinflusst die Vorverarbeitungsschritte und wird direkt an AutoProcessor.from_pretrained(...) übergeben. model_kwargs steuert das Laden des zugrundeliegenden Modells und wird an die entsprechende AutoModel.from_pretrained(...)-Funktion weitergeleitet. Die Umbenennung von tokenizer_kwargs zu processor_kwargs in Sentence Transformers v5.4 reflektiert die breitere Anwendung von Prozessoren in multimodalen Modellen.

Verfügbare Modelle

Die Sentence Transformers v5.4-Version unterstützt eine Reihe von multimodalen Embedding- und Reranker-Modellen. Dazu gehören verschiedene Varianten der Qwen3-VL-Modelle und Nvidia-Modelle, die Text, Bild und teilweise Video verarbeiten können. Zusätzlich sind neue textbasierte Reranker-Modelle verfügbar, wie die Qwen3-Reranker- und Mixedbread-AI-Modelle. Ältere CLIP-Modelle werden weiterhin unterstützt und sind für Hardware mit geringeren Ressourcen geeignet.

Trainingsstrategien und Optimierungen

Das Finetuning von Reranker-Modellen ist entscheidend, um die Leistung an spezifische Domänen und Anwendungsfälle anzupassen. Reranker neigen dazu, schnell zu overfitten, weshalb der Einsatz von Evaluatoren wie CrossEncoderNanoBEIREvaluator oder CrossEncoderRerankingEvaluator in Kombination mit load_best_model_at_end und metric_for_best_model empfohlen wird, um das Modell mit der besten Evaluierungsleistung zu laden.

Ein wichtiger Aspekt ist die Verwendung von "Hard Negatives" im Training. Dies sind Passagen, die der Abfrage scheinbar relevant sind, es aber tatsächlich nicht sind. Die Funktion mine_hard_negatives in Sentence Transformers unterstützt das Auffinden solcher Negativbeispiele. Es wurde gezeigt, dass Modelle, die mit Hard Negatives trainiert wurden, eine höhere Präzision erreichen. Allerdings kann eine ausschließliche Verwendung von Hard Negatives die Leistung bei einfacheren Aufgaben beeinträchtigen; die Kombination mit zufälligen Negatives kann dies abmildern.

Die BinaryCrossEntropyLoss ist trotz ihrer Einfachheit eine effektive Verlustfunktion, insbesondere in Verbindung mit gut vorbereiteten Datensätzen, die Hard Negatives enthalten.

Evaluierungsmetriken

Bei der Bewertung von Ranking-Systemen kommen typischerweise Metriken wie Mean Reciprocal Rank (MRR) und Normalized Discounted Cumulative Gain (NDCG) zum Einsatz. MRR misst, wie schnell das erste relevante Ergebnis gefunden wird, während NDCG die Qualität der gesamten Ergebnisliste bis zu einem bestimmten Cutoff-Punkt bewertet und dabei auch abgestufte Relevanz berücksichtigt. Für multimodale Reranker-Modelle, die alle relevanten Kontexte hervorheben sollen, wird NDCG@5 als primäre Metrik empfohlen.

Fazit

Die Entwicklung multimodaler Embedding- und Reranker-Modelle mit Sentence Transformers stellt einen signifikanten Fortschritt in der KI dar. Sie ermöglichen eine wesentlich flexiblere und präzisere Verarbeitung von Informationen über verschiedene Modalitäten hinweg, was für eine Vielzahl von B2B-Anwendungen, insbesondere im Bereich der Informationsbeschaffung und -verarbeitung, von großem Nutzen ist. Die kontinuierliche Forschung und Entwicklung in diesem Bereich verspricht weitere Optimierungen und neue Anwendungsfelder.

Die Implementierung dieser Technologien erfordert ein Verständnis sowohl der konzeptionellen Grundlagen als auch der praktischen Aspekte, einschließlich der Hardware-Anforderungen und der spezifischen Trainingsstrategien. Unternehmen, die diese fortschrittlichen KI-Fähigkeiten nutzen möchten, sollten die Auswahl der Modelle, die Datenaufbereitung und die Evaluierung sorgfältig planen, um die bestmöglichen Ergebnisse zu erzielen.

Die Integration dieser multimodalen Fähigkeiten in bestehende Systeme, wie beispielsweise RAG-Pipelines, kann die Effizienz und Genauigkeit der Informationsverarbeitung erheblich steigern und neue Möglichkeiten für die Interaktion mit komplexen Daten eröffnen.

Bibliografie

Hugging Face Blog. (2026, 9. April). Multimodal Embedding & Reranker Models with Sentence Transformers. Verfügbar unter: https://huggingface.co/blog/multimodal-sentence-transformers
Hugging Face Blog. (2025, 11. November). Building and evaluating Multimodal Rerankers. Verfügbar unter: https://huggingface.co/blog/UlrickBL/building-and-evaluating-multimodal-rerankers
Hugging Face Blog. (2025, 26. März). Training and Finetuning Reranker Models with Sentence Transformers v4. Verfügbar unter: https://huggingface.co/blog/train-reranker
DEV Community. (2026, 9. April). Embeddings Just Went Multimodal: What Sentence Transformers 5.4 Means for RAG. Verfügbar unter: https://dev.to/o96a/embeddings-just-went-multimodal-what-sentence-transformers-54-means-for-rag-247e
Sentence Transformers Documentation. Rerankers. Verfügbar unter: https://www.sbert.net/examples/cross_encoder/training/rerankers/README.html
Sentence Transformers Documentation. SentenceTransformers Documentation. Verfügbar unter: https://www.sbert.net/docs/
GitHub: huggingface/sentence-transformers. (2025, 26. März). v4.0.1 - Reranker (Cross Encoder) Training Refactor; new losses, docs, examples, etc. Verfügbar unter: https://github.com/huggingface/sentence-transformers/releases/tag/v4.0.1
Hugging Face. (n.d.). tomaarsen/jina-reranker-m0. Verfügbar unter: https://huggingface.co/tomaarsen/jina-reranker-m0
Hugging Face. (n.d.). tomaarsen/Qwen3-VL-Reranker-8B. Verfügbar unter: https://huggingface.co/tomaarsen/Qwen3-VL-Reranker-8B
GitHub: huggingface/sentence-transformers. (n.d.). docs/cross_encoder/training_overview.md at main. Verfügbar unter: https://github.com/huggingface/sentence-transformers/blob/main/docs/cross_encoder/training_overview.md