Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung großer Sprachmodelle (LLMs) hat neue Möglichkeiten für multimodale Schlussfolgerungen eröffnet. Bestehende Ansätze stützen sich jedoch oft auf vortrainierte Vision-Language Models (VLMs), die Bild-Text-Paare isoliert verarbeiten. Dies vernachlässigt die intrinsische relationale Struktur, die reale multimodale Daten naturgemäß aufweisen. Diese Erkenntnis motiviert die Forschung im Bereich des Schlussfolgerns auf multimodalen Graphen (MMGs), bei denen jeder Knoten sowohl textuelle als auch visuelle Attribute besitzt und Kanten strukturelle Hinweise liefern.
Die Ermöglichung von LLM-basiertem Schlussfolgern auf solch heterogenen multimodalen Signalen bei gleichzeitiger Bewahrung der Graphentopologie stellt zwei wesentliche Herausforderungen dar: die Bewältigung einer oft schwachen konsistenten Daten über verschiedene Modalitäten hinweg und der Umgang mit heterogenen Modalitätspräferenzen. Um diese Probleme zu adressieren, wurde Mario vorgeschlagen, ein vereinheitlichtes Framework, das beide Herausforderungen gleichzeitig löst und effektives LLM-basiertes Schlussfolgern über MMGs ermöglicht.
Mario ist in zwei Hauptstufen unterteilt, die jeweils spezifische Probleme im Umgang mit multimodalen Graphen lösen:
Die erste Stufe von Mario konzentriert sich auf die Verbesserung der konsistenten Daten über verschiedene Modalitäten hinweg. Traditionelle VLMs behandeln Bilder und Texte oft als separate Einheiten. In realen MMGs können jedoch die Bild- und Textinformationen eines Knotens unvollständig, verrauscht oder semantisch nicht vollständig synchronisiert sein. Dies führt zu einer schwachen konsistenten Daten über verschiedene Modalitäten hinweg, die das Schlussfolgern erschwert.
Mario begegnet diesem Problem durch ein graphenkonditioniertes VLM-Design. Dieses Design verfeinert textuelle und visuelle Merkmale gemeinsam mittels eines feingranularen, modalitätsübergreifenden, kontrastiven Lernansatzes, der durch die Graphentopologie geleitet wird. Das bedeutet, dass das Modell nicht nur die Ähnlichkeit zwischen den Modalitäten eines einzelnen Knotens betrachtet, sondern auch die strukturellen Beziehungen zu benachbarten Knoten einbezieht. Dadurch werden die Repräsentationen von Text und Bild besser aufeinander abgestimmt und um kontextuelle Informationen aus dem Graphen angereichert. Dies führt zu „strukturbewussten, modalitätsübergreifend kohärenten Knotenrepräsentationen“.
Nachdem die konsistenten Daten über verschiedene Modalitäten hinweg in der ersten Stufe verbessert wurden, widmet sich die zweite Stufe der Herausforderung der heterogenen Modalitätspräferenzen. In MMGs kann die Informationsdichte und Relevanz jeder Modalität stark variieren. Einige Knoten sind textuell reichhaltig beschrieben, während andere stark von visuellen Hinweisen abhängen. Eine "Einheitsgröße für alle" (One-size-fits-all) Prompting-Strategie für LLMs würde diese unterschiedlichen Präferenzen ignorieren und somit die Leistung beeinträchtigen.
Hier setzt der modalitätsadaptive Graph Instruction Tuning-Mechanismus an. Dieser Mechanismus organisiert die bereits ausgerichteten multimodalen Merkmale in graphenbewusste Instruktionsansichten. Ein lernfähiger Router wird eingesetzt, um für jeden Knoten und seine Umgebung die informativste Modalitätskonfiguration für das LLM zu identifizieren und zu nutzen. Der Router lernt dynamisch, welche Modalität (Text, Bild oder beides) für eine bestimmte Aufgabe und einen bestimmten Knoten am relevantesten ist. Dies ermöglicht es dem LLM, sich auf die aussagekräftigsten Informationen zu konzentrieren und rauschbehaftete oder weniger relevante Modalitäten zu unterdrücken.
Umfassende Experimente auf verschiedenen MMG-Benchmarks, darunter E-Commerce-Datensätze (Amazon-Arts&Crafts, Amazon-CDs&Vinyl, Amazon-Movies, Amazon-Toys), soziale Netzwerke (Reddit-S) und Literatur (Goodreads), zeigen die Leistungsfähigkeit von Mario. Die Ergebnisse demonstrieren, dass Mario die Leistungsfähigkeit von hochmodernen Graphenmodellen sowohl in überwachten als auch in Zero-Shot-Szenarien für Aufgaben wie die Knotenklassifizierung und Link-Vorhersage durchweg übertrifft.
Die Arbeit an Mario beleuchtet zwei bisher wenig erforschte Herausforderungen im MMG-Schlussfolgern: die schwache konsistente Daten über verschiedene Modalitäten hinweg und die heterogenen Modalitätspräferenzen. Durch die Einführung eines neuartigen, zweistufigen Frameworks, das strukturbewusste Bild-Text-Ausrichtung mit einem graphenkonditionierten Vision-Language Model durchführt und anschließend modalitätsadaptives Graph Instruction Tuning über einen lernfähigen Router anwendet, der knotenspezifisches Routing lernt, um die Modalitätspräferenzen der Knoten zu erfüllen, setzt Mario neue Maßstäbe. Die umfassenden Experimente auf verschiedenen MMG-Benchmarks bestätigen, dass Mario bestehende Ansätze durchweg übertrifft und ein zuverlässigeres multimodales Graphen-Schlussfolgern ermöglicht. Diese Forschung ebnet den Weg für zukünftige Fortschritte im LLM-basierten multimodalen Graphen-Schlussfolgern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen