Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Welt der Künstlichen Intelligenz (KI) ist ständig im Wandel. Ein bemerkenswertes Beispiel für die jüngsten Fortschritte in diesem Bereich ist das Projekt Oryx, ein neues Multi-Level Language Model (MLLM), das von einem Team von Wissenschaftlern entwickelt wurde. Das Team, bestehend aus Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu und Yongming Rao, hat eine wegweisende Technologie geschaffen, die eine auf Abruf verfügbare räumlich-zeitliche Analyse mit beliebiger Auflösung ermöglicht. Diese Innovation verspricht, bestehende Modelle in einer Vielzahl von Aufgaben, einschließlich Bildklassifizierung, Objekterkennung und Videoverständnis, zu übertreffen.
Visuelle Daten kommen in verschiedenen Formen vor, von kleinen Symbolen mit nur wenigen Pixeln bis hin zu langen Videos, die Stunden dauern. Bisher haben bestehende multimodale Sprachmodelle (LLMs) diese vielfältigen visuellen Eingaben in einer festen Auflösung standardisiert. Dieser Ansatz ist jedoch nicht optimal für das multimodale Verständnis und ineffizient bei der Verarbeitung von Eingaben mit langen und kurzen visuellen Inhalten. Um dieses Problem zu lösen, wurde Oryx entwickelt, eine einheitliche multimodale Architektur für das räumlich-zeitliche Verständnis von Bildern, Videos und mehransichtigen 3D-Szenen.
Eine der zentralen Innovationen von Oryx ist das vortrainierte OryxViT Modell. Dieses Modell kann Bilder in jeder Auflösung in visuelle Repräsentationen umwandeln, die für Sprachmodelle geeignet sind. Ausgestattet mit adaptiven Positions-Einbettungen und variabler Selbstaufmerksamkeit kann OryxViT visuelle Daten effizient in unterschiedlichen Größen parallel verarbeiten.
Das dynamische Kompressionsmodul von Oryx unterstützt eine Kompression der visuellen Tokens von 1x bis 16x auf Anfrage. Diese Designmerkmale ermöglichen es Oryx, extrem lange visuelle Kontexte, wie Videos, mit niedriger Auflösung und hoher Kompression zu verarbeiten, während gleichzeitig eine hohe Erkennungsgenauigkeit für Aufgaben wie das Dokumentenverständnis mit nativer Auflösung und ohne Kompression beibehalten wird.
Oryx wurde anhand einer Vielzahl von multimodalen Benchmarks evaluiert und zeigte bemerkenswerte Leistungen in sowohl räumlichem als auch zeitlichem Verständnis über Bilder, Videos und mehransichtige 3D-Daten hinweg. Das Modell übertraf bestehende Modelle in allgemeinen und langformigen Videoverständnisaufgaben und erzielte bei Benchmarks wie NextQA, Perception Test, MMBench-Video und MVBench neue Bestwerte. Darüber hinaus zeigte das Modell starke Leistungen im 2D- und 3D-räumlichen Verständnis, was auf seine einheitliche Trainingsstrategie zurückzuführen ist.
Die Entwicklung von Oryx baut auf früheren Forschungsarbeiten im Bereich der visuellen Kodierung in multimodalen LLMs auf. Frühere Modelle wie LLaVA und die Arbeiten von Alayrac et al. und Li et al. nutzten Aufmerksamkeitsmechanismen, um visuelle Merkmale zu erfassen und mit LLMs zu verbinden. Diese Ansätze waren jedoch auf feste Auflösungen beschränkt und konnten daher keine detailreichen Informationen erfassen oder Bilder mit variierenden Seitenverhältnissen flexibel verstehen. Mit OryxViT wird ein innovativer Schritt in der visuellen Kodierung unternommen, der die Wahrnehmung in nativer Auflösung ermöglicht.
Oryx nutzt eine mehrstufige Sprachmodellarchitektur, um räumlich-zeitliches Verständnis bei beliebiger Auflösung auf Abruf zu erreichen. Der Schlüssel zu dieser Innovation ist der Einsatz eines mehrskaligen Aufmerksamkeitsmechanismus, der es dem Modell ermöglicht, dynamisch auf verschiedene Detailstufen innerhalb der Eingabe zu fokussieren.
Die Architektur von Oryx besteht aus mehreren Encoder- und Decoder-Modulen, die jeweils auf unterschiedlichen räumlichen und zeitlichen Skalen arbeiten. Diese Module sind durch eine Reihe von auf Aufmerksamkeit basierenden Fusionsschichten verbunden, die es dem Modell ermöglichen, Informationen nahtlos über verschiedene Skalen hinweg zu integrieren.
Während der Inferenz kann Oryx adaptiv Rechenressourcen auf verschiedene Teile der Eingabe verteilen, je nach den spezifischen Anforderungen der jeweiligen Aufgabe. Dies ermöglicht es dem Modell, eine maßgeschneiderte Antwort zu liefern, die sowohl Genauigkeit als auch Effizienz optimiert.
Obwohl das Oryx-Modell eine überzeugende Herangehensweise an das räumlich-zeitliche Verständnis präsentiert, sollten auch einige potenzielle Einschränkungen und Bereiche für weitere Forschung berücksichtigt werden.
Eine mögliche Einschränkung ist die Komplexität der Oryx-Architektur, die es schwierig machen könnte, den Entscheidungsprozess des Modells zu interpretieren und zu debuggen. Die Autoren erkennen dieses Problem an und schlagen vor, dass zukünftige Arbeiten sich auf die Entwicklung interpretierbarer Varianten des Modells konzentrieren sollten.
Darüber hinaus liefert das Papier keine umfassende Analyse der Robustheit des Modells gegenüber Verteilungsschiebungen oder adversarialen Angriffen. Für reale Anwendungen könnte ein tieferes Verständnis der Grenzen des Modells in diesen Bereichen erforderlich sein.
Weitere Forschungen könnten auch das Potenzial von Oryx in anderen Bereichen wie medizinische Bildgebung, Überwachung oder Robotik untersuchen, wo ein räumlich-zeitliches Verständnis auf Abruf einen signifikanten Einfluss haben könnte.
Oryx stellt einen bedeutenden Fortschritt im Bereich der mehrstufigen Sprachmodelle dar, mit der Fähigkeit, räumlich-zeitliches Verständnis bei beliebiger Auflösung auf Abruf zu ermöglichen. Diese Innovation eröffnet neue Möglichkeiten für eine Vielzahl von Anwendungen, von autonomen Fahrzeugen bis hin zur medizinischen Bildgebung, bei denen ein tiefes, facettenreiches Verständnis komplexer Daten entscheidend ist.
Obwohl die Komplexität des Modells einige Herausforderungen mit sich bringt, deuten die beeindruckenden Leistungen darauf hin, dass Oryx einen vielversprechenden Schritt hin zu vielseitigeren und kontextuellen KI-Systemen darstellt. Während sich das Feld des räumlich-zeitlichen Verständnisses weiterentwickelt, wird Forschung wie diese entscheidend sein, um die Entwicklung noch fähigerer und anpassungsfähigerer Modelle voranzutreiben.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen