Veröffentlichung des quelloffenen multimodalen KI-Modells Aria durch das japanische Startup Rhymes AI

Kategorien:

No items found.

Freigegeben:

October 10, 2024

kostenlos testen KI für Unternehmen Termin buchen

Artikel jetzt als Podcast anhören

Das japanische Startup Rhymes AI veröffentlicht quelloffenes, multimodales KI-Modell Aria

Das japanische Startup Rhymes AI hat sein erstes KI-Modell, Aria, als Open-Source-Software veröffentlicht. Laut Unternehmensangaben ist Aria das weltweit erste quelloffene, multimodale Mixture-of-Experts (MoE)-Modell. Rhymes AI definiert ein nativ multimodales Modell als ein Modell, das die Verständnisfähigkeiten von spezialisierten Modellen mit vergleichbarer Kapazität über mehrere Eingabemodalitäten wie Text, Code, Bild und Video hinweg erreicht oder übertrifft.

Was sind MoE-Modelle?

MoE-Modelle ersetzen die Feedforward-Schichten eines Transformators durch mehrere spezialisierte Experten. Für jedes Eingabetoken wählt ein Router-Modul eine Teilmenge der Experten aus, wodurch die Anzahl der aktiven Parameter pro Token reduziert und die Recheneffizienz erhöht wird. Bekannte Vertreter dieser Klasse sind Mixtral 8x7B und DeepSeek-V2. Vermutlich basiert auch GPT-4 auf dieser Architektur.

Details zu Aria

Der MoE-Decoder von Aria aktiviert 3,5 Milliarden Parameter pro Text-Token und verfügt über insgesamt 24,9 Milliarden Parameter. Ein leichtgewichtiger visueller Encoder mit 438 Millionen Parametern wandelt visuelle Eingaben unterschiedlicher Länge, Größe und Seitenverhältnisse in visuelle Token um. Aria verfügt über ein multimodales Kontextfenster von 64.000 Token.

Trainingsphasen von Aria

Rhymes AI hat Aria in vier Phasen vortrainiert: zunächst nur mit Textdaten, dann mit einer Mischung aus Text- und multimodalen Daten, gefolgt von einem Training mit langen Sequenzen und schließlich mit einer Feinabstimmung.

Insgesamt wurde Aria mit 6,4 Billionen Text-Token und 400 Milliarden multimodalen Token vortrainiert. Das Material stammt unter anderem aus den bekannten Datensätzen von Common Crawl und LAION und wurde teilweise synthetisch angereichert.

Benchmark-Ergebnisse

Im Vergleich zu Modellen wie Pixtral-12B und Llama-3.2-11B zeigt Aria laut Benchmarks bei einer Vielzahl von multimodalen, sprachlichen und Programmieraufgaben eine überlegene Leistung bei gleichzeitig geringeren Inferenzkosten aufgrund der geringeren Anzahl aktivierter Parameter. Darüber hinaus soll Aria auch mit proprietären Modellen wie GPT-4o und Gemini-1.5 bei verschiedenen multimodalen Aufgaben mithalten können.

Laut Rhymes AI erzielt Aria auch gute Ergebnisse mit langen multimodalen Eingaben wie Videos mit Untertiteln oder mehrseitigen Dokumenten. Im Gegensatz zu anderen Open-Source-Modellen soll Aria lange Videos besser verstehen als GPT-4o mini und lange Dokumente besser als Gemini 1.5 Flash.

Open-Source-Lizenz und Partnerschaft mit AMD

Rhymes AI hat den Quellcode von Aria auf GitHub unter der Apache-2.0-Lizenz zur Verfügung gestellt, die sowohl die akademische als auch die kommerzielle Nutzung erlaubt. Um die Einführung zu erleichtern, hat das Unternehmen außerdem ein Trainingsframework veröffentlicht, mit dem Aria mit nur einer GPU auf eine Vielzahl von Datenquellen und -formaten feinabgestimmt werden kann.

Rhymes AI wurde von ehemaligen Google-AI-Experten gegründet. Ähnlich wie bei einigen anderen aufstrebenden KI-Unternehmen ist es das Ziel, leistungsstarke Modelle zu entwickeln, die für alle zugänglich sind. Das Unternehmen hat 30 Millionen US-Dollar an Anschubfinanzierung erhalten.

Um die Leistung seiner Modelle durch den Einsatz von AMD-Hardware zu optimieren, ist Rhymes AI eine Partnerschaft mit dem Chiphersteller eingegangen. Auf der AMD-Konferenz "Advancing AI 2024" stellte Rhymes AI seine für Verbraucher entwickelte Suchanwendung BeaGo vor, die auf dem MI300X-Beschleuniger von AMD läuft und laut Rhymes AI umfassende KI-Suchergebnisse für Text und Bilder liefert.

In einem Video vergleicht sich BeaGo mit Perplexity und Gemini. Die App, die derzeit kostenlos für iOS und Android verfügbar ist, unterstützt neben der Suchmaschinenanbindung offenbar nur Text- und englische Spracheingabe. Außerdem schlägt sie KI-Zusammenfassungen aktueller Nachrichten und Links zu verschiedenen Online-Artikeln vor.

Fazit

Mit der Veröffentlichung von Aria als Open-Source-Modell setzt Rhymes AI ein starkes Zeichen für die Demokratisierung von KI. Die Kombination aus Leistungsfähigkeit, Vielseitigkeit und offener Verfügbarkeit macht Aria zu einem vielversprechenden Werkzeug für Entwickler, Forscher und Unternehmen, die das Potenzial multimodaler KI-Modelle ausschöpfen möchten.

Bibliographie

http://arxiv.org/abs/2410.05993 https://www.wired.com/story/molmo-open-source-multimodal-ai-model-allen-institute-agents/ https://medium.com/@researchgraph/molmo-ai-revolutionising-open-source-multimodal-intelligence-f6bb9489f6d3 https://techcrunch.com/2024/09/25/ai2s-molmo-shows-open-source-can-meet-and-beat-closed-multimodal-models/ https://www.technologyreview.com/2024/09/25/1104465/a-tiny-new-open-source-ai-model-performs-as-well-as-powerful-big-ones/ https://www.zdnet.com/article/chatgpt-vs-microsoft-copilot-vs-gemini-which-is-the-best-ai-chatbot/ https://www.gov.uk/government/publications/international-scientific-report-on-the-safety-of-advanced-ai/international-scientific-report-on-the-safety-of-advanced-ai-interim-report https://zilliz.com/learn/top-10-best-multimodal-ai-models-you-should-know https://ar5iv.labs.arxiv.org/abs/2311.18259 https://www.youtube.com/watch?v=7EJ2iUv2_O0

Was bedeutet das?

Mindverse vs ChatGPT Plus Widget

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

✓

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen

✓

Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning

✓

Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)

✓

Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.