Das japanische Startup Rhymes AI hat sein erstes KI-Modell, Aria, als Open-Source-Software veröffentlicht. Laut Unternehmensangaben ist Aria das weltweit erste quelloffene, multimodale Mixture-of-Experts (MoE)-Modell. Rhymes AI definiert ein nativ multimodales Modell als ein Modell, das die Verständnisfähigkeiten von spezialisierten Modellen mit vergleichbarer Kapazität über mehrere Eingabemodalitäten wie Text, Code, Bild und Video hinweg erreicht oder übertrifft.
MoE-Modelle ersetzen die Feedforward-Schichten eines Transformators durch mehrere spezialisierte Experten. Für jedes Eingabetoken wählt ein Router-Modul eine Teilmenge der Experten aus, wodurch die Anzahl der aktiven Parameter pro Token reduziert und die Recheneffizienz erhöht wird. Bekannte Vertreter dieser Klasse sind Mixtral 8x7B und DeepSeek-V2. Vermutlich basiert auch GPT-4 auf dieser Architektur.
Der MoE-Decoder von Aria aktiviert 3,5 Milliarden Parameter pro Text-Token und verfügt über insgesamt 24,9 Milliarden Parameter. Ein leichtgewichtiger visueller Encoder mit 438 Millionen Parametern wandelt visuelle Eingaben unterschiedlicher Länge, Größe und Seitenverhältnisse in visuelle Token um. Aria verfügt über ein multimodales Kontextfenster von 64.000 Token.
Rhymes AI hat Aria in vier Phasen vortrainiert: zunächst nur mit Textdaten, dann mit einer Mischung aus Text- und multimodalen Daten, gefolgt von einem Training mit langen Sequenzen und schließlich mit einer Feinabstimmung.
Insgesamt wurde Aria mit 6,4 Billionen Text-Token und 400 Milliarden multimodalen Token vortrainiert. Das Material stammt unter anderem aus den bekannten Datensätzen von Common Crawl und LAION und wurde teilweise synthetisch angereichert.
Im Vergleich zu Modellen wie Pixtral-12B und Llama-3.2-11B zeigt Aria laut Benchmarks bei einer Vielzahl von multimodalen, sprachlichen und Programmieraufgaben eine überlegene Leistung bei gleichzeitig geringeren Inferenzkosten aufgrund der geringeren Anzahl aktivierter Parameter. Darüber hinaus soll Aria auch mit proprietären Modellen wie GPT-4o und Gemini-1.5 bei verschiedenen multimodalen Aufgaben mithalten können.
Laut Rhymes AI erzielt Aria auch gute Ergebnisse mit langen multimodalen Eingaben wie Videos mit Untertiteln oder mehrseitigen Dokumenten. Im Gegensatz zu anderen Open-Source-Modellen soll Aria lange Videos besser verstehen als GPT-4o mini und lange Dokumente besser als Gemini 1.5 Flash.
Rhymes AI hat den Quellcode von Aria auf GitHub unter der Apache-2.0-Lizenz zur Verfügung gestellt, die sowohl die akademische als auch die kommerzielle Nutzung erlaubt. Um die Einführung zu erleichtern, hat das Unternehmen außerdem ein Trainingsframework veröffentlicht, mit dem Aria mit nur einer GPU auf eine Vielzahl von Datenquellen und -formaten feinabgestimmt werden kann.
Rhymes AI wurde von ehemaligen Google-AI-Experten gegründet. Ähnlich wie bei einigen anderen aufstrebenden KI-Unternehmen ist es das Ziel, leistungsstarke Modelle zu entwickeln, die für alle zugänglich sind. Das Unternehmen hat 30 Millionen US-Dollar an Anschubfinanzierung erhalten.
Um die Leistung seiner Modelle durch den Einsatz von AMD-Hardware zu optimieren, ist Rhymes AI eine Partnerschaft mit dem Chiphersteller eingegangen. Auf der AMD-Konferenz "Advancing AI 2024" stellte Rhymes AI seine für Verbraucher entwickelte Suchanwendung BeaGo vor, die auf dem MI300X-Beschleuniger von AMD läuft und laut Rhymes AI umfassende KI-Suchergebnisse für Text und Bilder liefert.
In einem Video vergleicht sich BeaGo mit Perplexity und Gemini. Die App, die derzeit kostenlos für iOS und Android verfügbar ist, unterstützt neben der Suchmaschinenanbindung offenbar nur Text- und englische Spracheingabe. Außerdem schlägt sie KI-Zusammenfassungen aktueller Nachrichten und Links zu verschiedenen Online-Artikeln vor.
Mit der Veröffentlichung von Aria als Open-Source-Modell setzt Rhymes AI ein starkes Zeichen für die Demokratisierung von KI. Die Kombination aus Leistungsfähigkeit, Vielseitigkeit und offener Verfügbarkeit macht Aria zu einem vielversprechenden Werkzeug für Entwickler, Forscher und Unternehmen, die das Potenzial multimodaler KI-Modelle ausschöpfen möchten.